Посты в категории: poisk

Автоматическое индексирование отсканированных документов

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск — например, вот так и щелкнув на ссылку «просмотреть» переходим в Google

Читать больше

Работа с данными с нечеткой структурой

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая

Читать больше

Ещё о регулярных выражениях и их анализе

Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач.

Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования необходимо забыть про DFA и NFA и не вспоминать столь долго сколь

Читать больше

Официальный гайд Google по SEO

Гугл опубликовали у себя в блоге 22 страничный PDF документ с рекомендациями по оптимизации сайтов под поисковые системы.

Нового там мало, основной акцент на правильной подачи собственного контента.

В то же время, что характерно, правила описанные там значительно пересекаются с общими правилами подачи информации которые я ранее упоминал у себя

Читать больше

О поисках по отдельным сайтам и CMS

Что меня удивляло и продолжает удивлять так это так это нерасторопность поисковых машин, за исключением Google,  в продвижении своих сервисов везде где только возможно.

Например, организация поиска по собственному сайту с помощью внешнего поисковика требует хоть и не слишком многих, но всё же усилий и хотя бы небольшого понимания HTML. Да

Читать больше

Информационная архитектура наоборот и анализ форм

В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.

Интересно и другое — анализ веб ресурсов очень тесно

Читать больше

Yandex vs. Google vs. MailRu. Личное мнение

Моё личное мнение на тему сможет ли Google выдавить Яндекс с места лидируещего поисковика в России или нет заключается в том что решение кроется не только в техническое конкуренции, но и целенаправленном лоббировании своих сервисов на государственном уровне. Благо есть значительное число онлайн сервисов которые государству нужны сейчас или будут

Читать больше

Cсылки на 1.01.2009: Twitter, IR, инструменты, профили в соц. сетях и другое

Социальные сети, Twitter, Evernote и так далее:

  • TWHirl — удобное настольное ПО для работы с Twitter’ом изготовленный с помощью Adobe AIR. Бесплатный, удобный, англоязычный. У него есть и российский сайт — http://twhirl.ru, но пока его не пробовал.
  • CEO/CIO/CTO Twitters list — большая подборка на Twitter Feeds различных CIO, CTO

    Читать больше

Ссылки. Поиск схожих изображений и прочие поиски по изображениям

  • Alipr — Automatic Photo Tagging and Visual Image Search
  • Simplicity — Semantics-sensitive Integrated Matching for Picture LIbraries
  • a-LIP — Automatic Linguistic Indexing of Pictures
  • Tiltomo — поиск изображений по похожести
  • Cydral — поисковик родом из франции (на английском)
  • Gazopa — поисковик как венчурный проект Hitachi работающий в полузакрытом режиме.
  • Читать больше

Веб, списки и уникальность страниц

Относительно недавно, размышляя над антипаттернами юзабилити, там же я упоминал про такое явление как сдвиге идентификаторов элементов веб списках. Это довольно большая тема сама по себе и я раскрою её подробнее.

Вначале озвучу проблему: подавляющее число информационных систем никак не учитывают формы представления информации которую они предоставляют пользователям

Читать больше

Яндекс.Метрика