Автоматическое индексирование отсканированных документов

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск — например, вот так и щелкнув на ссылку «просмотреть» переходим в Google Docs где ещё одним щелчком на «Обычный формат HTML» документ возвращается в виде текста.

В общем, Google нашли себе ещё один большой срез данных. Осталось лишь дождаться когда поисковик начнет заглядывать в архивы, распознавать текст и объекты на картинках и так далее.

About This Author

Яндекс.Метрика