Онтологии IR

Так сложилось что неструктурированные данные и ряд областей работы с ними — классификация, извлечение информации и сфокусированное индексирование для меня являются, и частью работы, в примере Енота Поискуна, и любимым хобби в части анализа ссылок, геоклассификации сайтов и ещё ряда пока закрытых проектов.

Есть технологические области которые до сих пор столь мало охвачены что терминологический вакуум — отсутствие карты концепций является там чем-то чуть ли не нормальным. В то же время когда начинаешь работать с этой областью вплотную, то приходится использовать те крупицы опыта что наработаны в этой области и лишь надеятся что они подойдут или же начинать вводить собственные термины (концепты) двигаясь путём проб и ошибок.

Например, работая с неструктурированными и полу-структурированными данными всегда имеет место смешение подходов, приводящее к смешению терминов. В прошлых моих исследованиях по выявлению платных/спам ссылок, для того чтобы добиться приемлимого качества анализа их выявления возникла необходимость в анализе качества и сравнения форм представления информации, в данном случае тэгов. Но когда я начинаю говорить о формах представления неизбежно приходится сталкиваться с непониманием того что есть форма представления и какова её связь с данными, как проводить анализ форм, а уж говоря о качестве формы так просто нехватка терминологии имеет место быть. Возможно качество формы представления и не самый верный термин, но пока альтернативы подобрать не удаётся.

В свою очередь анализ качества форм и необходимость сравнения приводят к необходимости формирования дополнительных метрик которые могут обладать собственной иерархией параллельной иерархии тэгов в документе, в то же время описать даже только эти метрики в виде терминов задача нетривиальная.

Ко всему каждая частная задача накладывает свои требования новым метрикам и подходом, а объединяя их вместе единый механизм он оказывается безнадёжно переусложнённым и технологически и терминологически — так как разные задачи, зачастую требуют схожих, но немного разных метрик и алгоритмов обработки метаданных.

Например, при анализе ссылок — ссылка является рассматриваемым фактом. Всю остальную информацию на веб странице можно рассматривать не более чем как минимальные факты и метаданные. При этом, для того чтобы добиться высокого качества определения ссылок, рассчитывается порядка 10 дополнительных метрик для минимальных фактов плюс 5 метрик для рассматриваемых фактов (ссылок). В то же время при геоклассификации работа идёт не над фактами — а над особенностями в рамках текста и страницы и связанных с ней концептов. Для определения особенностей дополнительные метрики не требуются, здесь необходим качественный алгоритм классификации и уже от его работы зависит точность последующего назначения метки.

В итоге, несмотря на условную схожесть задач, решаться они могут различными способами, объединение которых в общее решение превращается в сложную технологическую задачу. Так, я уже не раз упоминал — существующие API для доступа к объектам документов как то API для PDF и DOC файлов и Xpath для HTML имеют массу ограничений. Они менее всего приспособлены к тому что помимо основных цепочек форм данных имеются ещё и вспомогательные классификационные цепочки (деревья) по атрибутам и рассчитанным метрикам, а также есть несколько «образов деревьев» (tree view) с этими метриками сильно упрощающие решение ряда частных задач в случаях когда дерево объектов невозможно хранить целиком по множеству причин. Но вот насколько верно использование термина «tree view» у меня есть множество сомнений равно как и по десятку другим метрик структуры путей навигации, веса значимости минимального факта, соответствие накопленному в результате обучения шаблону и многому другому.

А вот с фокусированным индексированием история совершенно иная так как там до сих пор чаще используется извлечение информации на основе предварительно разработанных схем (шаблонов) извлечения. Автоматическое же определение шаблонов смысловых блоков — очень интересная, но никем пока ещё не решённая задача.

Сейчас же, я думаю, что для полноты картины необходимо построение онтологии основных элементарных концептов природы информации, промежуточных данных и метрик необходимых для IR и конечных форм представления. При том что онтологии повсеместно используются в работах по Information Retrieval, тем не менее отсутствует базовая онтологии которая объединяла процессы работы над извлечением информации от неструктурированнгой формы представления до конечного структурного результата, а также отдельные онтологии — основных понятий информационных объектов, онтологии форм представления, онтологии базовых концептов соотнесения форм и информационных объектов.

Решение же частных задач может производится путём упрощённого рассмотрения данных онтологий.

Единственное серьёзное ограничение у такого подхода в том что даже упоминание ряда метрик и концепций используемых в промежуточном анализе может значительно улучшить существующие алгоритмы — так как если это не ноу-хау, то на грани коммерческой информации.

И пара интересных ссылок по Information Retrieval:

About This Author

Яндекс.Метрика