Тематическая классификация веб сайтов

Зачем это нужно, я думаю, объяснять ненужно.

Но как происходит тематическая классификация? Какие использовать алгоритмы и на что обратить внимание?

По сути способов много и они варьируются от очень простых до довольно сложных.

1. Ручная классификация

Нанимается группа аналитиков, каждому даётся своя выборка ресурсов и они последовательно открывают каждый и вбивают в систему. Стоимость такой классификации довольно велика, но и точность, при хорошей подготовке аналитиков, на высоком уровне.

2. Пользовательская классификация (прямая)

Наполнение системы по принципу публичного каталога. Пользователь, владелец сайта регистрирует его и классифицирует самостоятельно. Он получает ссылку, система получает классифицированный ресурс. Минус в том что ресурс может быть малозначим и далеко не всем реально нужно свои сайты продвигать, в итоге масса некоммерческих ресурсов в подобной системе будет отсутствовать.

3. Пользовательская классификация (опосредованная)

Для этой цели используются не специальные каталоги, а сервисы закладок вроде del.icio.us и прочих. Тематика определяется сочетаемостью ключевых слов и подпаданием их под тематические категории. В этом случае основным классификационным фильтром является популярность того или иного веб ресурса. Минус в том что закладки обычно ставят на страницы, а не просто на сайты. Соответственно тематика сайта и отдельной страницы может существенно отличаться.

4. IR алгоритмы

Сюда можно отнести TF*IDF, аннотирование сайтов, анализ частот словосочетаний подпадающих под определённые тематические категории. Ошибки в данном случае могут быть всегда, особенно для сайтов аггрегаторов, блогов и так далее. Как я понимаю сейчас это одно из направлений развития/улучшения поисковиками своих возможностей.

5. Семантическое (смысловое) связывание

Это как раз самое интересное и используемое пока лишь по минимуму. В данном случае также используется алгоритмический анализ сайтов, но в рамках отношений с другими информационными массивами, другими сайтами и так далее.

В данном случае математика алгоритмов очень проста, но сложны отношения между связанными объектами поскольку для подобного связывания требуется анализ не только структуры отдельного сайта, но и отношения элементов структуры с внешними объектами.

Но всё, в конечном итоге, упирается в информационную модель, если угодно, онтологическую модель характеристик каждого отдельного ресурса. Тематическая классификация разделяет в итоге на ответы на вопросы: ЧТО? КДЕ? О ЧЁМ?

ЧТО? — это ответ о природе информации в ресурсе. Новости, справочная информация, объявления, UGC и так далее

ГДЕ? — территориальное местонахождение.

О ЧЁМ? — непосредственно отраслевая тематика.

Если приглядеться к каталогу сайтов Яндекса, то он выглядит из срезов являющихся ответами на эти вопросы. Но, каталог Яндекса наполняется, в основном вручную, как и большинство других каталогов. Сайты в каталоге могут выступать как эталонная выборка для последующей классификации, но эталонная выборка классифицирована вручную.

Вопрос: а можно ли классифицировать сайты автоматически, отвечая на 3 вопроса выше и при этом минимизируя или вообще не привлекая человеческие ресурсы?

Лично я считаю что это возможно. Причём, как всегда, решение кроется в сложной систематизации и в крайне простых алгоритмах.

А в том что касается определения территориального местонахождения сайта, по этой теме в моём блоге множество заметок — это уже решённая задача.

P.S. Тематическая классификация более простых объектов вроде RSS лент, отдельных записей в RSS, ссылок и файлов — ещё проще.

About This Author

Яндекс.Метрика