Тематическая классификация веб сайтов
Зачем это нужно, я думаю, объяснять ненужно.
Но как происходит тематическая классификация? Какие использовать алгоритмы и на что обратить внимание?
По сути способов много и они варьируются от очень простых до довольно сложных.
1. Ручная классификация
Нанимается группа аналитиков, каждому даётся своя выборка ресурсов и они последовательно открывают каждый и вбивают в систему. Стоимость такой классификации довольно велика, но и точность, при хорошей подготовке аналитиков, на высоком уровне.
2. Пользовательская классификация (прямая)
Наполнение системы по принципу публичного каталога. Пользователь, владелец сайта регистрирует его и классифицирует самостоятельно. Он получает ссылку, система получает классифицированный ресурс. Минус в том что ресурс может быть малозначим и далеко не всем реально нужно свои сайты продвигать, в итоге масса некоммерческих ресурсов в подобной системе будет отсутствовать.
3. Пользовательская классификация (опосредованная)
Для этой цели используются не специальные каталоги, а сервисы закладок вроде del.icio.us и прочих. Тематика определяется сочетаемостью ключевых слов и подпаданием их под тематические категории. В этом случае основным классификационным фильтром является популярность того или иного веб ресурса. Минус в том что закладки обычно ставят на страницы, а не просто на сайты. Соответственно тематика сайта и отдельной страницы может существенно отличаться.
4. IR алгоритмы
Сюда можно отнести TF*IDF, аннотирование сайтов, анализ частот словосочетаний подпадающих под определённые тематические категории. Ошибки в данном случае могут быть всегда, особенно для сайтов аггрегаторов, блогов и так далее. Как я понимаю сейчас это одно из направлений развития/улучшения поисковиками своих возможностей.
5. Семантическое (смысловое) связывание
Это как раз самое интересное и используемое пока лишь по минимуму. В данном случае также используется алгоритмический анализ сайтов, но в рамках отношений с другими информационными массивами, другими сайтами и так далее.
В данном случае математика алгоритмов очень проста, но сложны отношения между связанными объектами поскольку для подобного связывания требуется анализ не только структуры отдельного сайта, но и отношения элементов структуры с внешними объектами.
Но всё, в конечном итоге, упирается в информационную модель, если угодно, онтологическую модель характеристик каждого отдельного ресурса. Тематическая классификация разделяет в итоге на ответы на вопросы: ЧТО? КДЕ? О ЧЁМ?
ЧТО? — это ответ о природе информации в ресурсе. Новости, справочная информация, объявления, UGC и так далее
ГДЕ? — территориальное местонахождение.
О ЧЁМ? — непосредственно отраслевая тематика.
Если приглядеться к каталогу сайтов Яндекса, то он выглядит из срезов являющихся ответами на эти вопросы. Но, каталог Яндекса наполняется, в основном вручную, как и большинство других каталогов. Сайты в каталоге могут выступать как эталонная выборка для последующей классификации, но эталонная выборка классифицирована вручную.
Вопрос: а можно ли классифицировать сайты автоматически, отвечая на 3 вопроса выше и при этом минимизируя или вообще не привлекая человеческие ресурсы?
Лично я считаю что это возможно. Причём, как всегда, решение кроется в сложной систематизации и в крайне простых алгоритмах.
А в том что касается определения территориального местонахождения сайта, по этой теме в моём блоге множество заметок — это уже решённая задача.
P.S. Тематическая классификация более простых объектов вроде RSS лент, отдельных записей в RSS, ссылок и файлов — ещё проще.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






