Ранее я упоминал про недавнее исследование из Яндекса – Автоматическая классификация веб сайтов (в PDF) и что лично я несогласен с подходом использующим классификацию по ключевым словам. Главное – это то что у Яндекса как и других поисковых систем, на самом деле, куда больше информации о сайтах, пользователях и их взаимодействии чем просто страницы и ключевые слова. Этой информации столь много – что принцип «больше данных, проще алгоритмы» должен подходить здесь на 100% и я опишу несколько вариантов классификации сайтов построенных именно на таких данных.
1. Классификация по аудитории
Ключевые слова на сайте – суть отражение его содержания, для понимания каждой из тематических областей необходимо формировать набор ключевых слов и выражений специфичных для этой области. С другой стороны для практически каждого человека работающего в сети и вообще справедливо то что он обладает ограниченным число тем в которые ему интересны. Отсюда и аудитории тематически близких сайтов пересекаются, порой значительно. Если мы знаем на какие сайты (темы) заходил пользователь ранее и если можем получить оценки проведённого им на этих сайтах времени, то собрав агреггированную статистику мы можем предполагать темы других сайтов.
В случае Яндекса задача сбора информации об аудитории сложной быть не должна поскольку в качестве эталонной выборки сайтов могут использоваться сайты внесённые в Яндекс.Каталог, а для определения посетителя показы рекламы в Директе.
Таким образом как раз у Яндекса есть возможность определения тематики сайта по аудитории.
Ограничения этого подхода в том что для отслеживания аудитории необходим свой счетчик (или рекламный блок) на анализируемом сайте.
2. Классификация по карте объектов сайта
Карта объектов – это совокупность смысловых и структурных объектов (обладающих собственным значением или связанными со смысловыми понятиями элементов сайта).
Приведу несколько примеров элементов объектной разметки:
- новостная лента как частный случай списка включающего даты, который является частным случаем списка в принципе
- табличные данные
- навигационное меню сайта
- счетчики
- рекламные блоки
плюс множество других объектов.
Каждый объект обладает собственными свойствами, отношениями к другим объектам и, в некоторых случаях, веб ресурсам.
При классификации сайта, из карты объектов извлекаются необходимые для классификации характеристики и уже на их основе работает алгоритм классификации.
На основе упрощённой версии именно такого подхода работает мой алгоритм определения коммерциализованности сайта.
Лично я считаю именно этот подход наиболее переспективным.
3. Классификация по входящим и исходящим ссылкам
Это довольно простая классификация – анализ входящих и исходящих ссылок на ресурсы на которые ссылается анализируемый сайт и ссылки с внешних сайтов. По сути это почти тематическое цитирование, но адаптированное под классификацию, а не под ранжирование.
4. Классификация по интересам владельцев сайтов
Это один из «рунетоспецифичных подходов» которые можно отнести к экзотическим, но, тем не менее. Чаще всего создатели и владельцы сайтов придерживаются определённых тем в своих работах. Издательские дома делают сайты по книгам и газетам, квасные фабрики – про квас, финансисты – про финансы и так далее.
Анализируя WHOIS данные, мы можем делать предположения о тематике веб сайта на основе ранее классифицированных сайтов того же владельца.
5. Классификация по социальным закладкам
В отличии от классических каталогов сайтов в социальных закладках в разы больше ссылок на самые разные ресурсы. Мы можем провести классификацию сайта агреггируя тэги социальных закладок с различных сайтов социальных закладок и проводить классификацию даже без построения bag-of-words (набора слов) с анализируемых страниц на сайте. В этом подходе мы возвращаемся к ключевым словам, но он доступен не только крупным поисковым системам, но и условно простым пользователям