Поисковый антиспам. Алгоритмы

Продолжая тему борьбы с поисковым спамом, основные направления я уже описывал по отдельности, чуть подробнее о всех вместе, на основе публично доступных материалов.

1. Анализ хостграфов и плотности PageRank

Подход на 100% математический и требующих больших вычислительных мощностей для работы. В частности детально рассматриваются все аномалии в разницах весов ссылающихся страниц и их адресатов. Если, к примеру, страница с PageRank 7 ссылается на страницу с PageRank 2, то всё ли здесь в порядке. В реальной работе эти алгоритмы куда сложнее, учитывают «кластеры сайтов», тематику и многие другие критерии.

Например, таким образом могут вычисляться и вычисляются «фермы ссылок».

2. TrustRank — анализ по критериям доверия и ручной выборке сайтов

TrustRank реализует две идеи. Первая в том что «доверенных сайтов» с высоким рейтингом относительно немного и их список можно составить и проверить ограниченным числом операторов, вторая в том что есть ресурсы не вызывающие доверия и в этом случае не только они могут быть исключены из поискового индекса, но и ссылающиеся на них сайты могут упасть в рейтинге.

Расчёт производится по принципу расходящихся волн, когда максимальный рейтинг в изначальной выборке (онаназывается oracle), у сайтов на которые они ссылаются рейтинг меньше, у следующего уровня ещё меньше и так далее.

Соответственно если у сайта высокий PageRank, но низкий TrustRank, то это может быть причиной заключения о том что данный сайт покупает на себя ссылки или занимается иной «чёрной оптимизацией».

3. Мониторинг «зон риска»

Пример такого мониторинга в Рунете это AnalyzeThis Ашманова и партнёров. Идея в том что есть ограниченное число ключевых слов и тем по которым SEO занимаются активным продвижением своих ресурсов. Эти ключевые слова и темы мониторятся не только оптимизаторами, но и поисковыми системами.

Каждый новый ресурс меняющий свою позицию в таких выборках проверяется на коммерческую направленность проверкой того сколько он зарабатывает на рекламе и организует ли свои рекламные компании. Учитывая что большинство поисковых систем аффилированы с рекламными компаниями или предоставляют эти услуги сами, то и проверки осущесвить не столь уж сложно.

На основе этих проверок уже можно принимать решение о том закреплять ли продвижение сайта в поисковой выдаче или же минимизировать его присутствие.

4. Анализ ссылок по их написанию.

Среди SEO бытует мнение что использование ключевых слов в названиях сайта значительно повышает возможности по его продвижению. Особенно это касается «чёрной оптимизации», дорвеев и не только.

Реальность же в том что используя методы n-gram и DMC (Dynamic Markov Compression) как раз специально созданные под оптимизацию выявляются вполне успешно. Ключевое отличие оптимизируемых сайтов от нормальных в том что большинство обычных сайтов используют написание в виде бренда, в то время как спам сайты делают акцент на продвигаемых словах.

5. Контентный анализ

Это анализ содержимого веб страницы и ссылки в контексте сайта, накопленных статистических данных, метрик и других критериев для принятия решения о статусе страницы — является ли она спамом или нет. Публикаций на эту тему немного, во многом потому как из всего перечисленного это самая сложная задача. В идеальном своём решении она неразрывно связана с «объектной картой» веб страницы и сайта в целом. Частично её облегчают возможности Semantic Web — RSS, FOAF, Atom и прочая структурированная информация.

Проблема контентного анализа в его производительности и в том что для выработки критериев оценки необходимо гораздо больше ресурсов и усилия чем даже для анализа хостграфов, поскольку для хостграфов достаточно знать лишь отношения между страницами, а вот для контентного анализа необходимо каждую страницу превращать в сотни метрик, а далее формировать алгоритмы для принятия решения о том какие метрики необходимо принимать в расчёт.

Например, мой алгоритм (устаревшая его версия) http://urlus.ru/linkcheck2/ работает именно на контентном анализе.

6. «Песочница»

У каждой ссылки есть дата и время рождения. Для каждой поисковой системы — это время когда на сайт появляется первая ссылка. Достаточно установить период ожидания для появления ресурса в поисковом индексе и роста его PageRank (или ТиЦ и аналогов) чтобы значительно увеличить время необходимое на поисковое продвижение. В некоторых случаях такой подход может быть важен, но тут вопрос что важнее — как можно быстрее и полнее индексировать всё новое или же минимизировать потенциальный спам.

——

Плюс ко всему этому есть ещё множество критериев исследований по которым просто нет. А также ряд критериев которые можно сформировать, но, при этом необходима «живая» поисковая машина рядом и возможность извлекать из неё не только поисковую выдачу, но и ряд метаданных.

В любом случае будущее, на мой взгляд, в направлении контентных алгоритмов для корректируемых дополнительными расчётами по хостграфам.

P.S. Кстати, многие материалы по теме, оказывается, трудно найти по той причине что они публикуются в PDF со слайдами в виде изображений вместо текста. Сознательно ли это или случайно — сказать не берусь, но найти такие документы по ключевым словам вроде «PageRank», «TrustRank» или «Web spam» просто нереально.

Такие вот пироги.

About This Author

Яндекс.Метрика