Ссылочный спам. Подходы к решению проблемы

Я давно не затрагивал тему ссылочного спама, собственно мои исследования уже с месяц как закончились и за рутинными делами и другими исследованиями было немного времени уделить теме больше внимания.

Как я и упоминал ранее, борьба со ссылочным спамом — это скорее рутинная чем сложная задача.

Помня своё обещание рассказать о том как это работает далее привожу описание в практически финальной редакции.

Процесс выявления поискового спама разделяется на 6 компонент:

1. Сбор информации о ресурсе и связанных с ним иных веб ресурсов, включая те на которые ссылается веб страница.

2. Анализ структуры веб страницы и выявление кандидатов на рассмотрение — блоков и отдельных ссылок.

3. Комплексный разбор структуры и текста кандидатов, выявление и формирование таблиц метрик кандидатов

4. Последовательное выполнение правил оценки платности ссылки согласно дереву решений (decision tree).

5. Сортировка результатов на группы (цветные списки):

  • 100% платная ссылка (чёрный список),
  • естественная ссылка (белый список),
  • ссылка под подозрением (серый список),
  • требуется уточнение информации (синий список)

Для ссылок по которым требуется уточнение информации запрашивается дополнительная классификация от пользователя или же собирается дополнительная информация из баз метаданных.

Далее подробнее по пунктам.

1. Сбор информации о других ресурсах и том на котором мы рассматриваем страницу в принципе задача и система идущая отдельно и параллельно от выявления спама. Она в большей степени работает по принципу семантического интернет каталога где помимо обычной информации — ссылка, текст, аннотация — собирается и регистрируется множество метаданных о статусе, тематике, регионах, типе и иной информации о сайте. Сбор информации — это обязательная часть процедур так как многие правила анализа информации оценивают уровень и характер отношений между ссылающимся сайтом и реципиентом.

2. Анализ структуры веб страницы для задач антиспама от обычного анализа страниц отличается тем что объектом рассмотрения являются отдельные ссылки. Фактически при разборе HTML, дерево тэгов полностью перестраивается и обогащается рядом дополнительных метрик. Это метрики структур данных которые далее используются для поиска смысловых, целевых метрик для выбранного типа анализа. Анализ структуры это практически всегда наиболее ресурсоёмкая операция, в некоторых случаях она может длится до 20 секунд и требовать до 2,5 раз больше памяти чем оригинальная веб страница.

3. Начиная с этого этапа происходит специализация анализа страницы под выявление спама. На основе выявленных структурных метрик, текста и непосредственно структуры тэгов производится выявление кандидатов на поисковый спам, расчёт и формирование смысловых метрик веб страницы и смысловых метрик кандидатов.

4. На этапе оценки для каждого выявленного кандидата применяется набор правил классификации в соответствии с ранее накопленными смысловыми метками. Для этой цели строится последовательность выполнения правил в виде дерева решений. По итогам выполнения дерева решений ссылкам назначаются цветовые метки.

5. Рассмотренные кандидаты сортируются в соответствии с цветовыми метками и для тех ссылок решение по которым не принято — производится дополнительный сбор информации и они остаются для ручной классификации.

Самая сложная часть задачи и та которую я не описываю здесь — это подготовка создания правил классификации и формирование структурных и смысловых меток. Собственно всё остальное — делается однократно и работает как часы, выявление же правил и необходимых для них меток и является рутинной аналитической деятельностью. В своё время, проводя предварительный анализ, спама я оценивал что число правил для классификации около 50, сейчас могу сказать что их столько же и осталось с той лишь разницей что все они действуют с разной точностью и не обязательно все включать для получения ощутимых результатов.

Другая нетривиальная задача — это расчёт меток при разборе дерева HTML. Собственно отсюда и все мои утверждения что HTML — это не просто дерево. Впрочем — эта задача по большей части с выявлением спам ссылок связана лишь частично.

Конечно ещё есть ряд трюков по использованию ранее накопленных классификационных данных, но они выносятся в разряд правил так как также используют совокупность метрик.

Собственно сейчас я практически перестал как-либо развивать именно эту темы и в публичном доступе на Урлусе всё ещё устаревший алгоритм поскольку убедился что, как ни странно, востребованность алгоритмов выявления поискового спама крайне невысока. С чем это связано судить не берусь, просто наблюдение. А вот самих платных ссылок и хостящих их сайтов накопилось уже несколько тысяч, тоже, интересный датасет.

About This Author

Яндекс.Метрика