Анализ ссылок — окончательные итоги

Подводя черту под всем что я ранее писал про выявление поискового спама, задачи которую я лично рассматриваю лишь как малое подмножество понимание связей между ресурсами вцелом и автоматической структуризацией информации, так вот итоги которые я могу назвать если не окончательными, то завершающими мой основной интерес к теме.

Всё что я писал про выявление ссылок в контексте, возможностей повышения точности выявления спама до 90% полностью подверждается. Завершив теоретическую часть этого исследования и закончив эксперименты с включением уже всех основных правил отсева не только естественных ссылок, но и спама (более 40 правил суммарно) могу сказать что эта задача абсолютно решаема. Вопрос лишь в желании поисковых систем эту задачу решить.

Некоторые итоги:

1. В среднем, как естественные ссылки выявляется до 60% от общего числа ссылок и 80% от числа всех естественных ссылок на странице.

2. Среднее число спам ссылок варьируется от 10-35% от общего числа в зависимости от тематики и посещаемости сайта.

3. Алгоритм гарантированно отсекает от 45 до 65% спам ссылок от общего их числа, при этом ошибки возникают лишь в 4-6% случаев. То есть из 253 ссылок помеченных как явный спам в блогах, лишь 10 им не являлись. Для новостных сайтов из 213 помеченных как спам, не были им лишь 3 ссылки. Часть этих ошибок проистекает из уже известных изъянов правил, которые также ясно как исправлять.

4. Алгоритм разбора и анализа работает медленно, особенно при первоначальном анализе страницы и сайта, он может занять до 1 минуты. При предварительном обучении, повторный анализ страницы редко занимает больше 20 секунд. Производительность, в любом случае, не являлась самоцелью, целью была полнота картины.

5. Ряд малых экспериментов показал что ценой ещё большего замедления работы алгоритма гарантированно может быть выявлено до 80% спам-ссылок даже только с учётом уже имеющихся данных.

6. Часть правил, к моему великому сожалению, пока не поддаются полной автоматизации и их эффективность зависит от наличия аналитика способного тратить в день хотя бы пару часов на корректировку параметров.

7. Все применяемые правила крайне просты математически и сложны огранизацией связей данных. Мои записи о формировании единой модели и эти эксперименты связаны самым непосредственным образом. Это не PageRank, не нейросети и, даже, во всяком случае пока не нечёткая логика — скорее это мини-Семантический Веб. Если алгоритм начать использовать без накопленной информационной базы — его качество работы упадёт раза в два.

8. При возможности расширения информационной модели данными которыми обладают только поисковые машины — доступ к поисковой выдаче, время появления ссылки в индексе, PageRank сайта и страницы и многое другое позволит довести точность выявления явного спама до 95-99%.

9. Да, выявление ссылки в контексте возможно и такие ссылки успешно выявляются.

10. Алгоритм эффективно работает только в Рунете и на русскоязычных сайтах. Причин много, главная — РуНет невелик и предсказуем.

Мои личные итоги — тема мне слегка поднадоела. Наверное, где-то в июне я всё же найду время и переборю лень чтобы оформить результаты в человеческом виде, отчёт с графиками и проче и прочее, но явной коммерческой применимости у этой частной задачи не наблюдается. Есть, и более актуальные задачи, и то что интересует меня более всего — автоматизация выявления правил обработки неструктурированных данных в общем случае.

Засим по этой теме информационный перерыв, скорее всего длительный.

About This Author

Яндекс.Метрика