Ещё о выявлении покупных ссылок

Ещё слегка подправил алгоритм для правильного ранжирования ссылок на смежные сервисы, в итоге количество ложных срабатываний сильно снизилось, особенно для мультидоменных и мультисервисных сайтов.

Основная проблема — ложные срабатывания на блогах и «белых каталогах». В блогах зачастую blogroll забивают чем попало, в итоге эти ссылки ранжируются как покупные, хотя и с меньшим приоритетом чем действительно покупные ссылки. В белых каталогах число внешних ссылок бывает более чем велико. Но всё это не беда, для них лишь выше устанавливается порог отсечения.

С вероятностными алгоритмами мне вспоминается их применение в биометрии, когда для разных рас, пола, возраста и типа кожи используются, либо разные алгоритмы, либо регулируются внутренние пороговые значения. Здесь также можно настроить FAR и FRR, вопрос лишь в приоритетах. Что критичнее, например, для поисковика, упустить «проданную ссылку» или неверно интерпретировать «хорошую ссылку» ?

Одно ясно точно — задача разрешимая, и тем самым куда менее интересная чем другие.

UPDATE:

Сегодня прогнал алгоритм по корневым страницам 440 сайтов из каталога ссылок Енота — это сайты федеральных органов власти, муниципалитетов, регионов и торговые площадки.

Выяснилось следующее:

1.  FAR , ложное срабатываение на 10 сайтах, что есть  ~2.3%.

2.  FRR = 0% для случаев когда покупных ссылок более 4. То есть такие сайты распознаются практически на 100%.

3.  Всего выявилось 5 сайтов с покупными ссылками. При этом 3 неожиданных — 2 сайта регионов, 1 сайт муниципалитета. Остальные 2 и должны были быть найдены, это и ожидалось.

Как резюме, FAR пока ещё великоват, но уже понятно как это лечить. И, конечно, для детального анализа нужна хорошая выборка сложных сайтов.

About This Author

Яндекс.Метрика