Алгоритм распознавания платных ссылок — 3

В ещё несколько заходов удалось выявить и исправить неправильное распознавание тэгов <noindex>, а также подключены алгоритмы корректировки рейтинга ссылок для блогов.

Поэтому выношу из закрытого доступа на публику — http://urlus.ru/linkcheck . И надеюсь на конструктивную критику.

Из явных недостатков на сегодняшний момент:

  • Срабатывание начинается с наличия не менее 4-х таких ссылок на странице. Практически гарантированное срабатывание начинается с большего их числа;
  • Пока ещё велик процент ложных срабатываний для блогов и, пока ещё, радикальных решений как это обойти нет поскольку владельцы блогов могут размещать ссылки как через ссылкообменники так и через механизм blogroll в Вордпрессе.
  • каждый новый подключённый критерий анализа весьма ресурсоёмок. Хотя сейчас их включено 13 из, примерно, 40, то при включении всех 40 обработка 1 страницы будет занимать до 30 секунд — 1 минуты. Впрочем, это решаемо.

И конечно, не стоит пока относится к этому алгоритму серьёзно. Я его делал proof-of-concept, так сказать для разминки.

About This Author

Яндекс.Метрика