Алгоритмы, анализ Рунета и не только

Я тут постепенно отлаживаю свои алгоритмы построения «объектных карт сайтов». Постепенно — поскольку приходится учитывать сотни разных параметров и заниматься микроклассификацией.  Что весьма увлекательно и в равной степени рутинно. Часть алгоритма — это определение CMS сайта для анализа его ссылочной структуры. Собственно главным является определение ссылочной структуры, а знание CMS в этом предполагается что помогает.

Причем то какая CMS используется определяется не просто по meta generator, а по нескольким десяткам правил, проверок и всяческим особенностям Рунета и так далее.  Плюс не все CMS можно определить достаточно просто, поскольку иногда нужно простучать до 10 страниц, а это может быть истолковано как проверка сканерами уязвимостей — хотя здесь цель совсем иная .

В результате  по тестовой выборке в 25 000 сайтов на 10% сайтов определяется CMS одна из 40 возможных по которым работает алгоритм и на 30% различные сервисы парковки которые, с некоторой натяжкой, тоже можно рассматривать как подвид CMS.

В общем-то определение CMS, задача, разрешимая и кроме меня ещё несколькими сервисами решённая, но для моих целей оказывается тупиковой ибо слишком невелик процент распознаваемых CMS в принципе. А то есть знание CMS сайта конечно может помочь в корректировке ряда других алгоритмов, но решающим знанием не является.

А вот то о чём я ранее писал, алгоритм определения коммерческой направленности ресурса наконец-то готов. Его смысл не в тематической классификации, а в ответе да/нет на простой вопрос «Сайт коммерческий?».

Сейчас как раз идёт обработка тестовой выборки для этого алгоритма. Определяются таковыми примерно треть сайтов, по первоначальным произвольным проверкам ошибки первого рода не наблюдаются. Впрочем, детальная проверка займёт ещё пару дней, но основа уже готова.

Собственно его упрощенную версию я использовал при выявлении SEO-ссылок. Имея возможность определить является ли сайт коммерческим, зная его тематику и имея возможность сопоставить ключевые слова по ведущей на него ссылке тематике — это и есть основа определения таких ссылок. Всё остальное — лишь признаки для корректировки.

Итого Рунет можно классифицировать:

  • по структуре
  • по тематике
  • по коммерциализованности
  • по геометкам

И каждый из этих срезов по своему интересен.

About This Author

Яндекс.Метрика