Анализ ссылок и выявление их отношений

Продолжая тему алгоритма анализа ссылок.

Как я упоминал, сам алгоритм является «побочным эффектом» совершенно другого исследования — выявление онтологии отношений между сайтами и группами сайтов.

Вспомним, к примеру, XFN интересная задумка, которая в итоге нашла реализацию в standalone блогах. Суть в том что генеологические и социальные отношения перенесены в отношения на уровне веб сайтов. Достаточно добавить атрибут «rel» тэгу ссылки чтобы указать это отношение. Единственная, но серьёзная проблема в использовании XFN — это желание пользователей указывать о себе эту информацию. Впрочем, это проблема вообще для всех концепций Semantic Web требующих активного пользовательского участия.

Вернёмся к ссылкам. В отличии от отношений людей, взаимоотношения веб сайтов являются принципиально иными. За каждым веб ресурсом всегда кто-то стоит — это может быть один человек, группа редакторов или организация. У каждого веб сайта могут быть свои методы наполнения содержимым — ведением одним человеком (личный сайт), редколлегия, социальный ресурс с потенциально неограниченным числом редакторов, содержимое формируемое автоматически с других веб ресурсов (агрегаторы) и так далее.

Суть же в том что помимо онтологии тематики веб сайтов, существуют также онтологии их принадлежности и структуры наполнения, а внутри любого веб ресурса существуют информационные потоки которые можно измерить по показателям частоты обновления, авторства, источника(-ов) наполнения и другим атрибутам.

В данном случае, ссылки являются одним из внешних проявлений жизни отдельно взятого веб сайта. Как рябь на воде, за которой может быть скрыто как плескание рыб так и брошенный камень. Практически любая ссылка может быть определена по некому онтологическому основанию более сложному чем просто значение в атрибуте «rel».

Если мы возьмём упрощённую структуру типового веб сайта организации, то его «ссылочное наполнение» можно описать следующим образом:

  • локальные ссылки:
    • навигационное меню;
    • новости, документов и прочих страниц носителей содержимого ресурса;
  • внешние ссылки:
    • счетчики и рейтинги;
    • ссылки на каталоги, онлайн директории;
    • ссылки на компанию разработчика сайта;
    • ссылка на компанию предоставляющую хостинг;
    • ссылка на сайт продукта (CMS или портала) с помощью которого данный сайт создан;
    • партнёрские веб сайты;
    • платные ссылки;

Несколько иные модели для медиа-изданий, блогов, официальных государственных сайтов и других ресурсов. Впрочем число подобных моделей ограничено ибо человечество вовсе не отличается бесконечной фантазией форм представления информации.

Вопрос насколько можно доверять владельцу сайта в понимание отношений между его сайтом и представленными внешними ссылками? На практике доверять нельзя, поскольку если бы подобная онтология отношений ссылок существовала и поисковые машины бы её учитывали, то владелецы сайтов непременно бы пользовались ей метя платные ссылки как партнёрские.

Собственно представленный мною ранее алгоритм выявления платных ссылок, это «хвост» исследования по определению отношений между веб сайтами алгоритмическим образом. Побочный эффект нахождения групп некатегоризуемых ссылок в итоге подпадающих под категорию неестественных.

А для тех кто интересуется алгоритмами выявления именно платных ссылок, а не семантическим вебом в целом — привожу ссылку на вторую версию алгоритма — http://urlus.ru/linkcheck2/ и результаты его работы.

Эта версия сильно изменена, она медленнее, в ней используются критерии не упомянутые в моём предыдущем исследовании и, помимо группового рейтинга, теперь и для каждой ссылки рассчитывается рейтинг индивидуальный.

Результаты прогона 2-й версии алгоритма по тестовым выборкам.

Для 100 сайтов медиа-изданий:

  • ложные срабатывания — 0 сайтов;
  • сайтов где упущены платные ссылки — 0 сайтов;
  • выявленных ссылок — 450

Для 1000 разнотематических сайтов:

  • ложные срабатывания — 30 сайтов (3%)
  • сайтов где упущены платные ссылки — 15 сайтов (1,5%), большая часть из-за проблем анализа кодировок
  • выявленных ссылок — 3540

Вот такие вот пироги, со ссылками.

About This Author

Яндекс.Метрика