О алгоритмах ранжирования и не только. Вопросы и рассуждения

Продолжая тему работы поисковых систем и методик ранжирования, которыми я увлёкся не на шутку, некоторые размышления на эту тему:

1. PageRank, также как и HITS, также как и TrustRank — это алгоримы применительные не только к поисковым системам, но и ко всем моделям отношений равновесных связей. Например, PageRank’оподобные алгоритмы применимы к социальным сетям вроде ЖЖ или Я.Ру, так как отношения могут быть как двунаправлены, так и однонаправлены.

2. Ключевая особенность в PageRank в том что ссылки в нём не имеют веса и значения, имеет значение лишь их наличие и направление. Несколько иначе в TrustRank, но и там основную роль играют не ссылки, а их источники и адресаты.

3. Что PageRank что TrustRank используют модель «двойного отсечения» разделяя ресурсы/веб-сайты/веб страницы на доверенные, основную массу и «недоверенные» или черный список. В TrustRank первые и последние корректируются экспертным соотнесение сайтов к «белому» и «чёрному» спискам и наложением коэффициентов при их анализе.

4. Большая часть исследований по «гибридному ранжированию» идёт в двух направлениях. Это, либо внедрение дополнительных метрик и критериев прямо в PageRank, таким образом, например, TrustRank устроен, либо расчёт альтернативных рейтингов (рангов) и сведение их с PageRank в один критерий уже по рассчитанным данным. Оба подхода требуют непростых математических расчётов и имеют право на существование.
5. Вопрос считать ли PageRank в принципе верным подходом в ранжировании можно рассмотреть с двух точек зрения. С точки зрения научного признания алгоритма — безусловно, множество работ было посвящено его применимости к различным областям и с точки зрения бизнес модели, является ли причиной успеха Гугла алгоритм или же рекламная бизнес модель и упор на отказ от «платных ссылок». Иными словами, вопрос в том, можно ли однозначно говорить о превосходстве PageRank над, к примеру,ExpertRank (Teoma / Ask.com) или же данных для подобного суждения недостаточно?

6. Открытый вопрос как пересчитывать PageRank «по кусочкам» вместо полного апдейта всего графа. Если судить по первому приближению — это невозможно, но возможно что первого приближения недостаточно и наверняка способы есть.

7. Интересна применимость PageRank/TrustRank/Topic-based PageRank к сементическим сетям. К социальным сетям применимо в любом случае, к WordNet уже применяли для анализа весовых рейтингов синсетов. В принципе открытый вопрос по применимости к фактологическому и семантическому анализу. Исследования велись ещё в 2004 году, но немногие системы пошли дальше использования Lesk и/или WordNet для этой цели.

About This Author

Яндекс.Метрика