Алгоритмы выявления отношений веб сайтов

Собрав за последнее время материалов на чтение на ближайшие несколько лет, наконец-то получил материалы подтверждения что текущая логика используемого мной алгоритма выявления платнных ссылок основнанная на контентном анализе, явно недостаточна.  Причём если математическую основу под анализ подобрать несложно, то куда больше работы над сбором тестовых выборок, их детальным разбором и необходимыми для этого ресурсами.

Например, лингвистический анализ также решает далеко не всё.  Важен контекст + максимальное число собранных метаданных + алгоритмы машинного анализа + модель/структура отношений веб сайтов (не pagerank, а именно отношения!).

А вот предположения насчёт развития фильтрационных алгоритмов в сторону Semantic Web полностью подтвердились. Хотя единой модели по объединению множества алгоритмов — SoftRank, TrustRank, truncated PageRank, никто ещё не представил, это вопрос этого или следующего года. С одним, правда, подходом я несогласен, что распознавание спама должно происходить на этапе выставления PageRank, например, за счёт анализа rank-time features. Как раз их влияние можно минимизировать если решить задачу по интеграции алгоритмов выявления аномалий с машинным обучением и терабайтами метаданных для вероятностного семантического анализа.

И, что не то чтобы удивляет, но уже практически факт, так это что 99% публично доступных исследований родом из Yahoo, Microsoft, HP и нескольких китайских, европейских и американских университетов.  Яху так просто отдают всем желающим многогибайтную отклассифицированную базу ссылок под исследовательской лицензией как раз для целей выявления спама. Российское присутствие во всём этом почти нулевое и вообще в России чуть ли не единственный источник более-менее интересной информации по теме — это публикации сотрудников Яндекса или спонсируемые Яндексом.

About This Author

Яндекс.Метрика