Посты в категории: web 20

СоциоРанкинг, кластеры и выявление групп влияния

Ранее в нескольких записях я приводил примеры расчёта тематического PageRank’оподобного алгоритма, назовём его СоциоРанк, выявляющего основных инфлюэнсеров (участников наиболее влияющих на жизнь сообщества).

Но, если мы берём всё тот же Livejournal как тестовую выборку, то можно будет обратить внимание что общение происходит не в виде монологов, а в виде активных тематических

Читать больше

Продолжение рассуждений о Semantic Web и Linked Data

Если говорить о классических поисковых системах и наиболее распространенных поисковых алгоритмах, то неизбежно приходится возвращаться к PageRank или его аналогам. Причем не только для Web, но и для всех случаев связанных ссылками информационных массивов, например, базы научных работ. Особенность PageRank в том что ссылка в нём —

Читать больше

Бизнес vs. Политика

Я обычно стараюсь не писать о политике на страницах техноблога, но бывают темы настолько переплетённые с ИТ что не упоминуть их сложно.

ArsTechnica пишут пишут о Европейском аналоге Global Online Freedom Act, это закон регулирующий провайдеров, хостинговые компании и поисковые системы вводить какие-либо ограничения на доступ к своим ресурсам их

Читать больше

Размышления о поисковых системах

Случайно обнаружил явление что ссылки переданные через urlus.ru Гугл, почему-то, считает ссылками Урлуса. Например, поиск по сайт Минэкономразвития выдаёт второй ссылой ссылку в Урлусе на мой блог.  Учитывая что Урлус делает прямой HTTP редирект на внешний сайт, то Гугль видимо решил что они взаимосвязаны и проиндексировал страницу по

Читать больше

Англоязычные ссылки на 10.03.2008. Семантический веб

Тематический социальный PageRank — 2. Несколько рейтингов сообществ

Для упрощения выборок на сей раз я сузил анализируемые группы только до членов конкретных LJ сообществ, не затрагивая общие интересы.

Для интересующихся выборки расчёта PageRank для нескольких сообществ.
Скажу сразу, этот рейтинг не означает что автор много пишет по этой теме, он может вообще ничего в сообществе не публиковать. Рейтинг демонстрирует

Читать больше

Алгоритмы выявления отношений веб сайтов

Собрав за последнее время материалов на чтение на ближайшие несколько лет, наконец-то получил материалы подтверждения что текущая логика используемого мной алгоритма выявления платнных ссылок основнанная на контентном анализе, явно недостаточна.  Причём если математическую основу под анализ подобрать несложно, то куда больше работы над сбором тестовых выборок, их детальным разбором и

Читать больше

Скрытые факты и метаданные метаданных. Непростые вопросы

Читаю материалы и исследования по выявлению и работе с метаданными и, в очередной раз, убеждаюсь что тема куда сложнее чем можно было подумать вначале.

Например, наиболее часто встречающиеся схемы работы с нимия:

Объект + тэги

Упрощённая модель когда дополнительные характеристики и атрибуты объектов определяются исключительно смысловым значением ключевых слов. Плюсы — простая

Читать больше

Поиск Powerset — естественный язык и доверенные источники

Я уже упоминал его в ссылках, Powerset — это natural language search, обещают поиск по аналогии с тем что когда-то было у Ask.com. Казалось, бы идея то не сработала, самые популярные поисковики ничего такого не делают и ничего, доли не теряют.

Но кое-что там интересное всё же есть, Powerset

Читать больше

Анализ ссылок и выявление их отношений

Продолжая тему алгоритма анализа ссылок.

Как я упоминал, сам алгоритм является «побочным эффектом» совершенно другого исследования — выявление онтологии отношений между сайтами и группами сайтов.

Вспомним, к примеру, XFN интересная задумка, которая в итоге нашла реализацию в standalone блогах. Суть в том что генеологические и социальные отношения перенесены в отношения на

Читать больше

Яндекс.Метрика