Практическое применение социальных метрик и рейтингов плюс новые цифры и метрики
За уже более чем десяток записей я много написал про различные варианты рейтингов с их описанием, но не так много было про то зачем же это нужно в принципе.
Вопрос борьбы со спамом и ботами уже упоминался, для спам фильтра рейтинги авторитетности подходят более чем, но лишь спам фильтром всё не ограничивается.
Приведу некоторые варианты применения:
1. Поиск тематических экспертов.
Это то для чего изначально создавался СоциоРанк
и то для что может быть развито до поиска экспертов не просто по сообществам, но по темам когда достаточно ввести набор ключевых слов и знать основных связанных с ними инфлюэнсеров. Реализуется это несложно по упоминаемым мною ранее рейтингам участника в кластере, вначале формируется кластер сообществ/участников вокруг темы, далее рассчитываются наиболее авторитетные.
2. Сервис «найди друга»
Условно сервис поиска и подсказки тех с кем участник соц. сети может быть знаком, но не добавил в друзей. Работать он может на основе анализа несовершенства групп влияния, когда вероятность знакомства может оцениваться по уровню несовершенства групп — чем выше несовершенство, тем ниже вероятность знакомства.
Поскольку ранее этот термин я не вводил. то уровень несовершенства группы - это число отсутствующих связей между её участниками.
Недостаток такого подхода в упомянутой ранее ресурсоёмкости — расчёт взаимосвязанных цепочек может занимать до часа времени на одного участника в зависимости от числа связей, что, конечно можно оптимизировать как технически так и алгоритмически, но это уже совсем другая задача
И дополнительные некоторые наблюдения и возможные метрики:
- самая длинная цепочка группы влияния обнаруженная точечными проверками — это цепочка из 17 участников. Как и предполагалось, авторитетность и длина цепочки не связаны между собой, что впрочем можно было и так предположить зная алгоритмы их расчёта, но теперь есть подкрепление данной уверенности.
- цифры читателей сообществ в блогах Яндекса не соответствуют действительностия. В частности видно что число читателей в перечне сообществ является суммой читателей + участников сообщества, хотя единственно верными подходами здесь может быть, либо учёт только читателей сообщества, либо объединение множеств читателей и участников. В любом случае что-то тут не так, некрасивые цифры получаются.
- у каждой тематической группы есть число участников, а есть число авторитетных участников. В частности число участников с нулевой авторитетностью в среднем варьируется от 30 до 60 процентов от всех участников.
В общем же исследований по этим рейтингам и метрикам у меня уже накопилось лет на 5 вперёд и могу сказать что построение полноценного сервиса рейтингования/анализа блогосферы — это вопрос исключительно инфраструктурный по краулингу блогохостингов. Из интересного для меня лично я пока никак не затрагивал темы онтологии анализа распространения информации в социальных сетях, но это уже тянет на научную работу готовности к которой я в себе не ощущаю, хотя и у темы, безусловно, есть свои практические применения.
В остальном же по теме длительная пауза, социальные метрики безусловно увлекательны, но есть и более увлекательные темы.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






