Апр 14 2009

Отдам Социоранк в хорошие руки

Tag: размышления, социоранкivbeg @ 10:29 дп

Из размышлений над тем что делать с накопившимися у меня наработками – медленно, но верно выпал Социоранк - сервис тематического рейтингования пользователей в соц. сетях. На данный момент пользователей ЖЖ. 

Как я ни рассматривал куда его можно пристроить к другим своим проектам – получается что он выпадает из всех тем которыми я сейчас занимаюсь и развивать его будет означать жертвовать чем-либо ещё.

Поэтому рассматриваю вариант небезвозмездной передачи проекта тому кто может и хочет его развивать и дорабатывать.

Что в проект входит:

  • домен sociorank.ru;
  • веб интерфейс и база рассчитанных рейтингов;
  • подсистема/модуль сбора и обработки информации о рейтингах, расчётов рейтингов, расчёты кластеров сообществ и влиятия сообществ друг на друга;
  • если нужны – соображения по дальнейшему развитию проекта.

Если есть интерес – пишите на ibegtin@gmail.com – сколько готовы за него отдать и чего собираетесь с ним делать.

Соответственно, сам я от темы рейтингования в социальных сетях отдаляюсь ибо есть более интересные проекты.

UPD: Некоторые подробности

Проект полностью написан на Django/MySQL и состоит из двух модулей/подсистем. 

Отдельно идёт подсистема веб-сайта которая отдаёт веб страницы и предоставляет API.

Отдельно подсистема которая собирает данные о ЖЖ пользователях, рассчитывает рейтинги и другие метрики и загружает их через API на веб портал. 

Веб интерфейс полностью переносим, а сбора данных для некоторых задач используется внешние инструменты/библиотеки в Linux, но принципиально непереносимого там ничего нет.


Мар 03 2009

Социальные рейтинги и метрики. Вопросы

Я уже довольно много писал про различные социальные рейтинги и метрики в соц. сетях,  практически все мои рассуждения можно посмотреть тут – Алгоритмы и практики работы с информацией

На сей раз у меня не будут не рассуждения, а несколько вопросов к читателям.

1. Какого рода рейтинги было бы интересно видеть – активности, репутации, экспертности?

2. Обязательно ли знать подробности расчёта рейтинга чтобы ему доверять? Даже зная что при известности алгоритма рейтинга есть шансы его накрутки?

3. Есть какие-нибудь темы по которым было бы интересно знать «тематический рейтинг»? Например, «собаководство» или «решение олимпиадных задач».

Нужно мне это не для чего иного как для развития Социоранк‘а, который я постепенно буду «размораживать» и превращать из исследовательского площадки в общеполезный сервис. 

Всем отликнувшимся заранее спасибо.


Дек 08 2008

Социоранк. Экспорт данных

Для тех кто интересуется Социоранком – из него можно всегда получить данные в CSV и XML форматах по ссылкам

http://urlus.ru/sociorank/{username}/ratings.xml – XML экспорт

http://urlus.ru/sociorank/{username}/ratings.csv – CSV  экспорт

Структура XML файла:

- user – ник пользователя в ЖЖ

- community – название сообщества

- number – номер в рейтинге

- rating – рейтинг в сообществе.

Структура CSV файла: ник пользователя, номер в рейтинге, рейтинг, сообщество.

Например, экспорт моих рейтингов в XML и в CSV

Экспорт рейтингов по сообществам тоже есть, но улучшается для следующей версии Социоранк’а.


Дек 05 2008

Социоранк. Сейчас и далее

Tag: blogging, социоранкivbeg @ 11:23 дп

Прошлой ночью мне наконец-то удалось восстановить часть кода Социоранка. Теперь где-то на январских праздниках буду приводить проект в божеский вид, сейчас он несколько запущен, и технически, и по обновлениям.

Причём теперь я уже убеждаюсь что на коленке сделанный агентный подход его наполнения неудобен. Собственно и восстановление кода потребовалось по той причине что проекты был разделён на две части.

Одна  работала на моём домашнем сервере (с котором и были траблы) собирала данные, просчитывала социоранки и взаимосвязи и закидывала по вебсервису в другую которая только публибликовала полустатические страницы.

Существенная тут заморочка со сбором данных. API в ЖЖ хоть и лучше чем в других сервисах, но тоже не блеск для таких задач. Необходимы таймауты для выгрузки информации, а это удлиняет время расчёта метрик по каждому сообществу весьма существенно.

С другой стороны. Я уже вижу что проект можно существенно преобразить переделав веб интерфейс и добавив наконец-то оставшиеся социальные метрики которых у меня уже накопилось несколько десятков.

Вопрос лишь во времени и ресурсах. Банально нужно 2-3 сервера что поддерживать ежедневное обновление.

И, конечно, тематические рейтинги Социоранка я считаю куда более полезными чем глобальный блогорейтинг Яндекса.

Да и мне по прежнему можно отмечать различные сообщества в LJ которые бы хотелось увидеть в социоранке и общие пожелания по тому что и как там можно добавить/улучшить/убрать.


Авг 25 2008

Практическое применение социальных метрик и рейтингов плюс новые цифры и метрики

За уже более чем десяток записей я много написал про различные варианты рейтингов с их описанием, но не так много было про то зачем же это нужно в принципе.

Вопрос борьбы со спамом и ботами уже упоминался, для спам фильтра рейтинги авторитетности подходят более чем, но лишь спам фильтром всё не ограничивается.

Приведу некоторые варианты применения:
1. Поиск тематических экспертов.
Это то для чего изначально создавался СоциоРанк и то для что может быть развито до поиска экспертов не просто по сообществам, но по темам когда достаточно ввести набор ключевых слов и знать основных связанных с ними инфлюэнсеров. Реализуется это несложно по упоминаемым мною ранее рейтингам участника в кластере, вначале формируется кластер сообществ/участников вокруг темы, далее рассчитываются наиболее авторитетные.

2. Сервис «найди друга»
Условно сервис поиска и подсказки тех с кем участник соц. сети может быть знаком, но не добавил в друзей. Работать он может на основе анализа несовершенства групп влияния, когда вероятность знакомства может оцениваться по уровню несовершенства групп – чем выше несовершенство, тем ниже вероятность знакомства.
Поскольку ранее этот термин я не вводил. то уровень несовершенства группы - это число отсутствующих связей между её участниками.
Недостаток такого подхода в упомянутой ранее ресурсоёмкости – расчёт взаимосвязанных цепочек может занимать до часа времени на одного участника в зависимости от числа связей, что, конечно можно оптимизировать как технически так и алгоритмически, но это уже совсем другая задача

И дополнительные некоторые наблюдения и возможные метрики:

  • самая длинная цепочка группы влияния обнаруженная точечными проверками – это цепочка из 17 участников. Как и предполагалось, авторитетность и длина цепочки не связаны между собой, что впрочем можно было и так предположить зная алгоритмы их расчёта, но теперь есть подкрепление данной уверенности.
  • цифры читателей сообществ в блогах Яндекса не соответствуют действительностия. В частности видно что число читателей в перечне сообществ является суммой читателей + участников сообщества, хотя единственно верными подходами здесь может быть, либо учёт только читателей сообщества, либо объединение множеств читателей и участников. В любом случае что-то тут не так, некрасивые цифры получаются.
  • у каждой тематической группы есть число участников, а есть число авторитетных участников. В частности число участников с нулевой авторитетностью в среднем варьируется от 30 до 60 процентов от всех участников.

В общем же исследований по этим рейтингам и метрикам у меня уже накопилось лет на 5 вперёд и могу сказать что построение полноценного сервиса рейтингования/анализа блогосферы – это вопрос исключительно инфраструктурный по краулингу блогохостингов. Из интересного для меня лично я пока никак не затрагивал темы онтологии анализа распространения информации в социальных сетях, но это уже тянет на научную работу готовности к которой я в себе не ощущаю, хотя и у темы, безусловно, есть свои практические применения.

В остальном же по теме длительная пауза, социальные метрики безусловно увлекательны, но есть и более увлекательные темы.


Авг 19 2008

Социальные сети. Кластеры сообществ и авторитет в кластере

Если разглядывать социальные сети глубоко и внимательно, то можно обнаружить что кроме явных связей пользователей есть ещё и связи между сообществами. В основном эти связи основаны на их тематической близости, но есть и нередкие исключения когда тематическая близость неочевидна, а вот пересечения с другими сообществами весьма велики.

В Социоранке я игрался с автоматической кластеризацией  в результате удалось выявить то что называется «близкие сообщества», а весь список кластеров можно посмотреть здесь – http://urlus.ru/sociorank/clusters/

Пока разьве что автоматически тематика кластера не определяется, но даже визуально можно убедится что:

  • Кластер N3: Политика
  • Кластер N4: Фотографии + Петербург
  • Кластер N5: История, в основном военная
  • Кластер N6: Веб разработка
  • Кластер N7: Транспорт, быт и развлечения
  • Кластер N8: В основном кино и гуманитарные увлечения
  • Кластер N9: Системное администрирование
  • Кластер N10: Программирование, в основном не-web
  • Кластер N11: История средних веков, танцы, этикет
  • …. и так далее

Надо ли говорить что все эти кластеры рассчитываются исключительно автоматически. Особняком держатся только первые два кластера куда попадают сообщества общего типа. По хорошему их надо разделять на подкластеры, благо они там есть.

Более интересно другое. Говоря о тематических рейтингах участника социальной сети можно говорить о тематических рейтингах двух типов.

Тематическом рейтинге в сообществе – определяемом его авторитетностью среди участников сообщества и в тематическом рейтинге смыслового кластера – определяемым совокупным рейтингом участника в группе сообществ входящих в общий кластер.

Что характерно – эти рейтинги могут существенно отличаться, в то же время высокий рейтинг в кластере можно рассматривать уже не только как рейтинг авторитетности, но и как рейтинг влияния, а это уже совсем другая история.


Авг 17 2008

Социальные сети, метрики и их применение

Продолжая серию размышлений о социальных метриках, важно упомянуть для чего непосредственно они нужны. Для это я также приведу ещё ряд метрик пока не реализованных в социоранке, но довольно полезных.

1. Рейтинги близости сообществ.

1.1. По пересечию групп участников

Это наиболее простой рейтинг рассчитываемый на основе числа пользователей входящих в оба сообщества. Этот рейтинг может рассматриваться, также как рейтинг влияния сообществ друг на друга, с поправкой числа участников к общему числу пользователей сообществю

1.2. По пересечию активных групп участников

Фактически в каждому сообществе присутствуют подгруппы участников объединённых, либо общими связями, либо повышенной, по сравнению с остальными, общей активностью. Близость сообществ может быть измеряна по наличию в них подобной пересекающейся подгруппы.

1.3. По пересечию авторитетных участников

Расчёт социоранка как измерения авторитетности сообщества позволяет также сделать ограниченную выборку из ограниченного числа наиболее авторитетных участников, например, первых ста и сравнивать сообщества именно по их пересечению.

Задача подобного рейтинга не просто оценить пересечение сообществ по участникам, а добавить их вес в данные оценки.

1.4. По пересечению отношений между участниками.

Не во всех случаях сообщества могут пересекаться участниками напрямую и связь между ними осуществляется через промежуточные звенья. Так если рассматривать пересечения сообществ участниками как первый уровень такой связи, то второй и последующие будет пересечение отношений участников. Когда производится проверка наличия отношений между участниками данных сообществ.

1.5. По пересечению тем (интересов, тэгов)

Один из наиболее простых рейтингов реализуемый на основе прямого пересечения ключевых слов в тэгах интересов и на расчёте логического расстояния между ними. Какая-либо информация об участниках в этом случае не учитывается.

2. Рейтинг заинтересованности

Этот рейтинг рассчитывается по отношению одного участника соц. сети к другому или по отношению к сообществу. В этом случае оценивается активность участника в адрес другого за определённый период времени и включает – оставление комментариев к его постам, участие в дискуссиях, ответы на его комментарии в других журналах и сообществах.

Continue reading «Социальные сети, метрики и их применение»


Авг 16 2008

Социальные рейтинги и метрики. Мета-пост

На днях пересматривал свои заметки по метрикам и рейтингам социальных сетей, их у меня накопилось уже такое количество что их порой сложно искать, поэтому свожу их в общий мета-пост.

Отдельно вспомнилась интересная тема полугодовой давности по формам правления в сообществах. Если найти под неё ещё и бизнес модель, то она могла бы вылиться в весьма интересный проект.

Другие мои заметки по теме:


Авг 13 2008

Социоранки. Обновление

Несколько небольших изменений в Социоранке:

1. Теперь, помимо авторитетности участника, можно увидеть ешё и то насколько он вырос или упал с момента последнего пересчёта социоранка для данного сообщества.

Например, это можно посмотреть на примерах таких сообществ как ru_auto, hr_ru, aeg_dev, openmeta, ru_python, ru_pm

Позже появятся и остальные.

2. В списке сообществ и в его описании теперь доступна дата последнего его обновления – пересчёта ранков участников, так что можно быть уверенным что рейтинг рассчитан именно на такой день и час.

У меня, к сожалению, не так много времени уделять именно этому проекту – там всё ещё очень многого нехватает – оценки трендов рейтингов, дополнительного ранжирования по контентным критериям и так далее и тому подобное, но рано или поздно это появится.

Дополнительно – структурированная информация о социоранках это «free by request». Под исследовательские задачки есть возможность предоставить дампы данных в CSV. В среднесрочной переспективе будет и API

По прежнему желающие увидеть в социоранке какое-либо сообщество или обновить о нём информацию – оставляйте заявки комментариями, сообщениями в LJ или мне письмом на ibegtin (cобачка) gmail.com .




Rambler's Top100