Наблюдения за социальными сетями на примере ЖЖ. Статистика

В базе Социоранка накопилось столь большое число данных что на основе их уже можно делать выводы и констатировать наблюдения которых накопилось изрядно. Большая их часть, бесполезна, но кое-что может и пригодится.

Например:

  • до 50% всех проиндексированных блогов (137366 из 275472) никем не читаются. Либо это боты, либо виртуалы, либо удалённые аккаунты, либо «пустышки». Схожие цифры можно увидеть и в рейтинге Яндекса начиная со страницы 12983 если ему верить то число пустышек в Livejournal это 823777 — 649146 = 174621 или 21% от общего числа. Если взять за погрешность тот факт что в рейтинге Яндекса скорее всего вычищаются удалённые блоги то можно быть уверенными что уж точно не менее 21% блогов являются чистой воды балластом
  • технологические/технические сообщества как правило кучкуются в плотные кластеры и тянут одно за другое.
  • гуманитарные и технические сообщества пересекаются редко и по большей части если только гуманитарное сообщества общего плана вроде advertka или drugoe_kino
  • как правило, чем выше рейтинг пользователя в сообществах из «плотных кластеров» (множества сильно пересекающихся сообществ) тем выше вероятность его выского рейтинга и в других сообществах. Исключение — сообщества представителей нетрадиционной ориентации, там чаще заметна обратная картина высокий рейтинг в кластере, не влияет на рейтинги в других сообществах или же влияет в обратную сторону. О причинах пусть гадают социологи.
  • более всего пользователей с никами длиной от 6 до 10 символов, до 70% от общего числа, а пользователей с никами длиной от 7 до 9 символов до 45% от общего числа.
  • ники более 55% пользователей состоят только из латинских букв и подпадают под регулярное выражение — ^[a-z]{1,16}$
  • у 27% пользователей ники составные из двух частей из латинских букв разделённых символом «_» и подпадают под регулярное выражение ^[a-z]{1,16}[_][a-z]{1,16}$
  • около 7% пользователей используют ники начинающиеся  с латинских букв и заканчивающихся цифрами ^[a-z]{1,16}[0-9]{1,5}$

В общем же для точных метрик нехватает только оценок активностей участников, что алгоритмически несложно, но сложно технологически без RSS индексатора, а ля Яндекс.Блоги. Тогда можно найти и более интересные цифры.

About This Author

  • http://roma.net.ua Cooluck

    Возможно будет интересно:
    http://www.livejournal.com/stats.bml

  • http://ivan.begtin.name ivbeg

    Спасибо, я туда поглядываю время от времени.

Яндекс.Метрика