Открытые данные по блогу Президента

Если ты не интересуешься открытыми данными, открытые данные начнут интересоваться тобой (c)

Как многие знают я сравнительно давно занимаюсь сохранением архивных копий «умирающих» госсайтов, а то есть сайтов закрытых госструктур, непродолжающихся проектов и тому подобного. Вот тут эти архивы выложены на OpenGovData.ru — http://www.opengovdata.ru/archive/

Обычно я сохраняю сайты если анонсируется что ведомство расформировывают, но иногда и заранее готовясь к неизбежному. И вот меня давно тревожила мысль что с марта месяца сайт(-ы) Президента обретут совсем другую форму и, хорошо бы, их засейвить, а то ведь сами чиновники никогда на это не сподобятся.

Так что я думал над тем как лучше это сделать. И, для начала, решил начать архивировать самые небольшие проекты. В частности, это блог Президента — http://blog.kremlin.ru/ Однако он не совсем «просто сайт». Это же не CMS’ка со страничками, там вполне всё структурировано по объектам. Так что я решил совместить идею архивации госсайтов и открытые данные и преобразовать текущую публичную часть блога президента в открытые данные, а то есть, набор таблиц.

Что и было сделано. Все данные были собраны в таблицы в MongoDB. В них ничего не удалялось, однако, кое-что было добавлено. Поскольку информация о пользователях в блоге публикуется в крайне куцом объеме — только ФИО/ник и регион, то я решил что надо добавить для анализа хотя бы гендерную информацию. Благо у меня есть специальный алгоритм который умеет определять все формы написания имени/ФИО, разбирать его и определять пол. Что и было сделано, к информации о пользователях гендерная информация есть для примерно 20 тысяч пользователей, у остальных, к сожалению, ники пол по которым определить, либо невозможно, либо требует множества ручных усилий.

Итак, вот тут есть архивы дампов:

medblog_csv.7z  (1.7 МВ архив, 22 MB после распаковки) -в формате CSV, не включает полных текстов комментариев

medblog_mongodb.7z (49 MB архив, 491 MB после распаковки) — в формате BSON, дампа для MongoDB.

medblog_json.7z (48 MB архив, 504 MB после распаковки) — в формате JSON для импорта в MongoDB или аналогичные базы

Описание данных

В каждом архив данные следующих таблиц:

— posts — посты в блоге

— themes — темы в блоге

— users — пользователи (оставившие хотя бы 1 комментарий)

— regions — регионы пользователей (регион «Неизвестно» относится к пользователям его не указавшим)

— comments — все комментарии пользователей к постам и темам

— stats — статистика. Автоматически построенная статистика на основе данных о постах и комментариях

Практически все поля самоочевидны, их названия отражают их содержание. Однако если будут вопросы я готов на них ответить.

Как работать с этими данными?

Способов несколько.

Способ простой. Если Вы не хотите разбираться в текстах комментариев, но Вам бы хотелось поразбираться с цифрами, то проще всего взять архив с CSV и позагружать данные оттуда в Excel. Проблема будет только с комментариями поскольку их более 140 тысяч, а Excel поддерживает только чуть более 65 тысяч строк. Ну да комментарии можно разделить на 3-4 куска.

Способ чуть более сложный. Если Вы умеете работать с SQL вы можете загрузить CSV данные в SQL таблицы и подумать что можно с ними сделать.

Способ ещё более сложный. Если Вы знаете или хотите узнать как работать с MongoDB. Вы можете скачать эту базу тут — http://www.mongodb.org/downloads и GUI к ней тут — http://www.mongovue.com/. После подключения базы можно делать из неё сложные выборки, экспортировать в Excel, JSON, CSV и прочее и тому подобное

И наконец, способ для программистов. Загрузить данные в любую любимую базу и с помощью скриптов можно делать с данными что угодно — извлекать ключевые слова, строить графики, индексировать тексты и т.д.

Что можно из них сделать?

Конечно же графики. В первую очередь графики активности по пользователям, комментариям и тому подобному. По распределению регионов, по полу, по темам, по конкретным постам. Можно наложить региональную активность на карты, можно сделать графики на Flash’е. Можно обработать текст комментариев и выявить частоты упоминаемости тех или иных событий, понятий, персон и так далее. Очень многое.

Интересные факты

И, наконец, некоторые любопытные факты.

— на Москву, Московскую область и Санкт-Петербург приходится 30% всех зарегистрированных пользователей

— женщины составляют лишь 28% от всех пользователей сайта, и они оставляют лишь 20% всех комментариев

— среднее число комментариев оставленных женщинами составляет 3.21, мужчинами 4.78. Итого женщины в 1.5 раза пассивнее мужчин.

Как резюме у меня на конец февраля стоит зарубка сделать копии сайтов президента и премьер-министра, а также всех тех ведомств что не переживут 4 декабря 2011 года и март 2012 года.

About This Author

  • http://www.facebook.com/Estresso Denis Orlov

    А как ваши выводы можно объяснить с точки зрения социологии? Ведь у вас чистой воды статистические данные. И они требуют сопоставления с реальными социальными процессами.

    • http://ivan.begtin.name Ivan Begtin

      Я не социолог, уверен что они найдут разные способы интепретации.

Яндекс.Метрика