Открытые данные по кандидатам в депутаты ГД

Итак, теперь, когда предвыборный ажиотаж закончился  я, наконец-то, могу с чистой совестью и без политизации написать что я думаю о происходящем со своей колокольни — с точки зрения открытости и открытых данных.

Во первых, небольшой презент всем интересующимся. Открытые данные по кандидатам извлечённые с сайта Центризбиркома.

  • stateduma2007.xlsx — данные по кандидатам выборов в ГД за 2007 год
  • stateduma2011.xlsx — данные по кандидатам выборов в ГД этого, 2011 года.
Файлы привожу в формате Excel специально для тех кто не любит, не умеет работать с CSV, XML и прочими. Чуть позже выложу их все на OpenGovData.ru в нескольких форматах.
Для начала о данных. Кроме того что опубликовано на сайте Центризбиркома там есть несколько важных дополнений.
А то есть:
гендерная информация. С помощью специального, на деле очень простого, алгоритма по всем персонам автоматически определён их пол
возраст. Рассчитан на основе даты рождения относительно 1 декабря 2011 года.
происхождение. Классификация кандидата по его происхождению, является ли он до выборов депутатом, чиновником или кем-либо ещё. Этот классификатор, признаюсь, недоработанный. Там есть сложности поскольку автоматически можно проставить отметки только у половины из кандидатов, так что это поле недозаполнено, предлагаю всем подумать как классификатор составить и как их всех разметить.
А также, в качестве бонуса, в файлы добавлена вкладка с цифрами статистики по партиям по некоторым специфическим метрикам.
Это такие показатели как:
число москвичей. У скольких кандидатов указано место жительства — Москва
число лиц моложе 30. То сколько молодых кандидатов в кандидатах от партии
число лиц старше 55. То сколько предпенсионеров в кандидатах от партии
число женщин.  То сколько женщин кандидатов выставлено
И, конечно, доли каждой из этих социальных групп относительно общего числа.
Смотрите, сравнивайте, думайте. Самое интересное, на мой взгляд, в сопоставлении данных за 2007 и 2011 годы.
Что увидел лично я:
— малое число кандидатов женщин от всех партий
— резкое омоложение ЛДПР
— более 30% кандидатов от ЕР живут в Москве
Конечно эти данные будут более интересны когда будут известны окончательные результаты и можно будет их сопоставить с данными по победителям.
Вся эта информация так и просится в инфографику. Если кто хочет приложить усилия — милости прошу. Тема актуальная, многие издания с удовольствием её опубликуют.
А если более глобально. Эти данные, конечно, это не open government data — это куда ближе к open politics data. А с открытостью политики у нас куда как хуже чем с открытостью государства.
Собственно пока единственным серьёзным источником открытых данных по теме является проект ГОЛОС’а со статистикой по голосованию http://stat.golos.org/ (сейчас недоступен).
А теперь про то что особенно наглядно видно с точки зрения открытости, опять же
1. Все финансовые отчеты партий опубликованы в сканах. Это трындец как прозрачно. Уйма усилий необходима на их распознавание и преобразование. Я сомневаюсь что это случайно
2. Сведения о доходах кандидатов публикуются в крайне неудобном виде в виде таблиц в файлах Ворда. Это лучше чем сканы, но, конечно, немало усилий потребуется на сопоставление этих данных
3. У ЦИК РФ, конечно же, нет открытого API по базе выборов. Открытых данных в CSV, XML, XLS там тоже нет.
4. И масса информационно-технологических «не-мелочей»:
— у регионов отсутствуют указания кодов ОКАТО и ОКТМО (для муниципальных выборов)
— у избирательных комиссий нет публичных уникальных идентификаторов по которым можно сразу и быстро получить актуальную информацию по прямой и простой ссылке
— индикаторы избирательного процесса не кодифицированы, нет уникальных индентификаторов этих идентификаторов, необходимо осуществлять анализ их текста, последовательность и т.п.
— в отчетах о результатах, кандидатах и т.п. отсутствуют уникальные коды партий
— отсутствуют профили региональных подразделений партий и их уникальные коды
— в информации о поступивших средствах на счета партий отсутствуют реквизиты организаций позволяющие их однозначную идентификацию (есть только название компании)
И такого ещё много.
About This Author

  • Pavel Ljschkov

    Ну в принципе — данные хотя бы есть, т.е. всё таки можно обработать,, как раз разбираю 1 и 2 пункты.

    П.С. ждём результата по явке на 20-00, очень характерные графики можно построить параметрам явка — количество участков, как сделали в http://esquire.ru/elections

    • http://joomlasecret.ru/ роман

      впечатляющие данные на графиках.

  • Pavel Ljschkov

    Кстати уже есть у людей некоторые наработки http://goo.gl/7hfY0

    • http://ivan.begtin.name Ivan Begtin

      Да, это неплохо, однако это математический подход, я больше думаю о связности. Увязке этих данных с другими.

Яндекс.Метрика