OpenGovData.ru: Данные для преобразования на неделю с 26.08.2010 по 02.09.2010

Итак, как я ранее уже писал начнём процесс по преобразованию данных.

План работы такой:

1. Я еженедельно публикую список массивов данных и призываю волнотёров помочь с их преобразованием.

2. В конце недели я публикую отчет по результатам и публикую новый список.

3. Если какие-то данные небыли охвачены волонтёрами, то на следующей неделе публикую их с предложением компенсировать расходы на их преобразование.

4. Самые сложные массивы данных выносятся на общее обсуждение.

Актуальный список также всегда будет доступен по ссылке и я буду его обновлять по мере появления парсеров.

Ниже список данных составленный мною на эту неделю с 26 августа по 2 сентября. Я также собираю предложения по тому какие данные вынести на следующую неделю.

Примечание от 29.08.2010: Многие массивы из этого списка уже преобразованы, актуальный список всегда доступен по ссылке  http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D0%BA-%D0%BF%D0%BE%D0%BC%D0%BE%D1%87%D1%8C-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%83

сверяйтесь, пожалуйста, со списком представленным там.

Источник данных в плохом формате Для чего могут быть использованы эти данные Статус Парсеры и данные
Технические комитеты Ростехрегулирования

http://www.gost.ru/wps/portal/pages.TechCom

Список и множество HTML страниц

Для мониторинга того чем занимаются комитеты, если у них сайты, какие из них были бы интересны гражданам и так далее Не преобразован ?
Список зарегистрированных политических партий (Минюст)

http://www.minjust.ru/ru/activity/nko/partii/

Набор HTML страниц со ссылками на документы

Для последующего анализа списков региональных отделений, числа членов, финансовых отчетов и так далее. Не преобразован ?
Перечень зарегистрированных политических партий (Избирком)

http://www.cikrf.ru/newsite/politparty/reg_politparty.jsp

Очень простой и небольшой список партий с регистрационными номерами в избиркоме

Для сведения воедино всей информации о политических партиях из разных источников. Не преобразован ?
Государтсвенный реестр фильмов

http://mkrf.ru/activity/register/search/

Форма поиска. Особенность в том что для некоторых фильмов выводит страницу с подтверждением на её просмотр

Для анализа данных реестра на предмет наличия порнографии, оскорбительного содержания, анализа плодовитости авторов и компаний и многое другое Не преобразован ?
База запусков космических аппаратов

http://www.federalspace.ru/main.php?id=10&year=14
Набор HTML страниц по годам

Позволит провести анализ запущенных аппаратов по изготовителям, заказчикам, странам, потенциальным местам падения, составить календарь истечения сроков эксплуатации и использоваться для более наглядного отображения. Не преобразован ?
Депутаты Государственной Думы

http://www.duma.gov.ru/index.jsp?t=deputat/1.html

Много отдельных маленьких страничек

Позволит делать гражданские проекты основанные на активности депутатов. Например, по мониторингу их выступлений, публикаций в блогах с фильтрацией по партии, фракции, комитету госдумы и так далее Не преобразован ?
Российский сегмент мирового пространства идентификаторов объектов

http://www.ctel.msk.ru/x500/OIDS/inform.htm
Одна HTML страница с несколькими таблицами

Например, для наглядного соотнесения удостоверяющего центра и органа власти дабы показать в каких из них уже есть свои УЦ, а где нет. Не преобразован ?
Реестр эксплуатантов гражданской авиации

http://www.favt.ru/airl/airl_r/index.php
Несколько HTML страничек с алфавитной разбивкой

Для отображения организаций на карте, соотнесения с другими банками данных для анализа отрасли авиаперевозок, для анализа какие эксплуатанты к каким аэропортам относятся Не преобразован ?
Государственный реестр аэропортов гражданской авиации

http://www.favt.ru/ap/ap_rga/

Одна HTML страница с несколькими простыми таблицами

Позволяет отобразить официальный список существующих аэропортов на карте, а также расширять этот список адресами сайтов и реквизитами предприятий. Не преобразован ?
Сведения о доходах сотрудников РосГраницы
http://www.rosgranitsa.ru/about/income

В виде множества DOC файлов с таблицами внутри

Для сервисов по анализу данных о расходах чиновников Не преобразован ?
Сводная налоговая отчетность
http://www.nalog.ru/document.php?id=27443&topic=stat_otch

Сложные данные в виде множества XLS файлов.

Для анализа того как и по каким темам приходят деньги от налогоплательщиков. Не преобразован ?

Поскольку массивы данных вроде сведений о доходах сотрудников Росграницы и Сводную отчетность никто не преобразовал. То если кто-то возьмётся за них, я готов подарить за скрипт, который как и все другие скрипты будет потом в публичном доступе, по любому из них по 1000 рублей. Не скрою, мой интерес не только в том чтобы появились эти данные машиночитаемыми, но и в том чтобы появились примеры преобразований данных в форматах DOC и XLS, ибо их у нас публикуется немало.

Единственно, предупредите меня заранее что берётесь такой скрипт написать дабы не дублировать усилия.  А если по каким-то причинам не хотите делать их за деньги, тоже, пожалуйста, об этом напишите мне.

About This Author

  • http://twitter.com/yegorm Egor

    А не было ли попыток параллельно раскручивать соответствующие органы на то, чтобы они сами выкладывали свои данные в машинно-читаемом формате? Web-сервисы и т.п.?

  • Andrey

    А как вы собираетесь хранить, например, данные вытянутые из http://www.nalog.ru/document.php?id=27443&topic… CSV, json — это понятно, но сама структура данных — неочевидна. Я бы взялся за него, но надо определиться с выходным форматом.

    • http://ivan.begtin.name Ivan Begtin

      CSV на каждую из вкладок в Excel файлах.

  • Akcelisto

    Чем не устраивает Java. На ее основе много скриптовых языков. На Java много полезных свободных библиотек для коммерческого использования. Мне не совсем понятно: чем уж так опасна привязка Java к Oracle. Также кроме SunJDK еще есть OpenJDK (open-source implementation of the Java Platform, Standard Edition).

    Я бесплатно берусь за Государственный реестр фильмов. Буду делать на языке Fantom (fantom.org). Fantom — это скриптовый/компилируемый язык над Java Platform.

    Также надо определиться с выходным форматом.

    Фильмы можно в csv. А вот куда девать их прокатные удостоверения? У каждого фильма от одного до нескольких прокатных удостоверений. Удостоверения тоже можно сложить в csv. И связать их с фильмами через ID фильмов.

    Другой вариант использовать json.

    • http://ivan.begtin.name Ivan Begtin

      Реестр фильмов легко преобразуется в две таблицы — 2 csv файла. Для фильмов и для прокатных удостоверений. Его сегодня уже переделали и вот тут можно найти скрипт на Python — http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D

      Если сделаете скрипт на Fantom, никто, конечно, против не будет — обязательно включим его в общий список. Я, если честно, слышу о таком языке впервые и готов поверить что у него есть свои достоинства.

Яндекс.Метрика