Проверка идеи по созданию открытых данных общественными силами

Есть одна идея которую лично я считаю что просто необходимо подтвердить или опровергнуть экспериментально.

Эта идея проста — не обязательно дожидаться когда госорганы начнут публиковать данные в машиночитаемом виде, многие массивы можно подготовить и опубликовать самостоятельно. Благо существует разнообразный инструментарий для создания парсеров.

При том что с волонтёрской деятельностью у нас, пока, прямо скажем — не очень. Поскольку если много других полезных занятий, а открытые данные пока ещё «проникают в умы людей», но не поселились там.

То о чём я пишу пока идея для обсуждения, которая, впрочем может стремительно воплотиться в жизнь.

Что я хочу сделать.

В качестве эксперимента я готов выделить из личных средств 5-10 тысяч рублей на 1 месяц на разработку парсеров. Сумма небольшая, но это именно что эксперимент, это проверка идеи.  А если всё получится, то суммы потом будут больше.

Однако я хочу не просто заказать работы  на стороне, а с соблюсти следующие условия:

1. Код парсера должен быть доступен всем желающим с открытым исходным кодом под лицензией допускающей коммерческое и некоммерческое использование. Предпочтительные лицензии — BSD, MPL, Apache License и т.д. Соответственно без проприетарного кода и без GPL. Код автор публикует в сети сам или присылает мне и я публикую на специальном сайте или OpenGovData.ru

2. Предпочтительные языки разработки по убыванию — Python, Ruby, PHP. Другие скриптовые возможны, но менее предпочтительны. Языки предусматривающие компиляцию кода вроде C, C++, Java  точно не рассматриваются.

3. Форматы выходных данных могут быть — CSV, XML, JSON. Соответственно CSV предпочтителен для всех плоских списков, для более сложных структур нужны данные в XML и JSON.

4. Код не должен подвергаться обфускации. А то есть он должен быть читаем, понимаем и, с возможностью, его править, при необходимости.

А также обработать надо не какой-попало источник данных, а один из некого первоочередного списка.  Этот список, предварительно, я составил из следующих массивов:

Простые массивы

Сложные массивы

  • Сведения о доходах сотрудников РосГраницы — http://www.rosgranitsa.ru/about/income . Несколько .DOC документов с таблицами.
  • Реестр недобросовестных поставщиков — http://rnp.fas.gov.ru/
  • Реестр лицензий на осуществление деятельности по организации и проведению азартных игр в букмекерских конторах — http://www.nalog.ru/html/docs/reestr_buk.doc . Файл MS Word со сложными, но унифицированными таблицами.
  • Сводная налоговая отчетность — http://www.nalog.ru/document.php?id=27443&topic=stat_otch. Очень много многостраничных XLS файлов.

Плюс, прошу Вас предлагать те что Вам интересны. Список можно найти тут — http://www.opengovdata.ru/sources/

В итоге для каждого массива должно быть:

— скрипт по его конвертации;

— данные в машиночитаемом формате

— короткое описание README с описанием зависимостей скрипта и полей данных

И вот тут, то мы приходим к главному вопросу КАК именно это всё это я хочу осуществить.

Вначале — мои цели:

1. Преобразовать как можно большее число массивов в машиночитаемый вид.

2. Обеспечить преобразованию максимальную публичность и простоту повторного использования результатов через открытый код.

3. Преобразовать в первую очередь наиболее востребованную гражданами информацию.
И вот теперь собственно мои вопросы по результатам размышлений о вышенаписанном.  Меня волнует следующее — в какой форме лучше всего организовать процесс.

Рассмотрим варианты:

  • Призовой конкурс. Для каждого массива данных устанавливается сумма за его преобразование в машиночитаемый вид. Первый кто прислал или опубликовал результат — получает эту сумму. Если больше одного человека пишут скрипт — второму идёт поощрительная сумма.
  • Редукцион. Указывается максимальная цена, сроки и ожидаемые результаты, от потенциальных исполнителей получаются предложения сделать за меньшие или эти деньги. Побеждает тот предлагает наименьшую цену. Но у нас же не госзаказ, нам нужна соревновательность.

При этом меня не покидает ощущение что есть и другие варианты. Или же эти варианты стоит описать чуть подробнее. В любом случае совершенно не хочется запускать процесс через заказы на Фриланс.Ру, по моему можно найти удачную альтернативу.

—-

Поэтому у меня есть следующие вопросы залу:

1. В какой форме лучше всего организовать процесс?

2. Какие существующие массивы данных Вам бы _очень_ хотелось увидеть машиночитаемыми и включить в список выше?

3. Если Вы разработчик, было бы Вам интересно в таком мероприятии поучаствовать?

Идеи, предложения, дискуссии и распространение всячески приветствуются.

UPDATE: Первые результаты обсуждения идеи тут — http://ivan.begtin.name/2010/08/25/idearesults/

Результаты преобразований тут — http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D0%BA-%D0%BF%D0%BE%D0%BC%D0%BE%D1%87%D1%8C-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%83

UPDATE2: Для тех кто пришёл на пост со статьи в ВебПланете. Это ещё не конкурс, это только призыв к его обсуждению. Прочитайте вначале результаты обсуждения по ссылке выше.

About This Author

Яндекс.Метрика