Проверка идеи по созданию открытых данных общественными силами
Есть одна идея которую лично я считаю что просто необходимо подтвердить или опровергнуть экспериментально.
Эта идея проста — не обязательно дожидаться когда госорганы начнут публиковать данные в машиночитаемом виде, многие массивы можно подготовить и опубликовать самостоятельно. Благо существует разнообразный инструментарий для создания парсеров.
При том что с волонтёрской деятельностью у нас, пока, прямо скажем — не очень. Поскольку если много других полезных занятий, а открытые данные пока ещё «проникают в умы людей», но не поселились там.
То о чём я пишу пока идея для обсуждения, которая, впрочем может стремительно воплотиться в жизнь.
Что я хочу сделать.
В качестве эксперимента я готов выделить из личных средств 5-10 тысяч рублей на 1 месяц на разработку парсеров. Сумма небольшая, но это именно что эксперимент, это проверка идеи. А если всё получится, то суммы потом будут больше.
Однако я хочу не просто заказать работы на стороне, а с соблюсти следующие условия:
1. Код парсера должен быть доступен всем желающим с открытым исходным кодом под лицензией допускающей коммерческое и некоммерческое использование. Предпочтительные лицензии — BSD, MPL, Apache License и т.д. Соответственно без проприетарного кода и без GPL. Код автор публикует в сети сам или присылает мне и я публикую на специальном сайте или OpenGovData.ru
2. Предпочтительные языки разработки по убыванию — Python, Ruby, PHP. Другие скриптовые возможны, но менее предпочтительны. Языки предусматривающие компиляцию кода вроде C, C++, Java точно не рассматриваются.
3. Форматы выходных данных могут быть — CSV, XML, JSON. Соответственно CSV предпочтителен для всех плоских списков, для более сложных структур нужны данные в XML и JSON.
4. Код не должен подвергаться обфускации. А то есть он должен быть читаем, понимаем и, с возможностью, его править, при необходимости.
А также обработать надо не какой-попало источник данных, а один из некого первоочередного списка. Этот список, предварительно, я составил из следующих массивов:
Простые массивы
- Выписка из реестра плана нумерации Россвязи - http://www.rossvyaz.ru/activity/num_resurs/registerNum/
- Список членов Совета Федерации — http://www.council.gov.ru/staff/members/persons/index.html
Сложные массивы
- Сведения о доходах сотрудников РосГраницы — http://www.rosgranitsa.ru/about/income . Несколько .DOC документов с таблицами.
- Реестр недобросовестных поставщиков — http://rnp.fas.gov.ru/
- Реестр лицензий на осуществление деятельности по организации и проведению азартных игр в букмекерских конторах — http://www.nalog.ru/html/docs/reestr_buk.doc . Файл MS Word со сложными, но унифицированными таблицами.
- Сводная налоговая отчетность — http://www.nalog.ru/document.php?id=27443&topic=stat_otch. Очень много многостраничных XLS файлов.
Плюс, прошу Вас предлагать те что Вам интересны. Список можно найти тут — http://www.opengovdata.ru/sources/
В итоге для каждого массива должно быть:
— скрипт по его конвертации;
- данные в машиночитаемом формате
— короткое описание README с описанием зависимостей скрипта и полей данных
И вот тут, то мы приходим к главному вопросу КАК именно это всё это я хочу осуществить.
Вначале — мои цели:
1. Преобразовать как можно большее число массивов в машиночитаемый вид.
2. Обеспечить преобразованию максимальную публичность и простоту повторного использования результатов через открытый код.
3. Преобразовать в первую очередь наиболее востребованную гражданами информацию.
И вот теперь собственно мои вопросы по результатам размышлений о вышенаписанном. Меня волнует следующее — в какой форме лучше всего организовать процесс.
Рассмотрим варианты:
- Призовой конкурс. Для каждого массива данных устанавливается сумма за его преобразование в машиночитаемый вид. Первый кто прислал или опубликовал результат — получает эту сумму. Если больше одного человека пишут скрипт — второму идёт поощрительная сумма.
- Редукцион. Указывается максимальная цена, сроки и ожидаемые результаты, от потенциальных исполнителей получаются предложения сделать за меньшие или эти деньги. Побеждает тот предлагает наименьшую цену. Но у нас же не госзаказ, нам нужна соревновательность.
При этом меня не покидает ощущение что есть и другие варианты. Или же эти варианты стоит описать чуть подробнее. В любом случае совершенно не хочется запускать процесс через заказы на Фриланс.Ру, по моему можно найти удачную альтернативу.
—-
Поэтому у меня есть следующие вопросы залу:
1. В какой форме лучше всего организовать процесс?
2. Какие существующие массивы данных Вам бы _очень_ хотелось увидеть машиночитаемыми и включить в список выше?
3. Если Вы разработчик, было бы Вам интересно в таком мероприятии поучаствовать?
Идеи, предложения, дискуссии и распространение всячески приветствуются.
UPDATE: Первые результаты обсуждения идеи тут — http://ivan.begtin.name/2010/08/25/idearesults/
Результаты преобразований тут — http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D0%BA-%D0%BF%D0%BE%D0%BC%D0%BE%D1%87%D1%8C-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%83
UPDATE2: Для тех кто пришёл на пост со статьи в ВебПланете. Это ещё не конкурс, это только призыв к его обсуждению. Прочитайте вначале результаты обсуждения по ссылке выше.
Поделиться в соц. сетях
-
http://roman.yankovsky.me/ Roman Yankovsky
-
http://ivan.begtin.name Ivan Begtin
-
Ashrub
-
http://ivan.begtin.name Ivan Begtin
-
http://worldmind.livejournal.com/ worldmind
-
http://ivan.begtin.name Ivan Begtin
-
http://twitter.com/f1ashr Flashr Topbot
-
http://ivan.begtin.name Ivan Begtin
-
Sergey
-
http://ivan.begtin.name Ivan Begtin
-
13DaGGeR
-
http://ivan.begtin.name Ivan Begtin
-
ne
-
http://ivan.begtin.name Ivan Begtin
-
ne
-
http://ivan.begtin.name Ivan Begtin
-
Alex Kapranoff
-
http://ivan.begtin.name Ivan Begtin
-
Alex Kapranoff
-
Viktor Mireyev
-
http://ivan.begtin.name Ivan Begtin
-
Andrey
-
http://twitter.com/Valery35 Valery Hronusov
-
http://twitter.com/CatalogLoader Catalog Loader
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






