Авг 28 2010

Новое в OpenGovData.ru – данные, заметки, источники и примеры

Итак, в OpenGovData.ru и его Вики появилось много нового.

1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.

Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.

2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут

3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.

4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.

А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат.  Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.

Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.


Авг 27 2010

Вопросы и обсуждения по открытым данным

Поскольку число обсуждающих всё ширится, я хочу поднять ряд вопросов которые возникли, озвучить своё мнение и предложить их к обсуждению.

1. Почему не Java, .NET и прочие и прочие?

В основном по той причине что есть ряд языков/платформ разработки крепко привязанных к компаниям их продвигающих. Так .NET прочно ассоциируется с Microsoft, а Java с Sun/Oracle. Учитывая что эти платформы в основном коммерческие то и, хотя разработчиков на них много, но многие самые интересные движки и библиотеки которые могли бы помочь – тоже коммерческие.

Я лично считаю что для инициативы создания общественного блага на этих платформах должны идти от их вендоров или при их поддержке. Но учитывая что тема имеет гражданское приложение, я слабо верю в то что кто-то из них на это решиться.

В остальном здесь ситуация следующая. Если кто-то по собственной инициативе сделает парсер данных хоть на Lua или Object Pascal и выложит его в открытый доступ, ему в любом случае, респект и уважуха и такие случаи я упомяну обязательно. Но в том что касается случаев когда я выделяю на перевод массива в машиночитаемый вид денежку, то тут точно нет. Моя цель – открытые данные и наиболее простые и понятные способы их создания.

2. Не упомянут Perl

Это правда, но не от нелюбви к нему, а по невнимательности. Конечно, на скрипты на Perl’е всегда приветствуются.

3. Почему не GPL?

Тут та же самая ситуация что и с вендорозависимыми платформами. Если кто-то по своей инициативе хочет сделать скрипт по перобразованию данных и выложить его в открытый доступ под GPL. Хорошо, в любом случае общественное благо. Но лично я рассматриваю лицензию GPL как ограничивающую возможности, а не расширяющие. Соответственно в тех случаях когда я публикую предложения преобразовать за деньги которые я выделяю лично – на GPL это не распространяется. Если же кто-то последует моему примеру и решится выделить средства или вообще организовать такую же инициативу, но GPL’ориентированную – организуйте её самостоятельно. Это тоже общественное благо, тоже респект и уважуха.

4. Почему не RDF и не Semantic Web?

Для спрашивающих, я в общем-то человек сам от Semantic Web’а не далеко ушедший и, например, моделировал геополитическую онтологию в формате OWL о чём можно узнать в моём блоге или в вики OpenGovData.ru.

Так вот, RDF’изация вселенной разумна и практична только когда у Вас _уже_ есть структурированные данные или если Вы формируете онтологии своими руками. Соответственно если у кого то возникнет желание и возможность переводить данные накопленные в OpenGovData.ru и уже преобразованные в форматы для Semantic Web – милости прошу. Лично я же считаю, и сужу по мировому опыту гражданских проектов, что для них достаточно принципиальное наличие данных в структурированной форме, желательно простой – CSV или JSON. Поэтому и все существующие проекты, например, Open Knowledge Foundation помимо RDF отдают данные ещё и в XML и JSON’е. Потому как пока ещё, к сожалению или к счастью, но RDF не стал массовым явлением.


Авг 25 2010

Ещё не конкурс, но обсуждение!

В ВебПланете вышла статья про то что я уже организовал конкурс – http://www.webplanet.ru/news/service/2010/08/25/begtin.html.

Друзья, спасибо за привлечение внимания к идее. Только это ещё не конкурс, это был анонс обсуждения и сбор предложений как конкурс организовать. Обратите, внимание, на разницу.

Результаты обсуждения уже доступны тут http://ivan.begtin.name/2010/08/25/idearesults/

И конкурс будет проходить по описанной там схеме:

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за их преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Если редактора ВебПланеты читают мой блог, поправьте, пожалуйста, у себя в статье.

Тем временем уже за короткий срок уже появилось 7 машиночитаемых массивов данных . Это очень круто, я не ожидал такого результата, если честно.


Авг 25 2010

Результаты обсуждений идеи

Итак, по идее которую я ранее озвучил тут что я хочу инициировать процесс по созданию открытых машиночитаемых данных усилиями сообщества появились первые результаты.

Во первых пошли обсуждений сразу в нескольких местах: здесь - http://ivan.begtin.name/2010/08/24/opendataidea/ , здесь – http://ivbeg.livejournal.com/313161.html и здесь http://groups.google.com/group/opengovdataru/browse_thread/thread/5ef181f1c9e19c72 и тут http://ff.im/pE9Ww. Что мне особенно нравится обсуждение идёт конструктивное – за что спасибо всем участникам.

Во вторых, стоило мне объявить о том что я собираюсь такой конкурс сделать, даже до его объявления мне уже прислали несколько скриптов и массивов данных преобразованных массивов.  Я собрал их все на странице Wiki под названием «Как помочь проекту«. Отдельное спасибо Артемию Трегубенко (arty.name) и Сергею Кожину (http://github.com/skojin) за эти скрипты. А Алекс Капранов взялся за реестр недобросовестных поставщиков. Во всех случаях если не указано иное авторами, я буду размещать такие скрипты и данные под лицензиями PDDL (Public Domain Data License) и Creative Commons Attribution 3.0 Unported License. Да, никто из авторов не спросил денег за работу, но если всё таки  сочтёте что она денег стоит – пишите сразу мне.

В третьих не единожды мне уже написали о том что надо мотивировать не деньгами, а общественным благом. То есть надо описывать ту пользу которую мы создаём преобразуя эти данные. Тут есть не проблема, но вопрос понимания. Сложно доказать прямую пользу от открытых данных поскольку польза не прямая, а на основе производных от них проектов – таких как OpenCongress.org, да и РосГосЗатраты весь и целиком основан на открытых данных как и другие проекты. Создавая открытые данные мы меняем реальность поскольку далее на их основе может быть создано нечто новое, интересное и полезное и далеко не всегда можно предсказать что именно.

В четвёртых я услышал гениальное предложение что надо предлагать компаниям нанимающим программистов предлагать написание парсеров в качестве тестового задания. Если Вы ищите программистов и даёте им тестовые задания, обращайтесь ко мне – я Вам предоставлю список никем пока ещё не преобразованных данных для которых парсеры нужны. Если потом ещё и результаты будут в открытом доступе под Creative Commons – так вообще прекрасно. Точно также, если Вы обучаете студентов, даёте им тестовые задания – я готов, по мере возможностей, помочь с тем какими эти задания могли бы быть. По написанию парсеров, очистке данных, их преобразованию и так далее. Здесь все задачи живые, результаты будут общедоступные, общественное благо будет несомненным.

В пятых, я отвечу на ряд возникших вопросов.

1. Почему только скриптовые языки?

Потому как в большинстве случаев с ними проще управляться, легче использовать в веб-проектах и так далее. Я лично ничего не имею против различных вендоро-специфичных платформ/языков вроде .NET и Java, но не вижу смысла без поддержки самих вендоров на этих платформах.

2. Откуда требования к выходным форматам?

На основе мирового опыта, удобства для пользователей и так далее. Например, данные в CSV сравнительно просто загрузить в MS Excel, OpenOffice или, даже, в GridWorks. XML данные также легко преобразуются и есть много инструментов для работы с ними. JSON очень удобен при веб-разработке и загрузке в NoSQL базы вроде MongoDB.  Плюс, конечно, ещё есть KML формат для геоданных, но я лично считаю его производным от других. То есть вначале хорошо бы получить данные в CSV, а преобразовывать их это уже следующая задача.

3.  Почему среди лицензий нет GPL?

Потому как, GPL, несмотря на все свои плюсы и распространённость довольно жёсткая лицензия. Я считаю что автор должен иметь возможность использовать этот код и для коммерческих целей, равно как и все остальные.

4. Как быть с описанием структур?

По хорошему, прежде чем преобразовывать плохие форматы в хорошие надо бы их описать в некой структурированной форме, например, XSD. на практике, лично я считаю, что этого можно избежать в некоторых случаях когда структура, условно, очевидна. То есть, если мы понимаем что все данные представлены в виде одной плоской таблицы, то последующую структуризацию можно провести постфактум. В случае сложных данных, согласен, имеет смысл моделировать ситуацию, до.

5. Зачем всё это нужно?

Основная цель – создать фундамент для последующих гражданских проектов поскольку сейчас мы находимся, в некотором смысле, тупиковой ситуации. Когда государство не раскрывает данные поскольку исходит из того что они никому не нужны и «общество не готово», а гражданские проекты не появляются поскольку данных нет. Сейчас мы готовим набор ингридиентов на основе которых потом каждый сможет творить собственные блюда.  И чем больше ингридиентов появится, тем больше шансов что будет больше гражданских проектов на их основе.

6. Можно ли эти данные использовать в своих проектах?

Да, несомненно можно и нужно. Как для некоммерческих так и для коммерческих проектов. Для некоммерческих проектов я думаю что и так понятно почему. Для коммерческих это нужно для формирования рынка сервисов основанных именно на открытости данных, а не на доступе к ним на эксклюзивной основе. В мире такие сервисы, в основном, сосредоточены на визуализации данных, подмешиванию их в результаты поисковой выдачи, алгоритмах по работе с информацией, проектов вроде InfoChimps и Factual предоставляющие удобные инструменты для работы с информацией.

——-

И в пятых. По результатам обсуждения я хочу немного трансформировать эту идею. Я вижу что на сравнительно простые массивы данных энтузиасты находятся и их преобразуют. Со сложными случаями, когда данные публикуются в форматах Excel’я, Word’а или PDF.  Или же когда используются сложные формы за которыми данные скрыты. Или же когда структура HTML неудобна для обработки.

Я предлагаю следующее. Я готов размещать в Wiki проекта, на сайте OpenGovData.ru и других ресурсах, на которых только дотянусь, статьи касающиеся преобразования данных различными инструментами. Особенно меня интересуют сложные случаи и статьи с примерами на основе данных OpenGovData.ru. Все статьи будут публиковаться с указанием автора под Creative Commons лицензией.

Соответственно, статья – это всё таки несколько большая работа чем просто преобразовать данные и я готов за такие статьи платить денежку. За обычную статью – 1000 рублей, за статью на особо интересные темы – 2000 рублей. С общим бюджетом в 10 тысяч рублей на месяц и оплатой через Яндекс.Деньги. А если кто-то готов написать, без денег – также милости прошу. Просто отметьтесь, скажите что готовы сделать это без денег.

Какие темы хотелось бы охватить: преобразование данных стандартными скриптовыми языками вроде Python, Ruby, PHP и так далее, обработка данных в общем случае, обзор форматов данных и другие связанные темы.

Темы которые особенно интересны лично мне:

- автоматическое извлечение данных из документов Word, Excel, PDF,

- сбор данных с веб-страниц закрытых за POSTBACK навигацией которая используется в сайтах на asp.net

- трюки, хитрости, сложные случаи

- обработка и очистка данных, в том числе автоматическая. например, интересен обзор работы с Freebase Gridworks;

- как визуализировать данные – строить графики на разных движках. Желательно opensource, но пойдут и другие

Если какие-то темы тут не упомянуты, но Вы считаете что они важны, прошу Вас, предлагайте.

С каждой статьей, соответственно, нужен пример открытых данных из OpenGovData.ru или какой-либо другой пример госданных который там не упомянут (заодно его туда добавим).

Соответственно если Вы захотите такую статью написать – пишите мне на ibegtin (собака) gmail.com или комментарием. Мне нужны тема и то какой массив данных вы в статье используете как пример.

А по преобразованию данных данных я предлагаю следующую схему.

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за его преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Комментарии и живое обсуждение всячески приветствуется.


Июл 19 2010

OpenStack: облако на открытом коде и открытых стандартах

Tag: opensource, webivbeg @ 7:07 пп

Сегодня увидел в ракспейсовской рассылке крайне интересную штуку – OpenStack http://www.openstack.org который продвигают NASA и Rackspace вместе. Кроме того весь софт открытый и под Apache License 2.0

Пишут что сделано всё на Python с Tornado и Twisted и AMPQ. Обещают первую версию к середине октября, а пока можно взять код на Лаунчпаде https://launchpad.net/openstack

Выглядит весьма интересно.


Янв 05 2010

Открытые данные по энергетике

Открылся интересный сайт – www.openei.org платформа для раскрытия открытой информации в области электроэнергетики.

Сам сайт сделан на MediaWiki, но видно что сильно доработан и с самого начала заявляется цель интеграции данных по энергетике в Linked Data

Заодно стоит взглянуть и на VIBE Virtual Information Bridge to Energy Efficiency and Renewable Energy. Это большая база данных по энергетике с графиками, таблицами, ссылками на официальные отчеты и прочими возможностями.


Янв 12 2009

Вьетнам и OpenSource

Tag: e-Government, eGov, opensourceivbeg @ 8:59 дп

Вот эту новость (VietNamNet – Vietnam to widely use open source software) о том что во Вьетнаме начался активный переход на OpenSource среди госслужащих сейчас активно цитируют и тиражируют. Вот только тут важно понимать что это желание использовать open source во Вьетнаме появилось не из воздуха, а в результате следующих обстоятельств:

1. Уровень пиратского использования ПО во Вьетнаме около 90%.

2. Microsoft и другие производители ПО поддерживают локализацию на вьетнамский язык по остаточному принципу. При том что носителей языка более 86 миллионов, что, например, в разы больше чем носителей шведского на который локализуют повсеместно.

3. Растущее число open source приложений и локализаций на вьетнамском языке при сравнительно небольшом числе коммерческих приложений с локализацией.

Также можно почитать заметку годовалой давности про использовение open source во Вьетнаме – Ministry encourages open source software

Как бы то ни было, ситуация с open source во Вьетнаме от российской отличается, хотя бы иным уровнем «корпоративного лобби».

И интересные рассуждения Matt Asay о open source в России.


Сен 08 2008

Техническое: CouchDB и его применимость

Tag: couchdb, opensource, информацияivbeg @ 12:28 пп

В эти выходные мне сравнительно немного удалось поработать за компьютером, была уйма других дел, а вот краулеры и нагрузочные тесты на CouchDb как раз смогли отработать полностью.

За пару дней на мой небольшой домашний сервер удалось собрать информацию по доменам в зоне SU, корневые страницы, данные whois и так далее и теперь могу говорить о CouchDb с большей однозначностью.

Основное, пожалуй, то что движок позволяет делать очень быстрые запросы на добавление и получение отдельных документов по ключу. Для систем со стратегией работы с данными по CRD (Create, Read, Delete) движок весьма удобен, например, у него есть хороший потенциал в качестве использования как хранилища логов. А вот для CRUD в классическом понимании будут свои особенности, в частности то как CouchDb работает с версиями будет отрицательно сказываться на объёмах хранимых данных.

Continue reading «Техническое: CouchDB и его применимость»


Июл 22 2008

ODF в НАТО и в EIF

Tag: opensource, стандартыivbeg @ 10:58 дп

По сети бродит ссылка НАТО (NATO) выбрали ODF как один из форматов передачи документов. Причём похоже упоминается что возможное влияние на решение оказал голландский министр обороны, поскольку в голландии Open Source особенно распространён.

Интереснее будет ситуация если ODF включат и в EIF (European Interoperability Framework) учитывая особую любовь Еврокомиссии к Майкрософт, такое развитие событий будет неудивительно.


Июн 26 2008

Мир как поток и совокупность информации. Часть 3.

В предыдущих двух частях: часть 1 и часть 2 я описывал информационные потоки в общем случае, а также некоторые их метрики. В этой части я заторону подробнее такое понятие как информационный массив, конечно, в контексте информационных потоков.

Информационный массив (information dataset) – это совокупность однородных или связанных объектов включая их связи и структуру отношений, не обладающих временными метками или же в когда временные метки не являются ключевым критерием их рассмотрения и анализа. В качестве информационных массивов можно рассмотривать любую энциклопедию, справочник, коллекции статей «How-To». При этом массивы, как и потоки, можно рассматривать как простые (однородные) так и сложные.

Например, рассмотрим такой массив данных как телефонный справочник городов. У него простая структура: код, город; и, несмотря на то что можно фиксировать ещё и дату внесения кода в справочник, конечному потребителю этой информации дата будет ненужна в подавляющем большинстве случаев. Максимум она может подтвердить актуальность справочника, но вероятность того что кто-то, к примеру, будет подписываться на RSS изменений этого справочника стремиться к нулю, так как это массив информации, а не поток и его потребление основывается на принципах точности, поиска и сопоставления информации, но не на ежедневном потреблении новых данных. В то же время, рассматривая записи в этом справочнике с точки зрения модели информационных потоков мы можем определить в нём дополнительную дату – дату обновления записи и определить максимальное число информационных потоков. Continue reading «Мир как поток и совокупность информации. Часть 3.»


Следующая страница »


Rambler's Top100