Авг 28 2010
Новое в OpenGovData.ru – данные, заметки, источники и примеры
Итак, в OpenGovData.ru и его Вики появилось много нового.
1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.
Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.
2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут
3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.
4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.
А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат. Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.
—
Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.




