Фев 18 2010

OpenGovData.ru: Большой список массивов госданных

Дублирую сообщение из группы OpenGovData.ru

Из недавно опубликованного вот тут (http://www.slideshare.net/iponomarev/100125-e-government) системного проекта по Электронной России удалось извлечь таблицу с перечнем публичных массивов данных.

Многих из них ещё нет в OpenGovData.Ru, а многие вообще малоизвестны.
А также около половины из них до сих пор недоступны онлайн в какой-
либо форме.

Весь список можно получить тут.
в CSV - http://groups.google.com/group/opengovdataru/web/public_data_sources.csv
(кодировка Windows-1251)
в XLS - http://groups.google.com/group/opengovdataru/web/public_data_sources.xls

В ближайшее время данные оттуда перекочуют в OpenGovData.ru, а также
предлагаю подумать стоит ли регистрировать массивы данных которые
недоступны онлайн?

Как всегда – отклик, идеи и предложения приветствуются. Можно тут, можно в группе Google Groups, можно через Reformal (http://opengovdata.reformal.ru/)


Дек 15 2009

Торрент трекер для датасетов и открытых данных

Tag: datasets, информацияivbeg @ 12:28 пп

Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открытых данных которыми бы хотелось поделиться и которые хотелось бы скачать.

Пока данных там немного, но уверен что будет больше нашими совместными усилиями.

Плюс если Вы какие-то данные ищите и они публичны можно, например, отписаться мне и я буду выкладывать их и через трекер тоже.

Например, все данные из OpenGovData.ru я планирую публиковать через этот трекер.


Ноя 09 2009

Открытые государственные данные в сети

Недавно Катерина Аксенова написала про ряд проектов по раскрытию государственных данных в сети. Обратите внимание что большая часть этих проектов проходит в «англо-саксонских странах» США и бывших британских колониях. Незнаю чем это обусловлено исторически, но да, почему-то именно в них к публичным данным особенно внимательное отношение именно сейчас.

Я приведу в дополнение ещё ряд интересных проектов на ту же тему:

И другие интересные ресурсы на ту же тему:

И, наконец, российские ресурсы:

  • http://www.opengovdata.ru – сайт созданный мною в мае 2009 и понемногу наполняющийся.
  • http://www.mosclassific.ru – сайт ГУП «Социальный регистр» – предоставляют в открытом доступе все московские и общероссийские классификаторы. Московские можно скачать в XML и DBF (после бесплатной регистрации), а общероссийские доступны только в виде HTML страниц,  но с более-менее удобным поиском.

Будет ли в России Data.Gov.Ru? Я бы переформулировал вопрос. А будет ли его кто-либо использовать?

Собственно это вопросы к читателям – если бы Data.Gov.Ru появился, то:

1. Какую информацию Вы бы хотели там увидеть?

2. Готовы ли Вы лично создавать проекты машапы на основе открытых данных?

3. Если готовы, то забесплатно, или же за деньги в виде конкурсов вроде «Apps for Russia»?

4. Какие машапы Вам было бы интересно увидеть как потребителям?


Окт 15 2009

О живых данных

В последние несколько месяцев от меня было куда меньше постов чем обычно по довольно простой причины – прямо сейчас я занимаюсь проектом довольно непростым понятийно и технически. Планировал я его несколько лет и только в этом году удалось приступить к реализации.

Проект, разумеется, связан с большими объёмами информации, её обработкой, классификацией и последующим представлением. Особенность этого в том что работа идёт с «живыми данными», а то есть источников информации много, информация разноформатна, предоставляется в разном качестве, содержит ошибки в структуре и в значениях, обладает разными ограничениями и прочими особенности нетепличных данных.

В то же время это «живые данные» имеют массу специфики, при их сборе, подготовке, обработке и так далее. Приведу ряд соображений и размышлений для примера:

1. Для простых данных в виде плоских таблиц можно использовать различные SQL-базы с внешней обвязкой метаданными.  Но, случаи когда используются только простые таблицы редки, чаще всего данные обладают иерархией и вложенностью. Эту иерархию и вложенность можно привести к SQL сильно увеличив число таблиц, или же использовать NoSQL подход брать за основу CouchDb, MongoDb или их аналоги или семантические triple-store.

2. До сих пор очень мало практических инструментов по работе с NoSQL данными. Практически нет ETL инструментов, BI движков, ORM библиотек и прочего разного. Во многом от того что сама концепция NoSQL только сейчас приобретает признаки тренда и нет единых стандартов по доступа к такого рода данным.

3. На самом деле обработка большого объёма разноформатной информации это ещё и до сих пор не решённая исследовательская задача. Большинство же практических систем, например, поисковых, либо нормализуют источники информации и получаемые данные, либо резко ограничивают их число и связывают информацию в этих источниках вручную. Например, поисковики вроде Google или Yahoo нормализуют весь веб к веб-страницам, а в WolfRam Alpha используется большое число массивов данных вручную нормализованных, в основном, по формам выдачи результатов. Задачу же автоматической или автоматизированной интеграции тысяч и десятков тысяч источников информации решить было бы очень интересно, но лично я понимаю всю её объективную сложность.

4. Онтологии – это правильно, хорошо и идеалистично. К живым данным они имеют весьма слабое отношение и тут скорее можно говорить об онтологии извлечения и обработки информации. Некой единой модели  которая бы всё это описывала. Но это ещё одна большая и непростая исследовательская задача пока ещё далёкая от решения.

5. Один большой вопрос – это работа с аномалиями, когда получаемые из источника информации данные не соответствуют заявленному формату. Причём в случаях если подобные аномалии возникают в пределах данных, то это не то чтобы просто, но точно решается. А вот в случаях когда аномалии происходят на структурном уровне – последовательности полей или их разделения, то тут решается сложнее. Локализацией участка и ручному анализу или же разработкой правил анализа отклонений на основе ранее выявленных ошибок.  Одно можно сказать точно, в живых данных такие аномалии встречаются.

6. Кстати, говоря об аномалиях, нельзя не отметить ещё и тот факт что они сильно зависят от формы носителя информации – контейнера и от представления информации в этом контейнере. В практическом плане это выражается в том что в файлах Excel или DBF есть четкое разделение полей и хранение метаданных о типах данных в этих полях, а вот в HTML и, в некоторых случаях, в CSV такого нет или же, если есть, то этим метаданным нельзя доверять безоговорочно. Также с точки зрения выявления аномалий можно рассматривать любые полуструктурированные тексты устоявшегося написания той или иной информации – адресов, фамилий и так далее.


Окт 07 2009

Ссылки на 7.10.2009: Интересные машиночитаемые данные

Tag: datasetsivbeg @ 1:26 дп
  • Data.australia.gov.au – австралийский государственный портал открытых данных
  • DataSF.org – неофициальный портал открытых данных города Сан-Франциско (США)
  • Correlates of War – набор датасетов посвящённых истории военных конфликтов.
  • Word Bank Data – данные публикуемые всемирным банком
  • CloudMade – датасеты по геотематике по разным странам мира и в разнообразных форматах
  • Kids Count DataCenter – аналитика и данные по числу детей в США в разрезах бедности, занятости, демографии, образования и здоровья

Сен 30 2009

Infogeeks / Инфогики

Tag: datasets, из жизни, информацияivbeg @ 4:31 пп

Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где «мета» обозначает концептуальную модель её производства, существования и структуры.

Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.

Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.

В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.

Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.

Кстати, большой плюс у такого хобби в его безграничности.


Сен 09 2009

Мой список Wanted data

Одно дело собирать уже раскрываемые данные и куда важнее те данные которых в открытом доступе нет, а, в лучшем случае, есть их производные.

Причём по моему наблюдению и если говорить о государственной информации, то чуть ли не самые интересные данные находятся в ведении региональных и муниципальных властей.

Я собрал небольшую подборку того какая информация была бы наиболее интересна и социально-полезна.

1. Всё что касается экологического мониторинга.

Это результаты замеров загрязнения атмосферы, поверхности воды, почв и так далее в форматах пригодных для дальнейшей обработки.

Например, я знаю что в Москве такая информация точно собирается. Ещё до июля месяца на сайте Департамента природопользования и охраны окружающей среды (http://www.moseco.ru) были данные мониторинга со станций. Сейчас те что мне удалось найти ограничены июлем месяцем и нет ничего в машиночитаемой форме.

Зато масса графиков, наложений на карты и прочих производных. Но от графиков польза нулевая, а вот на основе первичных данных можно было бы построить интересные машапы вокруг темы экологии в городе. Подозреваю что в других регионах ситуация не сильно лучше.

Кое-что, правда, есть на сайте ГПУ «Мосэкомониторинг», например, http://www.mosecom.ru/air/air-week/station/marin/ , но и это не машиночитаемые данные, а сравнительно легко извлекаемые из HTML таблицы.

2. Перечни всех городских строек.

Практически на всех стротельных объектах устанавливаются щиты с упоминанием кто является застройщиком, его контактные телефоны и т.д.

Вопросы:

а. Почему там нет их веб-сайта?  Это куда более важный канал информации чем телефон

б. Как узнать кто ведёт строительство и ремонт где в городе и когда он будет закончен? Вообще моё личное мнение что для того чтобы узнать кто из строителей шумит по ночам у меня под окнами я не должен идти и смотреть на эту табличку.

Помимо всего прочего эта информация позволит проводить мониторинг тех кто срывает сроки ремонта и строительства и учитывать идущие и планируемые стройки при переездах и тому подобное.

3. Актуальные перечни и адреса госучреждений и муниципальных (социальных) магазинов

Это перечни отделений департаментов соц. защиты, центров занятости, больниц и так далее. А то есть всех тех социально-значимых учрежений информация о которых людям необходима.

В значительном объёме эта информация и так уже публикуется, но если бы она публиковалась в машиночитаемой форме, то появились бы веб-ресурсы способные помочь людям которым эта информация необходима. Как минимум это могут быть специализированные машапы, а как максимум эта информация может пригодится и крупным поисковым игрокам для улучшения поисковой выдачи и собственных сервисов.

И так далее – это всё неполный список того что является Wanted Data для меня лично поскольку я точно знаю что нашёл бы применение перечисленным выше данным.

А что Wanted Data для Вас? Кому не сложно, напишите какие данные хотелось бы увидеть и были бы Вы готовы строить на них машапы, встраивать в свои сайты и так далее.


Сен 02 2009

Открытые данные: Расходы на ФЦП в бюджете 2009 в XLS и CSV

Tag: data.gov.ru, datasets, opengovdata.ruivbeg @ 9:06 дп
Продолжаю публиковать различные открытые данные.  На сей раз вашему вниманию предлагается небольшой датасет с данными по расходам на ФЦП заложенными в федеральный бюджет (данные на 1 июля 2009 года) .
  • fcp2009.csv – в формате CSV (разделитель ‘;’)
  • fcp2009.xls – в формате MS Excel

Файлы состоят из двух колонок: общая сумма и название ФЦП.  Всего 50 строк, строки рассортированы по убыванию.

Поскольку массив небольшой, то публикую его только у себя в блоге, а не в OpenGovData.ru.   В OpenGovData.ru будут более детализированные массивы, чуть позже.

Все цифры получены на основе открытых первичных данных публикуемых МинФином тут  - http://www1.minfin.ru/ru/budget/federal_budget/ за что МинФину отдельное спасибо.

P.S. Вообще данные буквально просятся под инфографику, но мне, увы, визуальные исскуства даются с трудом.  Если кто может что-нибудь красивое из них сотворить или же посоветовать как можно построить интересную инфографику какими-либо онлайн сервисами или программами – буду благодарен.


Авг 31 2009

Открытые данные: Структурированная номенклатура

Tag: data.gov.ru, datasets, opengovdata.ru, госзаказivbeg @ 12:00 пп

Ещё один новый массив данных в OpenGovData.ru – Структурированная номенклатура продукции для государственных и муниципальных нужд.

Номенклатура используется (должна использоваться) при прогнозирование объёмов закупок и в планах-графиках на размещение заказа.

В открытом доступе она есть на сайте zakupki.gov.ru (http://www.zakupki.gov.ru/Default.aspx?link=21) и ещё ряде региональных сайтов, но в машиночитаемой форме нигде нет.

И, к вопросу о наличии других данных в OpenGovData.Ru. Не скрою что данных у меня накопилось куда больше чем сейчас опубликовано, причём часть из них относительно несложно преобразовать из имеющихся форматов в открытые данные, но главные нерешённые вопросы остаются:

1. Как обеспечить обновление данных, например, общероссийских справочников?

2. Какие массивы данных наиболее востребованы?

3. Готов ли кто-нибудь создавать машапы на основе открытых данных или же навигацию по ним и визуализацию нужно будет также делать в OpenGovData.Ru?


Авг 31 2009

OpenGovData: Государственный рубрикатор научно-технической информации

Ещё одно пополнение для OpenGovData.ru – государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.

Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 –  http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.

ГРНТИ, кстати – это один из примеров того что формат представления информации _имеет значение_.  В Рунете есть множество ресурсов где он доступен или как документ Word/PDF или через поиск или навигацию, но в машиночитаемой форме найти было просто нереально. Теперь же машиночитаемая форма есть в OpenGovData.ru


Следующая страница »


Rambler's Top100