Посты в категории: datasets

Открытые данные: Расходы на ФЦП в бюджете 2009 в XLS и CSV

Продолжаю публиковать различные открытые данные.  На сей раз вашему вниманию предлагается небольшой датасет с данными по расходам на ФЦП заложенными в федеральный бюджет (данные на 1 июля 2009 года) .
  • fcp2009.csv — в формате CSV (разделитель ‘;’)
  • fcp2009.xls — в формате MS Excel

Файлы состоят из двух колонок: общая сумма и название

Читать больше

OpenGovData: Государственный рубрикатор научно-технической информации

Ещё одно пополнение для OpenGovData.ru — государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.

Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 —  http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.

ГРНТИ, кстати — это один

Читать больше

Датасет по ипотечному кризису в США

В GitHub проекте data-housing-crisis (http://github.com/hadley/data-housing-crisis/tree/master) появилась огромная подборка данных по ипотечному кризису в США.

Это результаты опросов, статистика, данные переписей и так далее. Суммарно на 10 гигабайт

Всё это вместе со скриптами по работе с данными на языке R.

Читать больше

Ссылки на 05.06.2009. Датасеты

Ссылки на 30.05.2009. Датасеты и наборы данных

  • INRIA Datasets — большие коллекции изображений INRIA (1GB и 1.6GB)  собранные с Flickr
  • 1.5 миллиона небольших картинок — датасет который я уже упоминал, но менее интересным он от этого не становится (3.5 GB)
  • ImageNet.org — объединение WordNet и огромной базы в количестве 3,247,902 изображений и 5247 синсетов. Есть возможность запросить доступ

    Читать больше

Открытые данные: Структурированная номенклатура

Ещё один новый массив данных в OpenGovData.ru — Структурированная номенклатура продукции для государственных и муниципальных нужд.

Номенклатура используется (должна использоваться) при прогнозирование объёмов закупок и в планах-графиках на размещение заказа.

В открытом доступе она есть на сайте zakupki.gov.ru (http://www.zakupki.gov.ru/Default.aspx?link=21) и ещё ряде региональных сайтов, но в машиночитаемой форме нигде нет.

И, к

Читать больше

Нестандартные выводы из открытых данных

В статье на которую я ссылался в предыдущем посте об открытых данных как гражданском капитале есть одна важная мысль. Это то что одной из важнейшей причин их доступности является то что изначальная информация может быть рассмотрена с совершенно иных ракурсов и приводить нестандартным выводам.

Приведу пару таких выводов из собственной практики:

1.

Читать больше

MongoDB

Вторую неделю экспериментирую с MongoDB . Для тех кто не знает — это такая экспериментальная база данных ориентированное на хранение в виде документов (document-based), похожая на CouchDb по идеологии и по принципам работы.

По результатам впечатления смешанные.

С одной стороны к плюсам можно отнести то что:

Датасеты — дамп StackOverflow

Может быть интересно для тех кто исследует социальные сети и вообще интересуется большими массивами данных — проект StackOverflow выложил в общий доступ датасет на 200 мегабайт сжатых 7Zip с коллекцией вопросов, участников, комментариев и результатов оценки.

Основная идея: Мы получаем данные от сообщества, мы возвращаем данные сообществу.

Для справки. StackOverflow —

Читать больше

Демократизация данных

В блоге Обамы появилась запись Democratizing Data —  где описано ничто иное как анонс data.gov

Этот анонс давно ожидался, и вот время настало и открытые данные стали неотъемлимой частью информационного присутствия государства в сети (в США).

Обратите также внимание на наличие ссылки — Suggest Dataset

Про то что в России

Читать больше

Яндекс.Метрика