Веб данных

Не так давно Amazon выложил в открытый доступ огромный массив данных, в несколько террабайт — Public Data Sets on AWS 

Правда самих выборок там немного, но они огромны и весьма интересны. 

А я напомню какие ещё интересные подборки данных есть в Веб:

  • Infochimps — огромная подборка разных датасетов с подробным описанием
  • Resource.org — датасеты собранные автором из государственных ресурсов США
  • ProgrammableWeb — не датасет, но большая подборка открытых и не очень API в Вебе
  • US GovXML — ресурс с подборкой ссылок на государственные API и датасеты в США
  • Numbary — ресурс выборок по численным данным
  • CKAN (Comprehensive Knowledge Archive Network) — большой архив ссылок на ресурсы
  • KDNuggets — датасеты для Knowledge Discovery
  • TheInfo.org — подборка ссылок на датасеты
  • Word Resources Institute datasets

Самые интересные — это Infochimps и ProgrammableWeb. В InfoChimps не просто публикуют ссылки на датасеты, но преобразуют их в набор базовых форматов csv, yaml, xls и формируют карточку описания включая отдельные поля. 

А в ProgrammableWeb есть возможность найти большое число сервисов как тех из которых можно извлечь информацию, так и тех которые можно использовать в задачах обогащения информационных срезов.

По России, ничего более менее близкого мне до сих пор не попадалось. При том что лично у меня собрано порядка 200 российских справочников, реестров, онлайновых API, но пока ещё нет времени чтобы всё это рассортировать и привести к пригодному к использованию виду. Сейчас лишь использую ряд из них для проверки алгоритмов на темах о которых периодически тут пишу.

Ещё один немаловажный вопрос — актуализация данных. Мало того что выборку надо извлечь, данные ещё и необходимо очистить и поддерживать в актуальном состоянии, а то есть отслеживать изменения. Тут тоже есть решения, но простыми, увы, их не назовёшь.

About This Author

  • http://koudesnik.livejournal.com koudesnik

    Насчет Amazon: они молодцы и все такое, но есть частичное лукавство, например, все датасеты по биологии давно доступны всем желающим, т.е. в чем здесь заслуга амазона не очень понятно

  • http://ivan.begtin.name ivbeg

    Практически все датасеты что Amazon выложил есть и в других ресурсах — тут же плюс в том что многие используют Amazon EC2 и S3 и оттуда с этими датасетами работать очень удобно.

Яндекс.Метрика