Проекты по открытым данными и не только

Продолжая тему открытых данных и их доступности, нельзя не отметить что открытые данные раскрывают не только государственные структуры и НКО, но и вполне себе крупные коммерческие компании такие как Google, Microsoft, Yahoo и другие. Причём если ранее они предоставляли данные, в основном, в виде срезов для каких-либо научно-технических конкурсов, то сейчас ситуация постепенно меняется и многие данные доступны всем онлайн и под лицензией Creative Commons.

Вот некоторые примеры и инициативы

Google NGram Datasets

Ссылка: http://ngrams.googlelabs.com/datasets

Большая подборка датасетов от Google с ngram’ами по множеству языков. Сами датасеты построены на базе Google Books. Данных там очень много, все они доступны под лицензией Creative Commons Attribution 3.0 Unported, а то есть их можно использовать в том числе и для коммерческих целей при условии указания откуда данные были взяты.

DataWiki

Ссылка: http://datawiki.googlelabs.com/

Пока ещё экспериментальный проект по созданию Wiki для хранения структурированных данных. На мой взгляд сильно проигрывает таким проектам как Socrata или Semantic Mediawiki, но тем не менее интересно.

Google Fusion Tables

Ссылка: http://www.google.com/fusiontables/Home

Это как раз прямой конкурент Socrata — таблицы от Google. Позволяет импортировать и хранить табличные данные. Визуализировать их и тому подобное. Не очень впечатляет по возможностям, во всяком случае пока. Но когда они расширят этот проект возможностями Google Refine, то картина будет совсем другой

Google Refine

Ссылка: http://code.google.com/p/google-refine/

Очень мощный и гибкий инструмент по очистке табличных данных изначально сделанный Metaweb который теперь куплен Google’ом.

IMDB Interfaces

Ссылка: http://www.imdb.com/interfaces#plain

Открытые данные распространяемые IMBD. Не бесплатно в общем случае, но бесплатно в некоторых случаях. Подробнее у них на сайте.

ImageNet

Ссылка: http://www.image-net.org/download

Огромный массив отклассифицированных изображений.

CommonCrawl

Ссылка: http://www.commoncrawl.org

Огромная база ссылок результатов сканирования веб-сайтов краулерами, в частности найденных ссылок. Скачать полностью, увы, нельзя, но в остальном очень круто.

About This Author

Яндекс.Метрика