Data Science Toolkit — инструмент специалистов по работе с данными

Пит Уорден (Pete Warden), создатель проект OpenHeatMap.com на днях открыл новый проект Data Science Toolkit — http://www.datasciencetoolkit.org/ который представляет собой коллекцию веб-сервисов полезных для каждого специалиста работающего с большими объёмами данных.

Причём он включает такие инструменты как:

— преобразование HTML в текст

— извлечение текста из документов и изображений

— определение широты и долготы по почтовому индексу

— извлечение географических мест и персон из текста

Всё это, по большей части, применимо лишь к англоязычным материалам и, в части геоинформации, работает лишь с данными в США.

Но, нельзя не отметить другое ключевое достоинство — Data Science Toolkit доступен не просто как веб-сервисы в Интернете, а его исходный код раскрыт здесь https://github.com/petewarden/dstk, а сам движок распространяется в форме виртуальной машины для EC2 или Vmware — http://www.datasciencetoolkit.org/developerdocs#vmware

Появление этого сервиса и меня привело к мысли что возможно стоит сделать публичными некоторые из своих наработок. За прошлые годы у меня лично также накопилось большое число наработок в виде веб-сервисов API по определению пола и этноса по ФИО, разбору ФИО, расшифровке и валидации различных кодов, определение орг. формы предприятий и так далее, много всего.

Эти сервисы оказываются очень полезны при обогащении разного рода данных, но самые простые из них некоммерциализируемы.

Так что я думаю что хотя бы часть из этих сервисов будет доступна. Собственно всё что мне для этого нужно — это описать их и сделать отдельный экземпляр движка.

About This Author

Яндекс.Метрика