Инструменты работы с данными. Мысли и наблюдения

В последнее время много времени уделяю различным инструментам работы с информацией — очистка, обработка, конвертация, визуализация и всё что с этим связано. Общее число инструментов весьма велико, как и число их возможных применений.

Просуммирую собственные размышления:

  • большая часть инструментов работы с большими массивами информации написаны на Java. То же самое можно сказать про инструменты работы с semantic web. Может быть это именно мне попадались подобные, но думаю что действительно пока инструментов в Java больше.
  • Язык R (R Language) впечатляет удобством и всё более идёи в массы, например, лично мне нравится возможность вызова его через код Python посредством rPy (http://rpy.sourceforge.net/).  Один лишь недостаток — язык под GPL и использовать его в коммерческих продуктах не получится. Но коммерческие продукты — это не всё и я уже знаю несколько примеров (вне России) где R используют внутри компаний или же как аутсорсинг услуг.
  • большая часть задач по визуализации решается теми или иными плагинами для Excel, а также непосредственно возможностями Excel’я особенно версии 2007. Единственной более менее серьёзной заменой ему я знаю Tableau цена которого нереально выше — минимум $999 за персональную лицензию.
  • весьма примечателен выбор графика в JuiceAnalytics там можно подобрать график под свои нужды и сразу скачать его под Excel или Powerpoint.
  • а вот в для веб пока ничего более простого и удобного чем Amcharts (http://www.amcharts.com/) мне найти не удалось. При очень небольшой цене — весьма удобный и гибкий инструмент. Впрочем есть и бесплатные варианты вроде OpenFlashChart, бесплатной версии FusionCharts и Yahoo ASTRA Flash Components.
  • есть целый ряд тем по обработке данных отодвинутых от наиболее продвинутых инструментов. Например, есть пробел с извлечением метаданных из различного рода файлов — фактически, за исключением самых популярных форматов,  в остальном под каждый формат свои библиотеки и инструменты зачастую только с закрытым исходным кодом или даже полное отсутствие описания формата. Правда относительно форматов файлов и их пакетной обработки надо отметить что у разных форматов разная судьба — если изображения, видео, музыку и различного рода текстовые файлы часто подвергают пакетной обработке, то для остального рода файлов знание их форматов ограничено узкой областью использующих их продуктов, антивирусов и разного рода security and forensic Software. Определённо можно свести эти темы воедино, вопрос в том лишь дорос ли рынок до такого объединения и будет ли это востребованно именно сейчас.
  • Hadoop + HBase или альтернативы в виде Hypertable позволяют выходить на уровень BigData и работать с данными уже на принципиально ином уровне.  В англоязычном Интернете уже развиваются курсы по Hadoop, Hadoop Boot Camp и масса энтузиастов в России всё упирается в небольшие объёмы общедоступных массивов данных и ограниченностью предприятий/организаций заинтересованных в работе с большими объёмами.
  • тема которая не относится к работе с данными напрямую, но важна с точки зрения их потребления, предоставления конечным пользователям — это формы предоставления информации. Её можно начинать от динамических контролов в веб и на десктопе которые бы подстараивались под вкладываемые в них данные в зависимости от объёма, продолжать автоматизированным и автоматическим подбором типов графиков под анализируемые данные и развивать к другим не менее интересным направлениям. Всё это в совокупности некий «мостик» между работой с данными, в том числе и BigData, и юзабилити. И пока я не вижу как иначе эти темы связать.
  • продолжаю присматриваться к GreenPlum, пока на уровне понимания кейсов для чего может пригодится.
  • то что крупные игроки вроде Microsoft, Google, Amazon начинают не просто работать с большими объёмами данных, но и предоставлять общедоступные данные всем желающим — это очень хороший сигнал. Хотя и каждый из них играет в свою игру, тем не менее появление лоббистов в этой области даёт шанс что они начнут взаимодействовать непосредственно с государственными органами для раскрытия информации. К сожалению, не российскими госудраственными органами.
  • у меня накопилось порядка 200 гигабайт различных датасетов, при том что приходится себя ограничивать в скачке некоторых чтобы не забивать канал и потому как надо ещё и эти «переварить».
About This Author

  • http://www.facebook.com/eugen.sokolov Eugen Sokolov

    Рекомендую поглядывать за этим инструментом http://www.raveldata.com/golde

Яндекс.Метрика