Иван Бегтин
В последнее время много времени уделяю различным инструментам работы с информацией — очистка, обработка, конвертация, визуализация и всё что с этим связано. Общее число инструментов весьма велико, как и число их возможных применений.
Просуммирую собственные размышления:
- большая часть инструментов работы с большими массивами информации написаны на Java. То же самое можно сказать про инструменты работы с semantic web. Может быть это именно мне попадались подобные, но думаю что действительно пока инструментов в Java больше.
- Язык R (R Language) впечатляет удобством и всё более идёи в массы, например, лично мне нравится возможность вызова его через код Python посредством rPy (http://rpy.sourceforge.net/). Один лишь недостаток — язык под GPL и использовать его в коммерческих продуктах не получится. Но коммерческие продукты — это не всё и я уже знаю несколько примеров (вне России) где R используют внутри компаний или же как аутсорсинг услуг.
- большая часть задач по визуализации решается теми или иными плагинами для Excel, а также непосредственно возможностями Excel’я особенно версии 2007. Единственной более менее серьёзной заменой ему я знаю Tableau цена которого нереально выше — минимум $999 за персональную лицензию.
- весьма примечателен выбор графика в JuiceAnalytics там можно подобрать график под свои нужды и сразу скачать его под Excel или Powerpoint.
- а вот в для веб пока ничего более простого и удобного чем Amcharts (http://www.amcharts.com/) мне найти не удалось. При очень небольшой цене — весьма удобный и гибкий инструмент. Впрочем есть и бесплатные варианты вроде OpenFlashChart, бесплатной версии FusionCharts и Yahoo ASTRA Flash Components.
- есть целый ряд тем по обработке данных отодвинутых от наиболее продвинутых инструментов. Например, есть пробел с извлечением метаданных из различного рода файлов — фактически, за исключением самых популярных форматов, в остальном под каждый формат свои библиотеки и инструменты зачастую только с закрытым исходным кодом или даже полное отсутствие описания формата. Правда относительно форматов файлов и их пакетной обработки надо отметить что у разных форматов разная судьба — если изображения, видео, музыку и различного рода текстовые файлы часто подвергают пакетной обработке, то для остального рода файлов знание их форматов ограничено узкой областью использующих их продуктов, антивирусов и разного рода security and forensic Software. Определённо можно свести эти темы воедино, вопрос в том лишь дорос ли рынок до такого объединения и будет ли это востребованно именно сейчас.
- Hadoop + HBase или альтернативы в виде Hypertable позволяют выходить на уровень BigData и работать с данными уже на принципиально ином уровне. В англоязычном Интернете уже развиваются курсы по Hadoop, Hadoop Boot Camp и масса энтузиастов в России всё упирается в небольшие объёмы общедоступных массивов данных и ограниченностью предприятий/организаций заинтересованных в работе с большими объёмами.
- тема которая не относится к работе с данными напрямую, но важна с точки зрения их потребления, предоставления конечным пользователям — это формы предоставления информации. Её можно начинать от динамических контролов в веб и на десктопе которые бы подстараивались под вкладываемые в них данные в зависимости от объёма, продолжать автоматизированным и автоматическим подбором типов графиков под анализируемые данные и развивать к другим не менее интересным направлениям. Всё это в совокупности некий «мостик» между работой с данными, в том числе и BigData, и юзабилити. И пока я не вижу как иначе эти темы связать.
- продолжаю присматриваться к GreenPlum, пока на уровне понимания кейсов для чего может пригодится.
- то что крупные игроки вроде Microsoft, Google, Amazon начинают не просто работать с большими объёмами данных, но и предоставлять общедоступные данные всем желающим — это очень хороший сигнал. Хотя и каждый из них играет в свою игру, тем не менее появление лоббистов в этой области даёт шанс что они начнут взаимодействовать непосредственно с государственными органами для раскрытия информации. К сожалению, не российскими госудраственными органами.
- у меня накопилось порядка 200 гигабайт различных датасетов, при том что приходится себя ограничивать в скачке некоторых чтобы не забивать канал и потому как надо ещё и эти «переварить».
Поделиться в соц. сетях
-
http://www.facebook.com/eugen.sokolov Eugen Sokolov
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (928)
- eGov (947)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (52)
- открытые данные (11)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (946)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






