Иван Бегтин
Ссылки на 5.09.2009: Извлечение, обработка и анализ информации — Open Source и сервисы
Инструменты извлечения
- BeautifulSoup — одна из лучших библиотек обработки HTML на Python.
- RubyfulSoup — порт BeautifulSoup на Ruby
- Lxml — ещё одна библиотека для обработки HTML на Python
- html5lib — библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP
Инструменты преобразования и обработки данных
- b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
- Mdp-toolkit — библиотека алгоритмов по обработке и классификации данных. Python.
- Talend Integration Suite — инструмент ETL от Talend
- Hadoop — один из наиболее известных инструментов по параллельной обработке данных
Инструменты анализа
- Weka — инструмент для машинного обучения, использования классификационных алгоритмов и так далее
- Rapid-I (бывший RapidMiner) — настольный инструмент для классификации и анализа данных
- Picalo — инструмент для анализа данных, с упором на расширяемость с помощью Python.
Business Intelligence
- Pentaho BI — наиболее известный BI продукт с открытым кодом
- JasperSoft — производители системы построения отчетов и BI JasperReports, также с открытым кодом.
Инструменты визуализации
- Google Charts — сервис Гугла для построения несложных графиков общего назначения.
- VisIt — библиотека по визуализации научных данных
- MayaVi2 — библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
- Chaco — библиотека для построения простых двумерных графиков. В основном научного применения.
- Gnuplot — широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
- Open Data Explorer (OpenDX) — open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
- GGobi — мощный инструмент визуализации для языка R
- Flare — библиотека по визуализации для ActionScript (Adobe Flash)
- Processing — SDK для сложных изображений
- NodeXL — плагин для Excel по визуализации социальных и других сетей
- VisiFire — отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight — низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
- Degrafa — библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
- Axiis — библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
- JuiceKit — SDK для Adobe Flex для различных визуализаций
Сайты поcвящённые визуализации данных
- Data360 — некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
- Swivel — онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.
Интересное на закуску
- Pion — Open Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов http://www.atomiclabs.com/
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






