Ссылки на 5.09.2009: Извлечение, обработка и анализ информации — Open Source и сервисы

Инструменты извлечения

  • BeautifulSoup — одна из лучших библиотек обработки HTML на Python.
  • RubyfulSoup — порт BeautifulSoup на Ruby
  • Lxmlещё одна библиотека для обработки HTML на Python
  • html5lib — библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP

Инструменты преобразования и обработки данных

  • b2xtranslatorпреобразователь устаревших форматов MS Word в OOXML
  • Mdp-toolkit — библиотека алгоритмов по обработке и классификации данных. Python.
  • Talend Integration Suite — инструмент ETL от Talend
  • Hadoop — один из наиболее известных инструментов по параллельной обработке данных

Инструменты анализа

  • Wekaинструмент для машинного обучения, использования классификационных алгоритмов и так далее
  • Rapid-I (бывший RapidMiner) — настольный инструмент для классификации и анализа данных
  • Picalo — инструмент для анализа данных, с упором на расширяемость с помощью Python.

Business Intelligence

  • Pentaho BI — наиболее известный BI продукт с открытым кодом
  • JasperSoft — производители системы построения отчетов и BI JasperReports, также с открытым кодом.

Инструменты визуализации

  • Google Chartsсервис Гугла для построения несложных графиков общего назначения.
  • VisIt — библиотека по визуализации научных данных
  • MayaVi2 — библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
  • Chaco — библиотека для построения простых двумерных графиков. В основном научного применения.
  • Gnuplot — широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
  • Open Data Explorer (OpenDX) — open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
  • GGobi — мощный инструмент визуализации для языка R
  • Flare — библиотека по визуализации для ActionScript (Adobe Flash)
  • Processing — SDK для сложных изображений
  • NodeXL — плагин для Excel по визуализации социальных и других сетей
  • VisiFire — отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight — низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
  • Degrafa — библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
  • Axiis — библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
  • JuiceKit — SDK для Adobe Flex для различных визуализаций

Сайты поcвящённые визуализации данных

  • Data360некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
  • Swivel — онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.

Интересное на закуску

  • PionOpen Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов  http://www.atomiclabs.com/
About This Author

Яндекс.Метрика