Как обычно, подборка тематических ссылок с моими краткими комментариями.
- http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
- http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.
Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:
- Codename Dallas - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
- Microsoft Academic Search – http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов – по журналам и конференциям
- eGov 2.0 kit – http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна – CMS или полуфабрикат для госсайтов.
- EntityCube – http://entitycube.research.microsoft.com/. Проект по выявлению «именованных сущностей», различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.
Кстати в Research же занимаются ещё одной наработкой/небольшой библиотекой – Site Analyzer http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx
Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.
Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или «объектной карты».
Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.
Инструменты извлечения
- BeautifulSoup – одна из лучших библиотек обработки HTML на Python.
- RubyfulSoup – порт BeautifulSoup на Ruby
- Lxml – ещё одна библиотека для обработки HTML на Python
- html5lib – библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP
Инструменты преобразования и обработки данных
- b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
- Mdp-toolkit – библиотека алгоритмов по обработке и классификации данных. Python.
- Talend Integration Suite – инструмент ETL от Talend
- Hadoop – один из наиболее известных инструментов по параллельной обработке данных
Инструменты анализа
- Weka – инструмент для машинного обучения, использования классификационных алгоритмов и так далее
- Rapid-I (бывший RapidMiner) – настольный инструмент для классификации и анализа данных
- Picalo – инструмент для анализа данных, с упором на расширяемость с помощью Python.
Business Intelligence
- Pentaho BI – наиболее известный BI продукт с открытым кодом
- JasperSoft – производители системы построения отчетов и BI JasperReports, также с открытым кодом.
Инструменты визуализации
- Google Charts – сервис Гугла для построения несложных графиков общего назначения.
- VisIt – библиотека по визуализации научных данных
- MayaVi2 – библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
- Chaco – библиотека для построения простых двумерных графиков. В основном научного применения.
- Gnuplot – широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
- Open Data Explorer (OpenDX) – open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
- GGobi – мощный инструмент визуализации для языка R
- Flare – библиотека по визуализации для ActionScript (Adobe Flash)
- Processing – SDK для сложных изображений
- NodeXL – плагин для Excel по визуализации социальных и других сетей
- VisiFire – отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight – низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
- Degrafa – библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
- Axiis – библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
- JuiceKit – SDK для Adobe Flex для различных визуализаций
Сайты поcвящённые визуализации данных
- Data360 – некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
- Swivel – онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.
Интересное на закуску
Это будет эдакий совмещённый пост – интересного в сети и нескольких последних идей.
Ссылки
- ShoeBoxed – небольшой стартап с хитрым ноу-хау. Вы отправляете им в конверте свои счета и визитки, а они с помощью специальных сканеров и алгоритмов все это оцифровывают, распознают и предоставляют Вам через веб интерфейс. Задумка более чем интересная, я как раз не так давно задумывался об автоматизации распознавания кассовых чеков
- URLClassifier – сервис тематической классификации веб страниц. Явно использует словари и классификация у него двухуровневая, но! сама идея правильная и весьма полезная. Предоставляют API
- Feedity – ещё один сервис по преобразованию HTML в RSS, на сей раз полуавтомат. Анализирует страницу и предлагает варианты. Скиур (моё творение) мне нравится больше, но «пусть растут 100 цветов», пригодятся все.
- ColourLovers – огромная база цветов, паттернов и палитр. Проектов таких много, но эти дают ещё и API.
Идеи
- Если в поездах метро между стеклами вагонов поместить полупрозрачные экраны на которые можно было бы во время движения поездов транслировать рекламу, то рекламодатели получили бы аудиторию в несколько миллионов человек ежемесячно.
- Классификация по ключевым словам в названиях, моделях телефонов и их стоимости помноженное на накопленные статистические данные по демографии может позволить, с некоторой вероятностью, определять средний возраст людей присутствующих на заданной территории используя BlueTooth. Зачем? Например, рекламный таргетинг
- Чтобы обеспечить контроль хоть как-то близкий к тотальному, то далеко ходить не надо – достаточно МВД потребовать от всех охранных агенств и вневедомственной охраны ведения электронных журналов учета посетителей. Так чтобы номера паспортов и ФИО вносились не в журнал, а в базы данных синхронизировались с центральной. Разумеется этого никогда не будет.
- Карты покрытия сотовыми операторами «наоборот». На них показывается где в городе (или местности) есть места где Вам гарантированно не смогут дозвониться. Для тех кто увлекается кратковременным дауншифтингом сервис будет незаменимым.