Авг 05 2010

Ссылки на 05.08.2010: Работа с данными онлайн

Tag: data.gov.ru, links, opengovdata.ruivbeg @ 8:29 пп
Инструменты
  • Socrata – проект с большим количеством «социальных данных». Наполняется пользователеями
  • InfoChimps – с некоторых пор не только коллекция банков данных, но и площадка для продажи своих массивов.
  • FreeBase Gridworks – удобный инструмент по чистке данных от команды Freebase
  • IBM ManyEyes – великолепный сервис графиков от IBM
  • OpenStructs – инструменты для работы со структурированными данными. Включая расширения для Drupal
  • Google Fusion Tables – сервис для работы с таблицами от Google
  • GeoCommons – визуальная аналитика по геоданным
  • Tableau Public – бесплатный продукт по визуализации данных от Tableau Software. Даже со всеми его ограничениями – загрузка только из Excel, Access и CSV и не более 100 000 записей, попробовать стоит.

Данные

  • Government Data Catalogs – каталог каталогов открытых данных от Sunlight Labs
  • Data.ed.gov – открытые данные департамента образования США

Апр 27 2010

Ссылки на 27.04.2010: Европейский опыт в eGov

  • tellBarroso.eu – дословно «Скажи Барросо». Это такой большой опросник с довольно необычным способом приоритизации ответов. Посмотрите сами поймёте. А на сайте CES выложены результаты этого опроса по странам http://www.thinkingeurope.eu/content.php?hmID=26&smID=62 в виде предложений, в виде графиков http://www.thinkingeurope.eu/content.php?hmID=26&smID=55 и других форм представлений – там есть где покликать.
  • http://www.erdetfarlig.no/ – Норвежский сайт «Это опасно?» запущенный агентством по климату и загрязнениям. Сам сайт на норвежском поэтому советую читать его через Google Translate или ознакомится с кейсом на сайте http://www.epractice.eu/en/cases/erdetfarlig. И ведь какая хорошая идея!
  • http://www.eulis.eu – Европейская служба информации о земле. В некотором роде аналог российского Росреестра, но скорее лишь в информационной части.
  • http://www.brreg.no/english/elmer/- ELMER 2 – это инициатива норвежского министерства торговли и индустрии по стандартизации всех веб-форм используемых органами власти на своих веб-ресурсах. Это такой суровый документ на 34 страницы с подробным описанием того какой должна быть структура веб-страницы, оформлены элементы форм и так далее. Со множеством примеров. На английском можно прочитать здесь – http://www.brreg.no/elmer/elmer2-english.pdf. К вопросу «а нафига?»  ответ очень простой – у норвежцев _уже давно_ есть электронные госуслуги.
  • http://www.eurogeographics.org/eurogeonames и http://www.esdin.eu/ – инициативы по стандартизации и унификации работы с геоданными в Европейском союзе
  • https://riha.eesti.ee/riha/main – эстонский реестр метаданных, онтологий, классификаторов. Там весьма немало материалов
  • https://www.xrepository.deutschland-online.de/xrepository/ – Германский портал публичного репозитория метаданных, стандартов и классификаторов
  • https://ivis.eps.gov.lv/ivisportal/ – а также Латвийский портал всего того же – метаданные, XML схемы и прочая и прочая

Янв 28 2010

Ссылки по e-Gov на 28.01.2010

Как обычно, подборка тематических ссылок с моими краткими комментариями.
  • http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
  • http://www.rian.ru/economy/20100125/206146491.html – Правительство выбрало 5 площадок: правительств Москвы и Татарстана, Сбербанк-АСТ, РТС и ММВБ. Плюс Артемьев говорит про возможный выбор 6-й Санкт-Петербургской международной товарно-сырьевой биржи. Не буду комментировать всех «нюансов» происходящего, рекомендую же почитать статью на Cnews по этой теме – http://www.cnews.ru/news/top/index.shtml?2010/01/26/377312 и статья на Slon.ru (http://slon.ru/articles/249825/) где есть и мои комментарии
  • http://cnews.ru/news/top/index.shtml?2010/01/27/377582 – Руководитель ФАИТ, Владимир Матюхин уходит на пенсию. Теперь многое будет зависеть от того кто придёт на его место, останутся ли Росинформтехнологии и в каком виде.
  • http://www.publictechjobs.com –  банк ИТ вакансий и резюме для работы в государственных и муниципальных органах власти США.
  • http://www.publicgeodata.org/ – открытые гео данные и ссылки на репозитарии с открытыми гео данными.
  • http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.

Дек 10 2009

Ссылки на 10.12.2009: Проекты Microsoft

Tag: links, алгоритмыivbeg @ 4:54 пп

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
  • Microsoft Academic Search – http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов – по журналам и конференциям
  • eGov 2.0 kit – http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна – CMS или полуфабрикат для госсайтов.
  • EntityCube – http://entitycube.research.microsoft.com/. Проект по выявлению «именованных сущностей», различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.

Кстати в Research  же занимаются ещё одной наработкой/небольшой библиотекой – Site Analyzer  http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx

Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.

Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или «объектной карты».

Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.


Сен 05 2009

Ссылки на 5.09.2009: Извлечение, обработка и анализ информации – Open Source и сервисы

Tag: linksivbeg @ 5:05 пп

Инструменты извлечения

  • BeautifulSoup – одна из лучших библиотек обработки HTML на Python.
  • RubyfulSoup – порт BeautifulSoup на Ruby
  • Lxmlещё одна библиотека для обработки HTML на Python
  • html5lib – библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP

Инструменты преобразования и обработки данных

  • b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
  • Mdp-toolkit – библиотека алгоритмов по обработке и классификации данных. Python.
  • Talend Integration Suite – инструмент ETL от Talend
  • Hadoop – один из наиболее известных инструментов по параллельной обработке данных

Инструменты анализа

  • Wekaинструмент для машинного обучения, использования классификационных алгоритмов и так далее
  • Rapid-I (бывший RapidMiner) – настольный инструмент для классификации и анализа данных
  • Picalo – инструмент для анализа данных, с упором на расширяемость с помощью Python.

Business Intelligence

  • Pentaho BI – наиболее известный BI продукт с открытым кодом
  • JasperSoft – производители системы построения отчетов и BI JasperReports, также с открытым кодом.

Инструменты визуализации

  • Google Chartsсервис Гугла для построения несложных графиков общего назначения.
  • VisIt – библиотека по визуализации научных данных
  • MayaVi2 – библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
  • Chaco – библиотека для построения простых двумерных графиков. В основном научного применения.
  • Gnuplot – широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
  • Open Data Explorer (OpenDX) – open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
  • GGobi – мощный инструмент визуализации для языка R
  • Flare – библиотека по визуализации для ActionScript (Adobe Flash)
  • Processing – SDK для сложных изображений
  • NodeXL – плагин для Excel по визуализации социальных и других сетей
  • VisiFire – отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight – низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
  • Degrafa – библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
  • Axiis – библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
  • JuiceKit – SDK для Adobe Flex для различных визуализаций

Сайты поcвящённые визуализации данных

  • Data360некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
  • Swivel – онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.

Интересное на закуску

  • PionOpen Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов  http://www.atomiclabs.com/

Авг 13 2009

Ссылки на 13.08.2009: Безсхемные базы данных (schema-less)

Tag: couchdb, linksivbeg @ 12:39 пп
  • CouchDb – это document-based база данных ориентированное на хранение данных как документов с иерархией структур и использования JavaScript для написание запросов. Из плюсов: поддержка IBM, один из проектов в составе Apache Foundation, удобство работы с данными. Из минусов: низкая производительность, недостаточно подробная документация. Написано полностью на языке Erlang
  • MongoDb – альтернатива Couchdb написанная на C++. Отличается лучшей производительностью, возможностью строить ad-hoc запросы, сохранением данных in-place и хорошо подготовленной документацией. К тому имеет коммерческую поддержку от компании 10gen. Ключевой минус: на 32-битных системах не позволяет создать базы размером более чем 2.5 гигабайта.
  • TokyoCabinet - база данных создававшаяся как современная замена dbm обладающая массой полезных возможностей в части маштабирования, устойчивости к сбоям, меньшего размера и так далее.
  • pykesto – безсхемная и транзакционная база для Python на базе TokyoCabinet.
  • ThruDb – ещё одна безсхемная база на Java
  • RDDb – безсхемная document-based база на Ruby
  • Oracle Berkeley Db – при определённой сноровке может использоваться для хранения безсхемных данных плюс есть редакция которая поддерживает работу с XML данными

Июл 18 2009

Ссылки на 17.07.2009. Интересные проекты + ярмарка идей

Tag: links, идеи, размышленияivbeg @ 8:28 дп
Это будет эдакий совмещённый пост – интересного в сети и нескольких последних идей.
Ссылки
  • ShoeBoxed – небольшой стартап с хитрым ноу-хау. Вы отправляете им в конверте свои счета и визитки, а они с помощью специальных сканеров и алгоритмов все это оцифровывают, распознают и предоставляют Вам через веб интерфейс. Задумка более чем интересная, я как раз не так давно задумывался об автоматизации распознавания кассовых чеков
  • URLClassifier – сервис тематической классификации веб страниц. Явно использует словари и классификация у него двухуровневая, но! сама идея правильная и весьма полезная. Предоставляют API
  • Feedity – ещё один сервис по преобразованию HTML в RSS, на сей раз полуавтомат. Анализирует страницу и предлагает варианты. Скиур (моё творение) мне нравится больше, но «пусть растут 100 цветов», пригодятся все.
  • ColourLovers – огромная база цветов, паттернов и палитр. Проектов таких много, но эти дают ещё и API.

Идеи

  • Если в поездах метро между стеклами вагонов поместить полупрозрачные экраны на которые можно было бы во время движения поездов  транслировать рекламу, то рекламодатели получили бы аудиторию в несколько миллионов человек ежемесячно.
  • Классификация по ключевым словам в названиях, моделях телефонов и их стоимости помноженное на накопленные статистические данные по демографии может позволить, с некоторой вероятностью, определять средний возраст людей присутствующих на заданной территории используя BlueTooth. Зачем? Например, рекламный таргетинг
  • Чтобы обеспечить контроль хоть как-то близкий к тотальному, то далеко ходить не надо – достаточно МВД потребовать от всех охранных агенств и вневедомственной охраны ведения электронных журналов учета посетителей. Так чтобы номера паспортов и ФИО вносились не в журнал, а в базы данных синхронизировались с центральной. Разумеется этого никогда не будет.
  • Карты покрытия сотовыми операторами «наоборот». На них показывается где в городе (или местности) есть места где Вам гарантированно не смогут дозвониться. Для тех кто увлекается кратковременным дауншифтингом сервис будет незаменимым.

Июн 18 2009

Ссылки. Интересное ПО и сервисы

Tag: linksivbeg @ 9:51 пп
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Июн 10 2009

Ссылки. Анализ и визуализация данных

Tag: links, аналитикаivbeg @ 2:32 пп

Анализ данных

  • Picalo – инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс – возможность использовать его Python API. Только на английском.
  • Deductor – один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей
  • Tableau – феноменальный продукт по возможностям и стоимости. Один из лучших в части визуализации и демонстрации на презентациях, но цена в $5000 кусается.
  • Weka 3 – применяется, в основном, для научных и исследовательских задач по классификации
  • Rapidminer – настольный продукт для data mining, есть коммерческий, есть open source.
  • LispMiner – академический продукт для анализа данных
  • R Project – язык программирования R. Набирающий популярность на западе и интегрируемый с массой других продуктов и языков программирования.
  • Omniscope – коммерческий продукт похожий на Tableau. Также позволяет удобную визуализацию
  • QLickView – ещё один коммерческий продукт по анализу и визуализации
  • Tibco Sportfire – ещё один аналитический продукт, на сей раз от Tibco. По цене чуть меньше Tableau – около $4700.

Май 30 2009

Ссылки на 30.05.2009. Датасеты и наборы данных

Tag: datasets, linksivbeg @ 3:08 пп
  • INRIA Datasets – большие коллекции изображений INRIA (1GB и 1.6GB)  собранные с Flickr
  • 1.5 миллиона небольших картинок – датасет который я уже упоминал, но менее интересным он от этого не становится (3.5 GB)
  • ImageNet.org – объединение WordNet и огромной базы в количестве 3,247,902 изображений и 5247 синсетов. Есть возможность запросить доступ к полной базе и API.

Следующая страница »


Rambler's Top100