Янв 28 2010

Ссылки по e-Gov на 28.01.2010

Как обычно, подборка тематических ссылок с моими краткими комментариями.
  • http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
  • http://www.rian.ru/economy/20100125/206146491.html – Правительство выбрало 5 площадок: правительств Москвы и Татарстана, Сбербанк-АСТ, РТС и ММВБ. Плюс Артемьев говорит про возможный выбор 6-й Санкт-Петербургской международной товарно-сырьевой биржи. Не буду комментировать всех «нюансов» происходящего, рекомендую же почитать статью на Cnews по этой теме – http://www.cnews.ru/news/top/index.shtml?2010/01/26/377312 и статья на Slon.ru (http://slon.ru/articles/249825/) где есть и мои комментарии
  • http://cnews.ru/news/top/index.shtml?2010/01/27/377582 – Руководитель ФАИТ, Владимир Матюхин уходит на пенсию. Теперь многое будет зависеть от того кто придёт на его место, останутся ли Росинформтехнологии и в каком виде.
  • http://www.publictechjobs.com –  банк ИТ вакансий и резюме для работы в государственных и муниципальных органах власти США.
  • http://www.publicgeodata.org/ – открытые гео данные и ссылки на репозитарии с открытыми гео данными.
  • http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.

Дек 10 2009

Ссылки на 10.12.2009: Проекты Microsoft

Tag: links, алгоритмыivbeg @ 4:54 пп

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
  • Microsoft Academic Search – http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов – по журналам и конференциям
  • eGov 2.0 kit – http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна – CMS или полуфабрикат для госсайтов.
  • EntityCube – http://entitycube.research.microsoft.com/. Проект по выявлению «именованных сущностей», различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.

Кстати в Research  же занимаются ещё одной наработкой/небольшой библиотекой – Site Analyzer  http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx

Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.

Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или «объектной карты».

Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.


Сен 05 2009

Ссылки на 5.09.2009: Извлечение, обработка и анализ информации – Open Source и сервисы

Tag: linksivbeg @ 5:05 пп

Инструменты извлечения

  • BeautifulSoup – одна из лучших библиотек обработки HTML на Python.
  • RubyfulSoup – порт BeautifulSoup на Ruby
  • Lxmlещё одна библиотека для обработки HTML на Python
  • html5lib – библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP

Инструменты преобразования и обработки данных

  • b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
  • Mdp-toolkit – библиотека алгоритмов по обработке и классификации данных. Python.
  • Talend Integration Suite – инструмент ETL от Talend
  • Hadoop – один из наиболее известных инструментов по параллельной обработке данных

Инструменты анализа

  • Wekaинструмент для машинного обучения, использования классификационных алгоритмов и так далее
  • Rapid-I (бывший RapidMiner) – настольный инструмент для классификации и анализа данных
  • Picalo – инструмент для анализа данных, с упором на расширяемость с помощью Python.

Business Intelligence

  • Pentaho BI – наиболее известный BI продукт с открытым кодом
  • JasperSoft – производители системы построения отчетов и BI JasperReports, также с открытым кодом.

Инструменты визуализации

  • Google Chartsсервис Гугла для построения несложных графиков общего назначения.
  • VisIt – библиотека по визуализации научных данных
  • MayaVi2 – библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
  • Chaco – библиотека для построения простых двумерных графиков. В основном научного применения.
  • Gnuplot – широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
  • Open Data Explorer (OpenDX) – open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
  • GGobi – мощный инструмент визуализации для языка R
  • Flare – библиотека по визуализации для ActionScript (Adobe Flash)
  • Processing – SDK для сложных изображений
  • NodeXL – плагин для Excel по визуализации социальных и других сетей
  • VisiFire – отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight – низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
  • Degrafa – библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
  • Axiis – библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
  • JuiceKit – SDK для Adobe Flex для различных визуализаций

Сайты поcвящённые визуализации данных

  • Data360некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
  • Swivel – онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.

Интересное на закуску

  • PionOpen Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов  http://www.atomiclabs.com/

Авг 13 2009

Ссылки на 13.08.2009: Безсхемные базы данных (schema-less)

Tag: couchdb, linksivbeg @ 12:39 пп
  • CouchDb – это document-based база данных ориентированное на хранение данных как документов с иерархией структур и использования JavaScript для написание запросов. Из плюсов: поддержка IBM, один из проектов в составе Apache Foundation, удобство работы с данными. Из минусов: низкая производительность, недостаточно подробная документация. Написано полностью на языке Erlang
  • MongoDb – альтернатива Couchdb написанная на C++. Отличается лучшей производительностью, возможностью строить ad-hoc запросы, сохранением данных in-place и хорошо подготовленной документацией. К тому имеет коммерческую поддержку от компании 10gen. Ключевой минус: на 32-битных системах не позволяет создать базы размером более чем 2.5 гигабайта.
  • TokyoCabinet - база данных создававшаяся как современная замена dbm обладающая массой полезных возможностей в части маштабирования, устойчивости к сбоям, меньшего размера и так далее.
  • pykesto – безсхемная и транзакционная база для Python на базе TokyoCabinet.
  • ThruDb – ещё одна безсхемная база на Java
  • RDDb – безсхемная document-based база на Ruby
  • Oracle Berkeley Db – при определённой сноровке может использоваться для хранения безсхемных данных плюс есть редакция которая поддерживает работу с XML данными

Июл 18 2009

Ссылки на 17.07.2009. Интересные проекты + ярмарка идей

Tag: links, идеи, размышленияivbeg @ 8:28 дп
Это будет эдакий совмещённый пост – интересного в сети и нескольких последних идей.
Ссылки
  • ShoeBoxed – небольшой стартап с хитрым ноу-хау. Вы отправляете им в конверте свои счета и визитки, а они с помощью специальных сканеров и алгоритмов все это оцифровывают, распознают и предоставляют Вам через веб интерфейс. Задумка более чем интересная, я как раз не так давно задумывался об автоматизации распознавания кассовых чеков
  • URLClassifier – сервис тематической классификации веб страниц. Явно использует словари и классификация у него двухуровневая, но! сама идея правильная и весьма полезная. Предоставляют API
  • Feedity – ещё один сервис по преобразованию HTML в RSS, на сей раз полуавтомат. Анализирует страницу и предлагает варианты. Скиур (моё творение) мне нравится больше, но «пусть растут 100 цветов», пригодятся все.
  • ColourLovers – огромная база цветов, паттернов и палитр. Проектов таких много, но эти дают ещё и API.

Идеи

  • Если в поездах метро между стеклами вагонов поместить полупрозрачные экраны на которые можно было бы во время движения поездов  транслировать рекламу, то рекламодатели получили бы аудиторию в несколько миллионов человек ежемесячно.
  • Классификация по ключевым словам в названиях, моделях телефонов и их стоимости помноженное на накопленные статистические данные по демографии может позволить, с некоторой вероятностью, определять средний возраст людей присутствующих на заданной территории используя BlueTooth. Зачем? Например, рекламный таргетинг
  • Чтобы обеспечить контроль хоть как-то близкий к тотальному, то далеко ходить не надо – достаточно МВД потребовать от всех охранных агенств и вневедомственной охраны ведения электронных журналов учета посетителей. Так чтобы номера паспортов и ФИО вносились не в журнал, а в базы данных синхронизировались с центральной. Разумеется этого никогда не будет.
  • Карты покрытия сотовыми операторами «наоборот». На них показывается где в городе (или местности) есть места где Вам гарантированно не смогут дозвониться. Для тех кто увлекается кратковременным дауншифтингом сервис будет незаменимым.

Июн 18 2009

Ссылки. Интересное ПО и сервисы

Tag: linksivbeg @ 9:51 пп
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Июн 10 2009

Ссылки. Анализ и визуализация данных

Tag: links, аналитикаivbeg @ 2:32 пп

Анализ данных

  • Picalo – инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс – возможность использовать его Python API. Только на английском.
  • Deductor – один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей
  • Tableau – феноменальный продукт по возможностям и стоимости. Один из лучших в части визуализации и демонстрации на презентациях, но цена в $5000 кусается.
  • Weka 3 – применяется, в основном, для научных и исследовательских задач по классификации
  • Rapidminer – настольный продукт для data mining, есть коммерческий, есть open source.
  • LispMiner – академический продукт для анализа данных
  • R Project – язык программирования R. Набирающий популярность на западе и интегрируемый с массой других продуктов и языков программирования.
  • Omniscope – коммерческий продукт похожий на Tableau. Также позволяет удобную визуализацию
  • QLickView – ещё один коммерческий продукт по анализу и визуализации
  • Tibco Sportfire – ещё один аналитический продукт, на сей раз от Tibco. По цене чуть меньше Tableau – около $4700.

Май 30 2009

Ссылки на 30.05.2009. Датасеты и наборы данных

Tag: datasets, linksivbeg @ 3:08 пп
  • INRIA Datasets – большие коллекции изображений INRIA (1GB и 1.6GB)  собранные с Flickr
  • 1.5 миллиона небольших картинок – датасет который я уже упоминал, но менее интересным он от этого не становится (3.5 GB)
  • ImageNet.org – объединение WordNet и огромной базы в количестве 3,247,902 изображений и 5247 синсетов. Есть возможность запросить доступ к полной базе и API.

Апр 30 2009

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно – число набранных студентом баллов – это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон «Об организации проведения встречи глав государств и правительств стран – участников форума «Азиатско-тихоокеанское экономическое сотрудничество» в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации»  за формулировкой «о внесении изменений в отдельные законодательные акты» скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык – можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного – лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент – CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.


Апр 14 2009

Ссылки на 13.04.2009

Интересное в сети

 

e-Gov

  • Toiletmap – Про австралийскую карту туалетов пишет Екатерина Аксенова в gov-gov.ru. Тема может показаться забавной, но австралийцы очень даже серьёзны поскольку проект создавался как дополнение другому их проекту «Кишки и мочевой пузырь» (Bladderbowel) посвящённому людям страдающих от расстройства данных органов. 
  • Премьер-министр Австралии и лидер оппозиции оба активно используют Twitter.
  • eGovShare – исследования и предложения по организации находимости (обнаружения) государственных ресурсов в сети. Discovery of e-gov resources
  • eGovernment Register – государственный реестр поставщиков, тендеров и продуктов программного и аппаратного обеспечения в Великобритании. Сайт увешан RSS, социальными закладками, вся информация доступна публично, есть разделы посвящённые интеграции продуктов. Очень серьёзные и систематизированный подход.

Следующая страница »


Rambler's Top100