Май 30 2009

Ссылки на 30.05.2009. Датасеты и наборы данных

Tag: datasets, linksivbeg @ 3:08 пп
  • INRIA Datasets – большие коллекции изображений INRIA (1GB и 1.6GB)  собранные с Flickr
  • 1.5 миллиона небольших картинок – датасет который я уже упоминал, но менее интересным он от этого не становится (3.5 GB)
  • ImageNet.org – объединение WordNet и огромной базы в количестве 3,247,902 изображений и 5247 синсетов. Есть возможность запросить доступ к полной базе и API.

Май 30 2009

Электронное Правительство

Пока я некоторое время пребывал в оффлайне произошла масса интересных событий. Прокомментирую хотя бы часть из них:

Новая программа «Электронное правительство»

Собственно новость на сайте правительства , я процитирую полностью и подчеркну самое интересное.

—-

Мы с вами посмотрим сегодня, как идет работа по федеральной целевой программе «Электронная Россия». Я не буду сейчас говорить о важности этого направления нашей деятельности. Понятно, что это одно из ключевых направлений инновационного развития. И от того, насколько эффективно мы работаем в этой сфере, напрямую зависит эффективность и экономики, и государственного управления, и состояния социальной сферы. Напрямую от этого зависит положение в таких областях, как образование, здравоохранение и по некоторым другим направлениям.

Между тем, можно утверждать, что, к сожалению, до сих пор поставленных в рамках этой федеральной целевой программы базовых задач мы не добиваемся. И понятно почему.

Потому что до сих пор у нас не сведены в единую сеть информационные ресурсы различных органов и уровней власти и управления. У нас до сих пор при реализации государственной функции у граждан нет достаточной информации в электронном виде. До сих пор граждане для того, чтобы получить какие-то справки, согласования и прочие документы и бумажки, должны отстоять огромную очередь к чиновникам.

И что касается экономической сферы деятельности – мы только-только начинаем переходить к электронным торгам. Кстати говоря, об этом говорили так же на совещании в Торгово-промышленной палате.

Сегодняшняя наша встреча посвящена анализу того, что происходит по этому направлению. Это тем более актуально, что нам предстоит разработать новую программу – «Электронное Правительство» до 2015 года. В условиях экономического и финансового кризиса это тем более важно, поскольку внедрение соответствующих инструментов позволит нам более эффективно распорядиться государственными ресурсами и сделать нашу деятельность более эффективной.

—-

Собственно что можно почерпнуть из этого короткого текста:

1. Фактически программу «Электронную Россию» заменяют на «Электронное правительство». Явные отличия пока ещё не видны, но уверен что будут.

2. Сведение информационных ресурсов в единую сеть – это может означать продолжение построения ФИЦ (Федерального Информационного Центра) в той или иной форме. Вопрос лишь в какой, но на него ответы будут известны позже.

3. По поводу того что у граждан нет достаточной информации, то странно почему напрямую не упоминаются госуслуги, а упоминается именно нет достаточной информации. Хорошо бы чтобы это был намёк на появление data.gov.ru, но скорее похоже на неточную терминологию.

4. По поводу электронных торгов. Выражу непопулярное мнение – не помогут. Во всяком случае в том виде как это планируются сейчас, с акцентом на процедуры размещения заказов, а не контролем подготовки закупок и контроля результатов.

5. Весьма интересен состав участников – несмотря на то что в последний месяц в СМИ активно прочили уход Щеголева, он там присутствовал, а вот Набиуллиной на этой встрече небыло, что опять на водит на размышления кто-же и как будет курировать «Электронное правительство».


Май 21 2009

Демократизация данных

В блоге Обамы появилась запись Democratizing Data –  где описано ничто иное как анонс data.gov

Этот анонс давно ожидался, и вот время настало и открытые данные стали неотъемлимой частью информационного присутствия государства в сети (в США).

Обратите также внимание на наличие ссылки – Suggest Dataset

Про то что в России необходим аналогичный проект (data.gov.ru) я уже писал ранее. Пока же его нет продолжает развиваться проект OpenGovData.ru


Май 20 2009

Автоматическая классификация сайтов: возможные подходы

Tag: web, алгоритмы, размышленияivbeg @ 3:10 пп

Ранее я упоминал про недавнее исследование из Яндекса – Автоматическая классификация веб сайтов (в PDF) и что лично я несогласен с подходом использующим классификацию по ключевым словам.  Главное – это то что у Яндекса как и других поисковых систем, на самом деле, куда больше информации о сайтах, пользователях и их взаимодействии чем просто страницы и ключевые слова. Этой информации столь много – что принцип «больше данных, проще алгоритмы» должен подходить здесь на 100% и я опишу несколько вариантов классификации сайтов построенных именно на таких данных.

1. Классификация по аудитории

Ключевые слова на сайте – суть отражение его содержания, для понимания каждой из тематических областей необходимо формировать набор ключевых слов и выражений специфичных для этой области. С другой стороны для практически каждого человека работающего в сети и вообще справедливо то что он обладает ограниченным число тем в которые ему интересны.  Отсюда и аудитории  тематически близких сайтов пересекаются, порой значительно.  Если мы знаем на какие сайты (темы) заходил пользователь ранее и если можем получить оценки проведённого им на этих сайтах времени, то собрав агреггированную статистику мы можем предполагать темы других сайтов.

В случае Яндекса задача сбора информации об аудитории сложной быть не должна поскольку в качестве эталонной выборки сайтов могут использоваться сайты внесённые в Яндекс.Каталог, а для определения посетителя показы рекламы в Директе.

Таким образом как раз у Яндекса есть возможность определения тематики сайта по аудитории.

Ограничения этого подхода в том что для отслеживания аудитории необходим свой счетчик (или рекламный блок) на анализируемом сайте.

2. Классификация по карте объектов сайта

Карта объектов – это совокупность смысловых и структурных объектов (обладающих собственным значением или связанными со смысловыми понятиями элементов сайта).

Приведу несколько примеров элементов объектной разметки:

- новостная лента как частный случай списка включающего даты, который является частным случаем списка в принципе

- табличные данные

- навигационное меню сайта

- счетчики

- рекламные блоки

плюс множество других объектов.

Каждый объект обладает собственными свойствами, отношениями к другим объектам и, в некоторых случаях, веб ресурсам.

При классификации сайта, из карты объектов извлекаются необходимые для классификации характеристики и уже на их основе работает алгоритм классификации.

На основе упрощённой версии именно такого подхода работает мой алгоритм определения коммерциализованности сайта.

Лично я считаю именно этот подход наиболее переспективным.

3. Классификация по входящим и исходящим ссылкам

Это довольно простая классификация – анализ входящих и исходящих ссылок на ресурсы на которые ссылается анализируемый сайт и ссылки с внешних сайтов. По сути это почти тематическое цитирование, но адаптированное под классификацию, а не под ранжирование.

4. Классификация по интересам владельцев сайтов

Это один из «рунетоспецифичных подходов» которые можно отнести к экзотическим, но, тем не менее. Чаще всего создатели и владельцы сайтов придерживаются определённых тем в своих работах. Издательские дома делают сайты по книгам и газетам, квасные фабрики – про квас, финансисты – про финансы и так далее.

Анализируя WHOIS данные, мы можем делать предположения о тематике веб сайта на основе ранее классифицированных сайтов того же владельца.

5. Классификация по социальным закладкам

В отличии от классических каталогов сайтов в социальных закладках в разы больше ссылок на самые разные ресурсы. Мы можем провести классификацию сайта агреггируя тэги социальных закладок с различных сайтов социальных закладок и проводить классификацию даже без построения bag-of-words (набора слов) с анализируемых страниц на сайте. В этом подходе мы возвращаемся к ключевым словам, но он доступен не только крупным поисковым системам, но и условно простым пользователям


Май 19 2009

Ссылки: Алгоритмы и массивы данных

Tag: datasets, алгоритмыivbeg @ 9:57 дп
  • MNIST dataset of handwritten digits – большой массив данных (датасет) написанных вручную цифр и сравнений алгоритма по их идентификации
  • NEC Animal Dataset – датасет изображений фигурок животных в разных позах и ракурсах.
  • ManyEyes Datasets – подборка датасетов от IBM ManyEyes
  • «Автоматическая классификация web-сайтов» PDF – исследование из Яндекса по классификации веб сайтов по ключевым словам. Лично я несогласен что классификация по ключевым словам достаточна для тематической классификации и у Яндекса гораздо больше массивов данных чтобы такую классификацию обеспечить. В любом случае почитать рекомендую.
  • Swine Flu Dataset – датасет особенно актуальный, с данными по гриппу H1N1 (свиной грипп)
  • International Crisis Behavior Dataset (1918-2001) – данные по кризисам за указанные годы в формате SPSS
  • Federal Reserve Economic Data – датасеты по экономической активности на сайта резервного банка Сент-Луиса

Май 18 2009

Ближайшие личные планы

Tag: из жизни, размышленияivbeg @ 2:20 пп

На днях мне говорили что в кризис это нестандартное решение, но с 21 числа я покидаю число наёмных работников.  Делаю это по собственной инициативе и главная причина в том что считаю что любая работа – это в первую очередь созидательная деятельность или лишь во вторую заработок денег только ради самих денег.

Выходить куда-либо на работу на полную ставку, пока, если честно желание у меня небольшое. С этим не спешу и не загадываю.

В ближайшее время буду заниматься образованием, самообразованием, собственными проектами и контракными заказами по извлечению/обработке/классификации и анализу данных – благо они есть.

Из тем госзакупок и e-Gov я не исчезаю, хотя и буду уделять им чуть меньшее внимание чем ранее.

OpenGovData.ru продолжит наполняться данными, как я и обещал до конца мая будет обновление разделов.


Май 15 2009

Министерство Энергетики, банки изображений и TinEye

Tag: web, алгоритмыivbeg @ 4:17 пп

Захожу я сегодня на новый сайт Министерства Энергетики, а поскольку я обычно просматриваю интересные сайты полностью хотя бы уровня до второго – вдруг что интересное, то и тут посмотрел внимательнее.

Про 8-ФЗ на этот раз не буду, они там даже ссылку на него разместили и это правильно.

Я на сей раз о другом, простом, но режущем глаза наблюдении.

В нескольких (не менее 3-х разделах) там ничто иное как типовые картинки из банков фотографий. Может быть не самых популярных банков изображений, но тем не менее факт имеет место быть.

Приведу конкретные примеры:

Наверное где-то и в других разделах есть.

Проверял я понятное дело не сайт МинЭнерго, а TinEye. Всё подыскивал под него какой-либо новый сайт где гарантированно контент был бы «новым».

Лично меня работа их алгоритма впечатлила – находятся даже изменённые изображения в разных форматах и размерах.

Такие дела.


Май 15 2009

Ссылки и документы: Анализ доклада ИНСОР и аналитическая записка Счетной Палаты

Хочу порекомендовать к прочтению Экспресс-анализ доклада ИНСОРа о «развитии электронного правительства в Российской Федерации» проведённый Виктором Гридиным и комментарии Екатерины Аксеновой в gov-gov.ru по рейтингу государственных сайтов.

От себя я добавлю что любой доклад, любой рейтинг или отчёт всегда вызывает недоверие при отсутствии данных на основе которых он строился. Это можно сказать и про доклад ИНСОР – в нем нет ни первичных данных, ни методики.

В принципе, я лично считаю что любая работа нацеленная на социальную, а не на PR составляющую должна содержать открытые методики и возможность независимого воспроизведения результатов.

—-

Плюс дам ссылку на ещё один аналитический документ о котором я писал ранее и всё ждал когда жеСчетная Палата опубликует его у себя на сайте. Это аналитическая записка по результатам экспертно-аналитического мероприятия «Комплексный анализ эффективности функционирования существующей системы закупок для государственных нужд» документ можно посмотреть тут - http://www.ach.gov.ru/userfiles/bulletins/10-buleten_doc_files-fl-1750.pdf

Я уже и не ожидал что этот документ будет доступен – учитывая что прошло уже 9 месяцев со времени проведения коллегии 4 июля 2008 года, ан нет, вот и он.

Там присутствует много терминологии знакомой, в основном, тем кто работает с госзакупками, но даже не зная её можно убедится в том насколько мнение СП и МЭР с ФАС на госзакупки отличаются друг от друга.


Май 15 2009

Инструменты работы с данными. Мысли и наблюдения

В последнее время много времени уделяю различным инструментам работы с информацией – очистка, обработка, конвертация, визуализация и всё что с этим связано. Общее число инструментов весьма велико, как и число их возможных применений.

Просуммирую собственные размышления:

  • большая часть инструментов работы с большими массивами информации написаны на Java. То же самое можно сказать про инструменты работы с semantic web. Может быть это именно мне попадались подобные, но думаю что действительно пока инструментов в Java больше.
  • Язык R (R Language) впечатляет удобством и всё более идёи в массы, например, лично мне нравится возможность вызова его через код Python посредством rPy (http://rpy.sourceforge.net/).  Один лишь недостаток – язык под GPL и использовать его в коммерческих продуктах не получится. Но коммерческие продукты – это не всё и я уже знаю несколько примеров (вне России) где R используют внутри компаний или же как аутсорсинг услуг.
  • большая часть задач по визуализации решается теми или иными плагинами для Excel, а также непосредственно возможностями Excel’я особенно версии 2007. Единственной более менее серьёзной заменой ему я знаю Tableau цена которого нереально выше – минимум $999 за персональную лицензию.
  • весьма примечателен выбор графика в JuiceAnalytics там можно подобрать график под свои нужды и сразу скачать его под Excel или Powerpoint.
  • а вот в для веб пока ничего более простого и удобного чем Amcharts (http://www.amcharts.com/) мне найти не удалось. При очень небольшой цене – весьма удобный и гибкий инструмент. Впрочем есть и бесплатные варианты вроде OpenFlashChart, бесплатной версии FusionCharts и Yahoo ASTRA Flash Components.
  • есть целый ряд тем по обработке данных отодвинутых от наиболее продвинутых инструментов. Например, есть пробел с извлечением метаданных из различного рода файлов – фактически, за исключением самых популярных форматов,  в остальном под каждый формат свои библиотеки и инструменты зачастую только с закрытым исходным кодом или даже полное отсутствие описания формата. Правда относительно форматов файлов и их пакетной обработки надо отметить что у разных форматов разная судьба – если изображения, видео, музыку и различного рода текстовые файлы часто подвергают пакетной обработке, то для остального рода файлов знание их форматов ограничено узкой областью использующих их продуктов, антивирусов и разного рода security and forensic Software. Определённо можно свести эти темы воедино, вопрос в том лишь дорос ли рынок до такого объединения и будет ли это востребованно именно сейчас.
  • Hadoop + HBase или альтернативы в виде Hypertable позволяют выходить на уровень BigData и работать с данными уже на принципиально ином уровне.  В англоязычном Интернете уже развиваются курсы по Hadoop, Hadoop Boot Camp и масса энтузиастов в России всё упирается в небольшие объёмы общедоступных массивов данных и ограниченностью предприятий/организаций заинтересованных в работе с большими объёмами.
  • тема которая не относится к работе с данными напрямую, но важна с точки зрения их потребления, предоставления конечным пользователям – это формы предоставления информации. Её можно начинать от динамических контролов в веб и на десктопе которые бы подстараивались под вкладываемые в них данные в зависимости от объёма, продолжать автоматизированным и автоматическим подбором типов графиков под анализируемые данные и развивать к другим не менее интересным направлениям. Всё это в совокупности некий «мостик» между работой с данными, в том числе и BigData, и юзабилити. И пока я не вижу как иначе эти темы связать.
  • продолжаю присматриваться к GreenPlum, пока на уровне понимания кейсов для чего может пригодится.
  • то что крупные игроки вроде Microsoft, Google, Amazon начинают не просто работать с большими объёмами данных, но и предоставлять общедоступные данные всем желающим – это очень хороший сигнал. Хотя и каждый из них играет в свою игру, тем не менее появление лоббистов в этой области даёт шанс что они начнут взаимодействовать непосредственно с государственными органами для раскрытия информации. К сожалению, не российскими госудраственными органами.
  • у меня накопилось порядка 200 гигабайт различных датасетов, при том что приходится себя ограничивать в скачке некоторых чтобы не забивать канал и потому как надо ещё и эти «переварить».

Май 15 2009

Semantic Web for Dummies (Семантический Веб для Тупых)

Tag: semweb, webivbeg @ 9:08 дп

На Амазоне вышла книжка Semantic Web for Dummies написанная Jeffry Pollock автором Adaptive Information (Адаптивная информация)  которая меня лично подвигла ко многим размышлениям на тему природы и свойств информации, равно как и её самоценности. Я лично пока полистал то что можно посмотреть в открытом доступе и, хотя книжка для «Dummies», интересного там должно быть много.

Кстати, Adaptive Information доступна и в книжках Google, хотя и не полностью, но достаточно для ознакомления.

Жаль в России книг по природе информации (не по алгоритмам или управлению знаниями), но именно по информации очень мало.

А эти книжки я лично добавил в свой список заказов на Amazon’е.


Следующая страница »


Rambler's Top100