Июл 30 2009

Презентации с iCamp 2009: OpenGovData.ru как первый шаг к data.gov.ru

Продолжаю выкладывать презентации с iCamp Russia 2009. на сей раз очередная презентация всё в том же скучном однотонном стиле, но на сей раз на тему того зачем и как создаётся OpenGovData.ru .

В последнее время чем дальше, тем больше мне говорят что сама тема раскрытия данных в машиночитаемой форме для России является ещё очень незрелой, в первую очередь от того что не так уж много имеется активных потребителей подобной информации.

Впрочем я считаю что если ничего не делать, то эта тема никогда и не всплывёт, так что проект будет развиваться.


Июл 30 2009

Говорят что Рамблер внес Профессионалы.Ру в RBL

Tag: из жизниivbeg @ 6:52 пп

Собственно ссылка http://friendfeed.com/welf/ce16b70d

Ежели так то Рамблеру – всяческий респект, уважуха ибо «Профессионалы» достали своим спамом капитально.


Июл 29 2009

Презентации с iCamp 2009: Государственный интернет

Ещё одна презентация с iCamp Russia 2009 в том же шаблоне что и предыдущая для большего занудства.

По сути в этой презентации я объединял другую свою презентацию по анализу 8-ФЗ с данными по госсайтам в Рунете – получилось то что можете пронаблюдать.


Июл 29 2009

Презентация с iCamp 2009: Автоматическая геоклассификация сайтов

Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.


Июл 29 2009

iCamp Russia 2009: послевкусие

Tag: web, web 2.0, из жизниivbeg @ 9:23 дп

Только что вернулись с iCamp Russia 2009 – впечатлений и общения было очень много, постараюсь рассказать о самом интересном.

В первый день в Нижнем Новгороде меня более всего впечатлили 3 доклада:

  • Анатолий Левенчук  (ailev) рассказывал про килопроекты и системную инженерию (system engineering) – тема очень интересная и актуальная. Жаль что у нас в стране проектов примеры которых он приводит очень и очень мало. Если вообще есть в последние годы
  • Дмитрий Песков (sartac) говорил про Метавер и образование которое вкорне отличается от принятых ныне подходов к обучению. По классификации ЛЕСа на iCamp – это чистой воды «эльфийская» тема, нацеленная на социальное переустройство, а не на прибыль и тем более эта тема интересна. Очень надеюсь что она приобретёт своё развитие.
  • Гаррет Джонсон из МТС буквально зажигал на сцене рассказывая про мобильные устройства. То о чем он говорил запоминалось с трудом, но драйву и движухи в его выступлении было очень много.

Далее 4 дня на теплоходе – небольшие секции, выступления и доклады на уже куда меньшую аудиторию.

Лично я успел рассказать 4 секции:

  • Государственный интернет
  • Автоматическая геоклассификация веб-сайтов
  • OpenGovData.ru: приглашение к проекту
  • Государственные закупки. Стоит ли участвовать?

А также рассказывал про ряд социальных проектов которые интересны мне и, как оказалось, и многим участникам. Об этих проектах я ещё расскажу подробнее чуть позже.

Тема госзакупок заинтересовала очень многих – однако лично я отметил что немногие на самом деле знают как устроено наше государство изнутри. Реально не хватает книг – «Госуправление за 24 часа» и «Государство для чайников» где всё было бы описано просто и доходчиво.

В ближайшее время постараюсь выложить свои презентации в сети и они появятся в блоге.

Какие выступления понравились более всего:

  • «Ответственный пациент» Бориса Зингермана. Понятно и очень доходчиво про электронную историю болезни и то как гражданин/пациент может сам управлять своей информацией.
  • Несколько выступлений Олега Кудрявцева про привлечение инвестиций и то как нужно презентовать свои проекты инвесторов. Много реальных примеров и описание логики и стиля мышления инвесторов. При том что в основном речь шла об инвесторах стратегических, а не венчурных, было интересно.

Что также хочу отметить – так выступления про облачные вычисления Андрея Артищева из Оверсан Скалакси. Тема интересная, видно что у создателей есть понимание того что они хотят сделать, но лично мне интересно в какую форму они облекут услуги и какие будут цены по сравнению с тем же Amazon AWS. В любом случае – пусть растет сто цветов и чем больше провайдеров облачного хостинга, тем больше конкуренция, качество услуг и так далее.

Как резюме – большое спасибо организаторам и участникам, ибо формат оказался очень удачным и результативным.


Июл 22 2009

Техническое. Почему Скиур иногда подтормаживает

Tag: алгоритмы, скиурivbeg @ 2:27 пп

Буквально несколько дней назад удалось выявить в Скиуре довольно неприятный баг и, частично его исправить. Проблема оказалась в том что мои предыдущие предположения что сервис подтормаживает на прогоне страницы по базе регулярных выражений, конечно были справедливы, но в значительной степени эту проблему удалось решить ещё раньше введя предварительную фильтрацию выражений  по принципам которые я у себя же тут в блоге описывал. Не универсальное решение, но всё же вполне оптимальное.

Текущая же проблема оказалась не столь очевидной, но не менее актуальной. К великому моему сожалению и удивлению Python не умеет сериализовывать скомпилированные регулярные выражения. Вернее он метит такие объекты как unmashalled и, в итоге, несмотря на наличие кода который подгружал базу регулярных выражений из кэша, на самом деле оказывалось что для каждой сессии, при подгрузке базы выражений из кеша, происходила полная их перекомпиляция, а это до нескольких секунд в зависимости от общей нагрузки на сервер.

Сейчас проблема решилась выносом кода подгрузки выражений из общей части в те участки где без базы выражений никак не обойтись – распознавание веб-страницы, во всех же случаях подгрузки данных из кеша более выражения не подгружаются. Загвоздка же в том что простого решения у этой проблемы нет.

В то же время есть варианты:

- либо компилировать выражения в C или Python код и подключить как уже готовые модули

- либо разрабатывать специальный сериализатор для регулярных выражений для Python ибо готовых нет

- либо выносить всю логику распознавания в отдельный сервер/сервис и обрабатывать все страницы в несколько потоков где выражения предварительно подгружены (самый простой способ)

- либо использовать для разбора веб-страниц не Python, а язык умеющий регулярные выражения сериализовывать

- либо отказаться от регулярных выражений и использовать иные правила анализа текстов.

Часть решений сугубо технические, часть алгоритмические. Какой подход проще уже понятно, непонятно какой лучше.

Как бы то ни было, есть и плюсы. Ключевой из которых в том что запас ускорения у Скиура ещё где-то 1000% и промышленный его вариант сможет быть очень быстрым.


Июл 21 2009

Про Microsoft и GPL

Tag: linux, microsoftivbeg @ 11:37 пп

Говорят Черный Властелин сильно уменьшился в

росте, а ноги его обросли густой шерстью

Оказывается Microsoft засабмитили 20 000 строк в ядро Linux код под GPL2 – http://vgabriel.livejournal.com/39139.html

Не то чтобы я сильно удивлён, но новость, ИМХО, заслуживает внимание.


Июл 18 2009

Ссылки на 17.07.2009. Интересные проекты + ярмарка идей

Tag: links, идеи, размышленияivbeg @ 8:28 дп
Это будет эдакий совмещённый пост – интересного в сети и нескольких последних идей.
Ссылки
  • ShoeBoxed – небольшой стартап с хитрым ноу-хау. Вы отправляете им в конверте свои счета и визитки, а они с помощью специальных сканеров и алгоритмов все это оцифровывают, распознают и предоставляют Вам через веб интерфейс. Задумка более чем интересная, я как раз не так давно задумывался об автоматизации распознавания кассовых чеков
  • URLClassifier – сервис тематической классификации веб страниц. Явно использует словари и классификация у него двухуровневая, но! сама идея правильная и весьма полезная. Предоставляют API
  • Feedity – ещё один сервис по преобразованию HTML в RSS, на сей раз полуавтомат. Анализирует страницу и предлагает варианты. Скиур (моё творение) мне нравится больше, но «пусть растут 100 цветов», пригодятся все.
  • ColourLovers – огромная база цветов, паттернов и палитр. Проектов таких много, но эти дают ещё и API.

Идеи

  • Если в поездах метро между стеклами вагонов поместить полупрозрачные экраны на которые можно было бы во время движения поездов  транслировать рекламу, то рекламодатели получили бы аудиторию в несколько миллионов человек ежемесячно.
  • Классификация по ключевым словам в названиях, моделях телефонов и их стоимости помноженное на накопленные статистические данные по демографии может позволить, с некоторой вероятностью, определять средний возраст людей присутствующих на заданной территории используя BlueTooth. Зачем? Например, рекламный таргетинг
  • Чтобы обеспечить контроль хоть как-то близкий к тотальному, то далеко ходить не надо – достаточно МВД потребовать от всех охранных агенств и вневедомственной охраны ведения электронных журналов учета посетителей. Так чтобы номера паспортов и ФИО вносились не в журнал, а в базы данных синхронизировались с центральной. Разумеется этого никогда не будет.
  • Карты покрытия сотовыми операторами «наоборот». На них показывается где в городе (или местности) есть места где Вам гарантированно не смогут дозвониться. Для тех кто увлекается кратковременным дауншифтингом сервис будет незаменимым.

Июл 17 2009

Развивая тему «латинизма». Взглянем на другой реестр

Тема искажения информации, в принципе, очень интересная и долгая – рассказывать про неё можно долго и особенно долго рассуждать о том как отделить случайные ошибки от неслучайных. Нужна методика, анализ «естественности» опечаток (одно из направлений в тех исследованиях которыми я ещё не так давно занимался) и… нужно немного внимания чтобы понимать где такие ошибки может быть.

К вопросу, отчего же у меня столь много ехидства и «недоумения» от от действий ФАСа которые напоминают истребление всего живого Ворлоном в войне с Тенями (да, да, вспомним Вавилон 5), да по той простой причине что ничто человеческое не чуждо никому включая любимою мною антимонопольную службу. В самом деле, а всё ли можно измерить только латиницей в текстах?

Для примера, взглянем на реестр недобросовестных поставщиков, который как раз именно ФАС курирует (и вводят туда информацию не заказчики, а их сотрудники!) и посмотрим на следующие записи:

Во всех перечисленных случаях в наименованиях организаций вместо «ООО» русскими буквами написано «OOO» английскими буквами.

А также:

Немного примеров, да, но ведь и реестр невелик всего то 2347 записей из которых 6 с вкраплениями (видимо опечатками) латиницы что составляет 0.2% от общего числа что врядли больше чем опечаток на официальном сайте закупок.

И, к вопросу, о том для чего существует этот реестр. Его главная задача – оградить заказчиков от поставщиков нарушивших условия выполнения контрактов, он потому и называется реестром недобросовестных поставщиков.  Собственно заказчики имеют там возможность проверить не находится ли там поставщик и вопрос в том всегда ли они смогут это сделать гарантированно?

А ведь по поводу латиницы в госзакупках ФАСу ещё надо будет дела в арбитражных судах выигрывать которые ещё не факт что станут на его сторону.

Вот и для меня вопрос как они поступят:

1. Без шума исправят эти опечатки?

2. Признают ошибки несущественными?

3. Признают ошибки и поправят?

4. Или просто проигнорируют?

Вот такие  дела.


Июл 17 2009

Почта, СОРМ и нетотальный контроль

Как-то однажды я уже писал про (не)возможность тотального контроля в Интернете и сейчас я придерживаюсь того же мнения. Тотальный контроль, для кого то к сожалению, а для большинства к счастью всё ещё невозможен.

И, кстати, последняя новость про приказ Минсвязи и введение комнат просмотра корреспонденции спецслужбами на почте лично для меня лишь ещё одно подтверждение что до тотального контроля всё ещё очень далеко.

Например, в России всего 42 000 объектов почтовой связи, при этом, хотя и нет цифр по реальному количеству отправлений проходящих суммарно и через отделения по отдельности, но не думаю что удасться обойтись меньшим числом сотрудников спецслужб чем сотрудников самого почтампа.

Итого трудно поверить что можно обеспечить тотальный контроль, больше похоже на контроль выборочный, но тогда закономерный вопрос – заключается в том что какой же в этом резон учитывая развитие Интернета?

В принципе, популярность обычной бумажной почты сейчас только сокращается и её не избежать только при взаимодействии с юр. лицами и приёме бандеролей и посылок.

Но меня больше удивляет другое – ведь то же самое можно было сделать гораздо хитрее. Достаточно было бы выделить Почте России денег на предоставление услуги «почта-по-email» со сканированием текста письма и отправке адресату по электронной почте, а спецслужбы имели бы доступ к базам отсканированных документов.

В общем, моё мнение, что странная это какая-то затея, поразительно бесхитростная.


Следующая страница »


Rambler's Top100