Янв 29 2010

OpenGovData.ru: открытые данные, планы, развитие и отклик

На opengovdata.ru появился новый массив данных, справочник МКБ-10 который можно скачать в формате CSV и использовать в своих практических задачах. Большое спасибо за него, Юрию Кудрявцеву!

Также в сообществе проекта появилась подборка ссылок по открытым данным в мире – http://groups.google.com/group/opengovdataru/browse_thread/thread/6e13f7db8ef7960c

Можно найти самые разные разные проекты в различных странах. Пока ещё там не все ссылки, но постепенно они все там появятся.

Это всё о текущем, теперь же о будущем проекта.

Изначально он создавался как некоммерческий, бесплатный сайт аналогичный многим таким же в мире. Именно таким и предполагается оставить его далее, в том числе на сайте не будет никакой рекламы, контекстной ли баннерной ли. У него некоммерческие, если угодно «подвижнические» цели, и таким он останется.

Вопросы сейчас в том как продолжить его развитие.

В прошлом году удалось собрать большую базу различных источников данных, сделать 4 массива открытых данных, разработать специальный формат раскрытия в XML и создать банк нормативных документов по раскрытию данных в нашей стране.

Но… Всё это пока не решило несколько важных задач:

1. Вовлечение граждан в создание машапов.

При том что находятся волонтёры интересующиеся данными и готовые данными поделится, всё ещё мало социально-востребованных проектов по их повторному использованию. Нет примеров машапов, нет продвижения идеи в массы о том что открытые данные – это хорошо, нужно, полезно и необходимо.

2. Выбор пути сбора открытых данных

Фактически, есть всего два пути сбора открытых данных.

Первый – когда данные опубликованы в каком-либо формате на официальном сайте и они преобразуются в «нормальный вид» в виде XML/CSV и других полезных форматов волонтёрами с помощью специально написанных парсеров.

Второй – когда данные публикуются самими ведомствами в формате пригодном чтобы их можно было включать в реестр открытых данных.

По моему опыту, второй путь в России особенно сложен из-за непонимания чиновниками самого понятия открытых данных. Первый же путь сопряжён с многими издержками в виде необходимости обновлять, оптимизировать и улучшать парсеры.  Какой из этих путей более правильный – большой вопрос. Но, что можно отметить точно, так это необходимость медийной поддержки – нужны статьи, публикации, обзоры и целенаправленная работа в этом направлении. Любая помощь будет кстати.

3. Интеграция

Сейчас в мире постепенно набирает тенденция к унификации раскрытия информации. К использованию открытых форматов, к стандартизации отраслевого раскрытия, например, движения транспорта. Важно не остаться в стороне от происходящего и интегрироваться в общий процесс.

В частности есть несколько возможных направлений:

  • Linked Data – http://linkeddata.org/ – интеграция в общий процесс Linked Data, для начала экспортом метаданных о массивах данных и их источниках.
  • CKAN - http://ckan.net/ – экспорт данных как пакеты CKAN и интеграцией их в этот проект.

4. Расширение

Сейчас в OpenGovData.ru в основном федеральные данные. Их немало, но они далеко не всё и, как ни странно, в регионах немало открытой информации в публичном доступе, важно лишь умение её найти и понять пригодность к автоматическому использованию. А далее актуальна ситуация и с муниципалитетами.

5. Систематизация

На самом деле проблема систематизации она глобальная. И существует много нераскрытых вопросов как собирать данные и c какой стороны заходить со стороны что есть на самом деле или с того что правильно.

  • Строить ли иерархию органов власти и к ним добавлять  описания доступных массивов данных или же первичны именно данные и информация об органах власти вторична?
  • Собирать ли информация о различных интерактивных и полуинтерактивных сервисах дающие выборочные данные? Например, проверка налоговой задолженности или проверка паспорта в ФМС.

И так далее . Вопросов много и наложение геополитической онтологии что я публиковал ранее или же онтологии структуры органов власти  на реестр открытых данных будет непростой задачей и довольно длительной.  Тем не менее к этому постепенно всё будет приведено.

—-

Всё вышеперечисленное о том что происходит и будет происходить в проекте. Но самое главное – это отклик от потенциальных и существующих его пользователей. Критика, замечания, отзывы, предложений – всё что можно сказать и что может проект изменить и улучшить.


Янв 28 2010

Не политика

Я сознательно почти ничего не пишу про политику в своём  журнале, во первых поскольку мои взгляды на неё давно определились, во вторых поскольку считаю что совмещать активный интерес к ней и созидательную деятельность – сложное занятие.

Однако последнюю статью в Новой Газете «Рой или антибулочник» (http://novayagazeta.livejournal.com/158423.html) рекомендую почитать вне зависимости от того согласитесь Вы с написанным там или нет. При том что лично мне творчество Латыниной, мягко говоря, не нравится, но тут, в том что касается системы управления, много точных замечаний.

Деградация управления действительно имеет место. Например, то что происходит в виде закона о торговле или же «прозрачный отбор» электронных торговых площадок для электронных аукционов – это только лишнее подтверждение. Причём это только то что видно «на поверхности», а реально такого больше и повсеместно.

В моём понимании государство и всё что касается госуправления – это не политика. Это то что должно работать вне зависимости от того кто у власти – демократические институты, диктатура, просвещённая теократия или абсолютная монархия. Суть в том что механизмы управления государством не работают, либо работают на выгоду вполне конкретным лицам. Причём, чаще всего выгоду краткосрочную.

И это, кстати, всё непосредственно влияет и на государственные ИТ проекты вроде того же портала госуслуг. Заставить отдельные элементы Системы действовать согласованно в рамках общей деятельности, например, электронизации услуг – крайне сложно. В своё время Росинформтехнологиям это не удалось, сейчас этим занимается Минсвязи, но реально процесс идёт из-за того что курирует это Собянин и то, как он идёт и чем закончится узнаем мы не сразу. Успеют выбрать нового президента, сменится правительство, да и масса других изменений.

Тоже самое касается практически любого госпроекта по ИТ в который вовлекается больше одного ведомства. Сразу же возникает необходимость в согласованиях, в «перетягивании канатов» и прочая и прочая. А главное, низкая мотивация исполнителей из-за низкой мотивации заказчиков. Ощущение что «никому ничего ненадо» и невозможности этого изменить. Все кто работал в системных интеграторах хорошо меня поймут.

Однако, всё это не значит что ничего делать ненужно или невозможно.


Янв 28 2010

Ссылки по e-Gov на 28.01.2010

Как обычно, подборка тематических ссылок с моими краткими комментариями.
  • http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
  • http://www.rian.ru/economy/20100125/206146491.html – Правительство выбрало 5 площадок: правительств Москвы и Татарстана, Сбербанк-АСТ, РТС и ММВБ. Плюс Артемьев говорит про возможный выбор 6-й Санкт-Петербургской международной товарно-сырьевой биржи. Не буду комментировать всех «нюансов» происходящего, рекомендую же почитать статью на Cnews по этой теме – http://www.cnews.ru/news/top/index.shtml?2010/01/26/377312 и статья на Slon.ru (http://slon.ru/articles/249825/) где есть и мои комментарии
  • http://cnews.ru/news/top/index.shtml?2010/01/27/377582 – Руководитель ФАИТ, Владимир Матюхин уходит на пенсию. Теперь многое будет зависеть от того кто придёт на его место, останутся ли Росинформтехнологии и в каком виде.
  • http://www.publictechjobs.com –  банк ИТ вакансий и резюме для работы в государственных и муниципальных органах власти США.
  • http://www.publicgeodata.org/ – открытые гео данные и ссылки на репозитарии с открытыми гео данными.
  • http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.

Янв 27 2010

Yota-боты и вопрос доверия

Tag: из жизниivbeg @ 6:33 пп

У arcanoid‘а отличное наблюдение (http://arkanoid.livejournal.com/284831.html) про боты рекламирующие Yota и пытающиеся притворяться «натуральными аккаунтами».

Больше похоже что пишут в эти аккаунты несколько рерайтеров. Текст слишком связный для автоматической генерации, однако всё это не меняет той ситуации что брендам рекламирующим себя таким образом доверия мало.


Янв 26 2010

HTML в RSS: Google Reader vs Скиур.

Tag: google, скиурivbeg @ 7:51 пп

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.

Главное отличие в принципиальном подходе.

ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff – определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:

1. Найти отличия

2. Выделить из этих отличий значимые и преобразовать их в текст.

Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.

В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента – это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.

Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:

1. Опробация алгоритмов в действии на большом числе разных страниц – это удалось, сейчас поддерживается более 160 различных форматов новостных лент.

2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет – это также удалось решить.

Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.


Янв 22 2010

Про форматы файлов и не только. Выдержки из нормативно-правовых документов

Вначале чуть-чуть в сторону. Я очень не люблю заформализованные термины вроде «нормативно-правовы едокументы» и всё такое прочее. Всегда хочется сказать как-нибудь попроще или даже составить словарик перевода с формального чиновно-юридического на простой человеческий язык, но не всегда получается.

А далее ряд выдержек из разных официальных документов за 2009 год касающиеся ИТ, форматов файлов, вендоров  так далее.

Жирным текстом будет название документа, курсивом выдержки из него и обычным текстом мои комментарии.

1. Приказ Министерства сельского хозяйства Российской Федерации от 22 июня 2009 г. N 235 Об утверждении Административного регламента Министерства сельского хозяйства Российской Федерации исполнения государственной функции по надзору за нормативно-правовым регулированием, осуществляемым органами государственной власти субъектов Российской Федерации по вопросам переданных полномочий Российской Федерации в области охраны и использования объектов животного мира, отнесенных к объектам охоты

13. Уполномоченное подразделение Минсельхоза России ведет учет
нормативных правовых актов субъектов Российской Федерации и
результатов надзора за нормативно-правовым регулированием в журнале
учета нормативных правовых актов субъектов Российской Федерации
(далее – журнал учета).
Журнал учета ведется в электронной форме в формате Excel в
соответствии с приложением N 1 к Административному регламенту.

Мало того что Excel явно упомянут так ещё и совершенно точно можно говорить о культуре работы с информацией. Журнал который фактически является реестром документов ведётся в Excel’е, как, кстати и очень многие другие реестры наших с вами государственных органов. По другому не умеют, не хотят или не могут.

Остальные документы с комментариями под катом.

Continue reading «Про форматы файлов и не только. Выдержки из нормативно-правовых документов»


Янв 21 2010

Дайджест ссылок по eGov на 21.01.2010

Подборка ссылок с моими комментариями:

  • http://www.garant.ru/hotlaw/federal/227265/ – приказ Минэкономразвития по доступности информации на госсайтах
  • http://habrahabr.ru/blogs/e_gov/81419/ – публикация Дениса Бескова с комментариями к приказу через призму доступности информации
  • http://community.livejournal.com/ifap_ru/58103.html – публикация в сообществе МОО «Информация для Всех» со ссылками на экспертные комментарии к приказу выше и описанием их предыстории
  • http://www.data.gov.uk/ – появился в beta версии. Ничего нового по сравнению с тем что я видел 3 недели назад во время участвуя в бета тестировании, я не увидел. Но, важно что на сайт оказывает серьёзное влияние Тим Бернерс-Ли, это даёт надежду на его развитие в сторону семантического веба.
  • http://blog.minzdravsoc.ru/ – коллективный блог Минэкономразвития. Нашёл ссылку в gov-gov.ru у Екатерины Аксеновой.
  • http://www.fsrar.ru/ – обновился сайт Росалкогольрегулирования о котором я уже пару раз писал ранее.
  • http://www.government.ru/ – обновился сайт правительства. Вообще-то он обновился ещё 31 декабря превратившись из среднего по качеству сайта в другой средний по качеству сайт. Хуже всего нарушение ссылочной целостности, так как на сайт правительства и документы в нём ссылались очень многие, а также нынешний дизайн с блеклыми буквами на белом фоне и синими ссылками на синем фоне это всё как-то, брр. Плюс сайт объединили в логическую структуру с сайтом премьера, который сделан не лучше если не хуже. Особенно не порадовали там элементы на флеш, например, карта поездок премьера – http://premier.gov.ru/visits/world/. Интересно мне одному не нравятся страны раскрашенные в розовый цвет под синюю штриховку или нет?
  • http://www.economy.gov.ru – обновился сайт Минэкономразвития. По моему мнению он стал в разы приличнее, из него поисчезали огромные баннеры и ссылки стали человеческими, ну и масса других хороших изменений.

Плюс в конце прошлого года появилось много интересных нормативно-правовых актов, о них подробнее в следующем посте.


Янв 21 2010

Приказ Минэкономразвития про требования к госсайтам

В ЖЖ сообществе ifap_ru опубликовали замечания к последнему приказу Минэкономразвития по поводу доступности информации на государственных сайтах.

На проект этого приказа ещё в июле 2009 года эксперты МОО «Информация для всех», включая меня писали отзывы. Например, мой отзыв можно почитать здесь – http://www.ifap.ru/pr/2010/n100121c.pdf. Всё что там было написано в приказ так и не попало, хотя актуальности не утратило.

Плюс я дополню то что там написано новыми замечаниями уже по тексту самого приказа.

Далее жирным текстом пункт и закона, а курсивом мои комментарии

е) обеспечивать учет посещаемости всех страниц официального сайтапутем размещения на всех страницах официального сайта программного кода(«счетчика посещений»), предоставляемого общедоступными системами сбора статистики в сети Интернет и обеспечивающего фиксацию факта посещениястраницы пользователем информации;

Размещение кода на всех страницах при буквальном исполнении означает, то что счетчики должны будут размещаться и на страницах личных кабинетов если таковые будут предусмотрены на официальных сайтах, а это означает слив приватной информации внешним компаниям владельцам счетчиков. Также важно что большая часть счетчиков используют cookie, что позволяет отслеживать посещение пользователями многочисленные сайты где стоит счетчик с одного ресурса. И, в США ещё в июне 2000 года был принят меморандум M-00-13 http://www.whitehouse.gov/omb/memoranda_m00-13/

где четко прописан запрет на использование cookie на федеральных государственных сайтах.

а) вся размещенная на официальном сайте информация должна быть
доступна пользователям информацией путем последовательного перехода по
гиперссылкам, начиная с главной страницы официального сайта. Количество
таких переходов (по кратчайшей последовательности) должно быть не более
пяти;

Обратите внимание на требование по «навигабельности» ссылок до уровня пяти переходов. Это может показаться правильным и логичным, но принципиально это некорректно так как есть случаи, например, навигация по большим банкам данных когда число переходов может быть и куда больше пяти, но главным является не их число, а наличие постоянной ссылки у страницы, возможность экспортировать информацию и так далее.  А это требование по пяти переходам можно очень легко соблюсти формально сделав страницу «Карта сайта» и выгружая туда хоть все ссылки. Вуаля! Тысячи и десятки тысяч ссылок на одной странице и с полным соблюдением закона и минимальным удобством для пользователя. Думаете у тех кто заказывает и делает госсайты хватит здравого смысла так не делать? Если так думаете, то зря поскольку главным критерием качества сайта было и есть – соблюдение формальностей, не более того.

б) предоставлять пользователям информацией возможность
беспрепятственного поиска и получения всей текстовой информации,
размещенной на официальном сайте, включая поиск документа среди всех
документов, опубликованных на сайте, по его реквизитам, содержанию
документа, а также по фрагментам текста, содержащегося в размещенном на
официальном сайте документе;

Здесь важно не то что написано, а то чего нет, поскольку нет такого важного понятия как русская морфология или хотя бы стемминг (нахождение основы слова). В большинстве случаев на официальных сайтах ничего такого нет, в то время как поиск с учётом морфорлогии особенно важен когда идёт поиск каких либо конкретных документов ибо вы не знаете как там написан тот или иной термин «водка» и «водку», «кассового аппарата» и «кассовые аппараты’. Поиск без морфологии или стемминга не позволит найти все необходимые результаты.

Плюс ко всему этому приказ, как и сам закон 8-ФЗ нетехнологичен.  Очень многое из того что описано там общими словами и допускает множественную интерпретацию можно было бы описать более конкретно и без возможности недопонимания и неверного толкования. Например, форматы файлов в виде которых могут публиковаться документы вполне можно было описать исчерпывающим списком. Требования к использованию ЭЦП конкретизировать должно ли оно использоваться на этапе размещения материалов или же каждый документ должен быть подписан ЭЦП и так далее.

Но, в любом случае, это лучше чем могло бы быть.


Янв 20 2010

Сайт Росалкогольрегулирования. Часть 2

Заглянув недавно на сайт Росалкогольрегулирования – http://www.fsrar.ru я тут неожиданно обнаружил что сайт, то сменился. Правда любви к гражданам у создателей при этом не прибавилось, однако дизайн сайт получше. Чуть-чуть, в остальном же  хуже некуда.

Рассмотрим в подробностях.

1. RSS ленты у сайта нет, а то есть если кто и захочет их новости прочитать, то не зайдя на сайт это никак не получится. Правда, Скиур их новости распознаёт – http://www.skyur.ru/?url=http://www.fsrar.ru/news, так что не всё потеряно, однако неприятно.

2. Отсутствуют фотографии, биографии и род деятельности руководителей – смотрим тут http://www.fsrar.ru/about/leaders

3. Статистика в виде кошмарного вида скриншотов из Word’а или Excel’я – http://www.fsrar.ru/industry/1261678438828/statistics. Никаких таблиц, документов или более-менее приличной визуализации нет и в помине.

4. Про соответствие 8-ФЗ можно и не говорить, его нет, хотя и сайт-то появился вот только что и это особенно странно что новый сайт не соответствует базовым требованиям.

5. Поиск http://www.fsrar.ru/search реализован без учёта русской морфологии или хотя бы даже стемминга слов. Если поискать по слову алкоголь, находим 45 страниц, если искать алкоголя то не находим ни одной.

6. Посмотрим на страницу структуру органа государственной власти http://www.fsrar.ru/about/1261564284052 и, насладившись кубиками и стрелками, сравним её со структурой:

Конечно, даже среди существующих госсайтов есть примеры и похуже, однако в появлении новых «плохих примеров» ничего хорошего нет.

Думаю что надо сделать особенную номинацию «сделано с особой ненавистью» и выдавать особенно показательным госсайтам. Эдакая «золотая малина»


Янв 18 2010

Обновление алгоритма в Скиуре

Tag: скиурivbeg @ 1:30 пп

В Скиуре, сервисе по извлечению новостей из HTML в формат RSS прошло очередное обновление.

Из-за проблем с нагрузкой, пришлось практически полностью переделать правила распознавания новостных лент, в частности отказаться и регулярных выражений преобразовав их в специальные парсеры и построив вокруг них ускоряющий индекс похожий на RETree, а ещё вернее его «симуляцию» тем не менее работающую как частное решение.

Плюс теперь алгоритм обучается и единожды распознав новостную ленту, далее разбор той же страницы проходит куда быстрее.

Ну вот теперь могу сказать что определение одной новостной ленты без выгрузки веб-страницы происходит не более 2 секунд, а алгоритм полностью production ready.

Остались лишь ограничения связанные не с алгоритмами, а оборудованием, хранением записей и так далее, но они решаются по другому.


Следующая страница »


Rambler's Top100