Posted by & filed under e-Government, eGov, открытое государство, открытые данные, электронное государство.

Итак, вчера вечером завершилось очередное заседание совета по открытым данным.

Там присутствовало человек 20 его членов, эксперты и так далее.

Я расскажу вкратце о чем шла речь, может быть не по всем вопросам, но по тем что считаю наиболее важным.

1. Методические рекомендации

Минэкономразвития собрало массу замечаний на свои методические рекомендации и их представители пообещали свести замечания и разместить финальную версию уже в скором времени.

Причем предполагается закончить версию 1 после чего сразу собирать замечания для следующей версии.

Я предложил им обязательно перевести все все версии на английский язык для того чтобы мы могли привлечь в том числе зарубежных специалистов к их обсуждению.

Второе предложение было в том чтобы собирать далее замечания через одну из краудсорсинговых платформ для обсуждения.

2. Открытые геоданные

Выступали коллеги из Росреестра. Пообещали открыть ряд баз данных через API, а многие данных вроде реестра кадастровых инженеров публиковать в CSV, XML форматах. Более вероятно CSV так как это проще.

Там было много вопросов. Я предлагал хотя бы часть геоданных публиковать в форматах которые понятны разработчкам не очень сведующим в геопространственной информации. В KML и YMapsML. Не могу сказать что пока что удалось убедить поскольку есть и другие стандарты поддерживаемые OpenGIS консорциумом.

3. Низкое качество московских данных и не только

Я упомянул про проблему низкого качества госданных. Мы столкнулись с этим работая с базой участковых и Максим Дубинин написал про другую проблему. Проблему именно Московских данных — ошибок в координатах - http://gis-lab.info/blog/2013-05/coord-hell/

Про остальное напишу еще чуть позже.

 

Posted by & filed under открытое государство, открытые данные, электронное государство.

Свежие ссылки про открытые данные

 

Свежие новости на русском языке про открытые данные можно прочитать:

- у меня в блоге ivan.begtin.name;

- в рассылках Scoop.it Open Government Daily и Russian Open Government Daily

- в Open Government & Data Gazeta

- в моих аккаунтах в Facebook’е — ibegtin и twitter’е — ibegtin

Posted by & filed under e-Government, eGov.

Вчера прокатилась новость как Ростелеком по решению суда в Адыгее заблокировал Яндекс на полчаса - http://roem.ru/2013/04/23/yandexrtblocked70301/ по той причине что в решении был упомянут один из IP адресов.

Полчаса это недолгий срок и хорошо что проблему решили быстро, однако нельзя теперь не отметить для Интернет бизнеса в России появился и стал главным риск под названием «государство«.

Проблема неграмотного шерифа
И проблема здесь не только вот в таких вот «краткосрочных ошибках», а в том что все принимаемые решения по регулированию Интернета являются тактическими. Государство пришло на фронтир и пытается ставить своих шерифов, но свода законов у шерифов нет, а методы работы, прямо скажем, варварские.

С момента появления этого реестра я не раз говорил сам и слышал от других тот тезис что это не более чем инструмент. Вначале создают принципиальную возможность для цензурирования реализуя в нем наиболее однозначные темы для фильтрации — вроде распространения наркотиков и тому подобного. И вот после того как этот инструмент будет опробован, докажет свою эффективность, вот тогда под него будут подтягивать многое другое что будет далеко не так однозначно.

Всё происходит как ожидалось.

И вот еще одна новость на ту же тему о том что уже появились желающие использовать реестр запрещенных сайтов для запрета много чего другого http://lenta.ru/news/2013/04/23/reasons/ в частности «угроз применения насилия» в том числе на публичных акциях. А это уже настолько близко к политике насколько только возможно.
Что дальше? За что будут блокировать потом?
- За клевету?
- За обвинение в мошенничестве?
- За невыплату алиментов? (не разрешают же алиментщикам выезжать за границу — так что же думаете не додумаются блокировать их веб-страницы, сайты и профили в соц сетях?)

Posted by & filed under бывает и такое.

Вчера из Газеты.ру меня спрашивали что я думаю про затею лиги безопасного Интернета проверять Интернет в кафе. Мой ответ можно прочитать тут - http://www.gazeta.ru/social/2013/04/12/5253273.shtml

Отряды хунвэйбинов отрезали косы и сбривали крашеные волосы у женщин, раздирали слишком узкие брюки, обламывали высокие каблуки на женской обуви, разламывали пополам остроносые туфли, заставляли владельцев магазинов и лавок менять название. Хунвэйбины останавливали прохожих и читали им цитаты Мао, обыскивали дома в поисках «доказательств» неблагонадёжности хозяев, реквизируя при этом деньги и ценности…
…Осенью 1967 г. Мао применил армию против хунвейбинов, которых он теперь изобличал как «некомпетентных» и «политически незрелых». Иногда хунвейбины оказывали сопротивление армии. Так, 19 августа в город Гуйлинь после долгой позиционной войны вошли 30 тысяч солдат и бойцов народной крестьянской милиции. В течение шести дней в городе истребили почти всех хунвейбинов. Мао угрожал, что если хунвейбины будут драться с армией, убивать людей, «разрушать транспортные средства» или «жечь костры», они будут «уничтожены». В сентябре 1967 г. отряды и организации хунвэйбинов самораспустились. Пятеро главарей хунвейбинов вскоре были высланы работать на свиноферме в глубокой провинции. 27 апреля 1968 г. нескольких руководителей «бунтарей» в Шанхае приговорили к смерти и публично расстреляли. Осенью 1967 г. миллион молодых людей (а в 1970 году 5,4 миллиона) были сосланы в отдаленные районы, многие пробыли там более десяти лет.
http://ru.wikipedia.org/wiki/Хунвэйбины

Это все что я хочу сказать по поводу Лиги Безопасного Интернета и все аналогичных попыток «на грани» привлекать молодежь к очень спорным инициативам.

Posted by & filed under datasets, e-Government, eGov, opengovdata.ru, Общественное благо, открытое государство, открытые данные, электронное государство.

Про совет по открытым данным я, для разнообразия, написал на ХабрХабр’е - http://habrahabr.ru/post/176449/

А также приглашаю всех туда в хаб — Открытые данные (не путайте с Хабом открытых данных — hub.opengovdata.ru :)

 

Posted by & filed under e-Government, eGov, opengovdata.ru, алгоритмы, информация, открытое государство, открытые данные, электронное государство.

Для тех кто планирует делать проекты по открытым данным и не только у меня накопилось какое-то количество API которыми не терпиться поделиться.

API этих много и разных и все они сделаны для обогащения и улучшения данных. А теперь когда появились такие проекты как Mashape появилась еще и возможность публиковать их в общей инфраструктуре.

Итак, для тех кому нужны полезные инструменты:
- извлечение новостей из любой HTML страницы - это API из Скиура (http://www.skyur.ru) позволяет находить на страницах новостные блоки, анализирует их, парсит автоматически и дает списком. Получает ссылку на вход, возвращает JSON список найденных новостей. Этот алгоритм чистое ноу-хау. Он врядли будет доступен под открытым кодом, а вот как API — пожалуйста.

- парсер Robots.txt - парсер для файлов robots.txt который понимает почти все команды для краулеров и возвращает разобранный файл в JSON формате. Можно его было бы и открыть исходным кодом, что наверное и будет в будущем поскольку никаких особых баз он не требует.

- детектор RSS/ATOM фидов - анализирует страницу и находит на ней все RSS ленты упомянутые как в заголовках, так и просто ссылкой в содержании.

- извлекатель информации о веб-сайтах - алгоритм который умеет определять технологии на которых веб-сайт сделан. CMS, веб-сервера, модули веб-серверов, язык программирования и многое другое

- парсер ФИО и определитель пола по ФИО - специальный парсер который автоматически разбирает ФИО, определяет шаблон в котором оно написано и определяет пол и этнос (национальность) если это возможно. Очень нужная вещь для всех гендерных исследований. Позволяет получить гендерную структуру любого списка людей, например, послов или депутатов или участковых.

 

Posted by & filed under e-Government, eGov, opengovdata.ru, opensource, Общественное благо, открытое государство, открытые данные, электронное государство.

Для всех кто работает с открытыми данными, делает свои проекты для себя, людей, для участия в конкурсах всегда бывает бывает полезен исходный код примеров того как данные собирались и что с ними делалось.

Мы в Информационной Культуре работаем с открытыми данными постоянно и часть того кода что мы производим вполне может быть полезна и другим. Да что уж там, точно будет полезна!

Поэтому мы выложили много материалов в виде публичных репозиториев в которых каждый может найти что-то для себя и свободно использовать.

А вот и то что есть:

- исходный код OpenGovData.ru - он не очень актуален и сыроват, поскольку мы постепенно мигрируем на CKAN, но вполне пригоден для тех кто хочет быстро и без чьей-либо помощи развернуть портал открытых данных в своем городе не спрашивая никого.

- Открытые данные Мосгорздрава - данные и скрипты для их извлечения с сайта Московского департамента здравоохранения mosgorzdrav.ru. Данные собраны и обработаны по ежедневным сводкам и вполне любопытны для визуализации. Конечно же важно не забыть их обновить.

- Открытые данные ЦБ РФ - проект по преобразованию данных из API веб-сервисов Центробанка в базу данных. Довольно старое API, для работы с веб-сервисом тогда приходилось испольховать утилиту на .NET, но возможно у кого-то найдется время и желание поработать над этими данными.

- Госонтологии - набор RDF/OWL данных по различным областям деятельности государства. Незавершенные онтологии, но вполне пригодные для работы.

Открытая госдума - скрипты и данные полученные при работе с данными депутатов. Как я и говорил ранее — ими не очень интересно заниматься, там сплошная политика.

- Монитор сайтов - небольшой Django проект по мониторингу сайтов на доступность. На нем работает сайт http://sitemon.opengovdata.ru/ мониторящий zakupki.gov.ru

- Открытые данные Москвы - парсер данных с data.mos.ru (Официального Московского портала) и загрузчик их в CKAN hub.opengovdata.ru

- Открытые данные МЧС — скрипты по извлечению открытых данных и сами данные МЧС. Собирает информацию о телефонах, сводках и адресах подразделений.

- Открытые данные МИД - скрипты и данные по послам. Недоделанное так как там много ошибок при парсинге. Поэтому приложены дампы анализа из Open Refine

- Открытый Кремль — данные с сайта kremlin.ru по Президенту и Администрации. В основном исторические в виде дампа блога Медведева и всех комментариев к нему. Там же есть идеи по тому как использовать их данные вот тут они собраны в виде Excel таблички https://github.com/infoculture/openkremlin/blob/master/docs/kremlin_ru_opendata.xls

Есть много и других полезных проектов по анализу данных, их сбору с сайтов, преобразованию данных и многому другому. Что-то мы будем выкладывать по мере готовности  (в первую очередь код надо описывать, делать README и тд), но наверняка есть и другие полезные репозитории. Если знаете такие — присылайте. Будем составлять их список.

logo

Posted by & filed under datasets, e-Government, eGov, открытое государство, открытые данные, электронное государство.

Для тех кто любит краткость

Мы запустили конкурс по полиции. Он классный. Идет параллельно с Apps4Russia, но меньше и очень точечный. Приходите сюда http://www.openpolice.ru/contest/ и подавайте заявки!

Для тех кто не против немного почитать

Как многие, наверняка, помнят мы каждый год проводим конкурс Apps4Russia с призами, партнерами и классными приложениями которые делают люди на открытых данных и не только - в этому году мы тоже, обязательно его проведем, анонс широкий и большой будет уже вот-вот как скоро. Но я не буду забегать вперед — все будет.

Однако, кроме нашего большого проекта конкурса, мы занимаемся и другими интересными и большими проектами одним из которых является проект «Открытая Полиция» (http://www.openpolice.ru)

logo

И, в рамках этого проекта, мы проводим еще один конкурс — тем кому не терпится сразу идите по ссылке  - www.openpolice.ru/contest . Небольшой по времени — всего 2 месяца, отличный по содержанию — у нас очень много открытых данных собрано тут — data.openpolice.ru и доступно через API — api.openpolice.ru

Плюс, конечно, мы собираем идеи. Если Вы не умеете программировать, и хотите принести пользу человечеству другим способом, то можете предложить идею тем кто готов делать приложения.

Будут вопросы — задавайте их мне любым доступным способом — письмом на ibegtin (собака) infoculture.ru , через twitter, facebook, комментариями в блоге и так далее. Буду отвечать на все.

И конечно же, это проект создан и конкурс что мы проводим происходят при поддержке Комитета Гражданских Инициатив Алексея Кудрина (komitetgi.ru).

 

Posted by & filed under opengovdata.ru, opensource, открытое государство, открытые данные, электронное государство.

Давайте ка я порассуждаю вслух.
Самое настоящее Открытое Правительство в моем понимании и буквальном значении — это API к сайту government.ru . Сделать его несложно, важно, нужно и можно. Но никто не сделал до сих пор. Идеально — если это сделает аппарат пр-ва, неидеально — это мы сами парсим его и делаем API. Я знаю как сделать второе и вообще-то мне ничто не мешает это сделать. И даже больше я — это сделаю, желательно, причем не своими руками — на все просто рук не хватит. Нужен квалифицированный разработчик желающий это сделать — бесплатно или за деньги.
Задача разбивается на 4 шага:
1. Провести анализ данных на сайте — набросать модели данных и архитектуру решения.
2. Распарсить данные на сайте согласно моделям и настроить регулярное обновление данных. Данные загрузить в NoSQL базу типа MongoDB или CouchDB
3. Сделать API веб-сервиса по предоставлению данных в JSON (возможно и в XML)
4. Сделать описание API.

Что дальше?
А дальше используем этот бесценный ресурс как тренировочного зверька для разработчиков мобильных и любых иных приложений.

Кроме-то можно то же самое сделать:
- Открытый Кремль — сделать API для kremlin.ru
- Открытый ЦИК — сделать API к cikrf.ru
- Открытая Счетная Палата — сделать API на материалах www.ach.gov.ru
и так далее.

Всё это классные и суперполезные проекты по открытости. Да, они не для конечных пользователей, так же как и куча библиотек и сервисов тоже не для конечных пользователей. Это нормально когда разработчики создают сервисы для других разработчиков.

И вот какая идея у меня возникла. Ели Вы захотите такое сделать и Вам ничего не нужно кроме совета что и как сделать — обращайтесь.
Если у Вас есть желание это сделать и поделиться с исходным кодом с человечеством, но хотелось бы за деньги — напишите мне, может быть идея хорошая и хоть немного проработанная, и если денег нужно не очень много — я вне всяких конкурсов найду денежку на её поддержку.

Написать мне можно на ibegtin (собака) gmail.com или на ibegtin (собака) infoculture.ru

Posted by & filed under идеи.

Чем больше я наблюдаю за новыми и имеющимися браузерами тем больше понимаю что им остро нехватает системных решений в части их ускорения.

В принципе, нужны другие подходы, а не просто прокачка движков рендеринга и тому подобное.

На эту тему у меня поднакопилось идей которые я тут и изложу. Все идеи, скажу честно, я записывал без оглядки на то что делают другие, так что может быть какие-то из них уже внедряются или кем-то озвучивались.

Итак:

1. Кеширование типовых библиотек Javascript внутри браузера

Предположим что есть набор типовых библиотек которыми активно пользуются веб-мастера. Библиотек много, но есть наиболее популярные — jQuery, SWFObject, Prototype и так далее. Их не бесконечное количество, а вот используют их очень даже активно при этом браузеры их качают и качают, интерпретируют и интерпретируют, в общем делают много бессмысленной работы.

Чтобы её хоть как-то уменьшить крупные интернет игроки делают сервисы хостинга типовых библиотек с помощью которых можно закешировать их надолго и скачиваться они будут куда реже — если разработчики сайтов будут указывать библиотеки там, а не на своих ресурсах.

Примеры таких библиотек:

- Яндекс - http://api.yandex.ru/jslibs/

- Google - https://developers.google.com/speed/libraries/

- Microsoft- http://www.asp.net/ajaxlibrary/cdn.ashx

 

Но, у меня возникает резонный вопрос — отчего не в самом браузере? В самом деле — если есть стандартные библиотеки, если они часто используются, если за сутки веб-серфинга браузер скачивает их хотя бы однократно, то отчего же не загрузить их все прямо в браузер с самого начала.

 

Все что для этого требуется — это реорганизация загрузчика скриптов и специальные версии, например, браузеров на базе Chromium. Так чтобы при наличии ссылки на типовые библиотеки, вместо этого, он отдавал бы JS библиотеку из предварительно подобранных и уже находящихся в памяти.

Причем сделать так чтобы разработчики библиотек могли бы предлагать свои библиотеки для такого стандартного пакета.

 

Вот и получаем ускорение на том что:

a) Библиотеки более не скачиваются из сети.

б) Те что есть в стандартных библиотеках уже загружены в память и их не надо дополнительно интерпретировать.

 

Понятно что не все будет идеально, но ведь направление то понятное.

2. Проактивное кэширование всех DNS запросов

Скажите что такая история уже есть — когда загружаешь страницу некоторые браузеры сразу смотрят все ссылки и разрешают доменные имена которые там встречаются. Это, конечно, так, а вот предположим что можно сделать это еще эффективнее, ведь эту страницу уже кто-то загрузил, кто то их разрешил и запросы сделал. Как сделать так чтобы действие одного приносило бы пользу многим?

Скажите что такая история тоже уже есть — кеширующие DNS сервера. Запросы отправляются не куда-то а им и они максимально оперативно отвечают.

А вот и не совсем так. Есть путь который позволит избавиться от значительного числа обращений к кеширующим серверам — очень простой и понятный путь. Сервера должны обращаться к пользователю. Проактивное кеширование должно находится не в браузере, а в кеширующем DNS сервере. Он должен push-ать в клиента ранее разрезолвенные имена на регулярной основе. Раз в 3-4 часа обязательно и в фоновом режиме.

При этом список отресолвенных dns адресов может формироваться несколькими способами. Самый простой — это пушать 5000 наиболее популярных доменных адресов диффами. Второй способ — это индивидуальный поведенческий подбор адресов на основе накапливаемых запросов от клиента. Если видно что каждый день пользователь обращается к одному и тому же доменному адресу, то для него можно составить индивидуализированный список.

 

А попозже и все остальные идеи напишу.