О Москве, открытых данных и скепсисе

Вчера руководитель ДИТ Москвы Андрей Ермолаев общался на тему открытых данных с потенциальными разработчиками сервисов на их основе. Об этом уже написали Cnews — http://www.cnews.ru/news/top/index.shtml?2011/09/14/455374, там, в том числе, есть и мои комментарии.

Что не странно, меня на эту встречу московские власти не звали. Не странно поскольку я уже публиковал своё скептическое отношение к их программе Информационный город.  ИК великому моему сожалению, по тому что я читал на Cnews и знаю от участников этой встречи — мои опасения подтверждаются. Услышанное отнюдь не показывает что власти Москвы действительно хотят прозрачности и открытых данных.

Причин этому несколько.

Открытые данные — это на 90% организационный и на 10% технический вопрос

Что это означает? Это означает что для того чтобы раскрывать открытые данные по Москве на самом деле ненужно создавать каких бы то ни было информационных систем. Максимум можно взять один из нескольких бесплатных движков вроде CKAN или Data Catalog чтобы использовать его как реестр. Во всём остальном ключевое это обеспечить чтобы уже существующие данные публиковались в машиночитаемом виде. Данных то много! И многие из них, например, общемосковские справочники уже машиночитаемые. Нужны организационные и методические усилия к тому чтобы имеющиеся данные публиковались и были описаны их мета-данные, и совсем немного усилий на то чтобы работала система через которую такая публикация бы шла. И то не обязательно, на самом то деле.

Да, о технологиях, у меня ушли месяцы на то чтобы собрать открытые данные по России и всего 2-3 недели на то чтобы сделать первую версию OpenGovData.ru

Вопрос сырые-не сырые данные, на самом деле, не стоит

Упоминание о том что часть данных недостаточно хорошего качество — это один из излюбленных аргументов западных чиновников которые как и российские открытости часто сопротивляются. Так вот здесь есть несколько сторон рассмотрения. Во первых публикация данных это ещё способ вовлечения граждан в повышение их качества. Наглядный пример — это проект Clearspending от Sunlight Labs которые сопоставили данные госбюджетов в США с данными о контрактах и нашли множественные расхождения и ошибки. Благодаря этому ответственные структуры США сейчас занимаются повышением качества этой информации, а отчет Sunlight Labs рассматривался в конгрессе. Иначе говоря если государственные структуры хотят решить вопрос с сыростью данных — они ДОЛЖНЫ их публиковать, а не наоборот.

Другая сторона этой медали в том что, на самом деле, огромное количество данных уже публикуется, но в форматах непригодных для машиночитаемой обработки. Это PDF, Word, HTML документы, реестры различных объектов и так далее. В качестве примера я приводил ежедневные отчеты Мосгорздрава которые можно преобразовать в открытые данные и которые уже открыты. Так вот это не сырые данные! Они уже публикуются! Надо лишь дать им удобную форму.

Открытые данные != Государственные услуги

Это к вопросу о сервисной модели. Сервисная модель — это государственные услуги. Худшее что может произойти в Москве — это если они надумают делать доступ к банкам данных через API, в том числе и к тем данным которые надо отдавать полными датасетами. Почему это проблема? Во первых в этом нет фактической необходимости. Если будет полный массив данных то сделать из него API мы можем и сами. Во вторых это потребует существенных затрат на разработку подобных веб-сервисов, затрат не обоснованных и средства можно было бы потратить на что-то более полезное в городе.

О желании чиновников знать о том что будет происходить с данными

А вот это как раз один из ключевых вопросов над которыми все чиновники ломают голову. Переводя с русского на русский это звучит так — «Мы хотим быть уверены что Вы не будете использовать данные чтобы критиковать нас». Иначе говоря это попытка обеспечить контроль за использованием информации. У этой попытки может быть и благородная причина выражаемая в том что данные должны быть приоритезированы и в первую очередь нужно публиковать те которые граждане точно будут использовать. Во всех случаях это решается через публичные консультации и сбор идей от граждан. Так это делается в Великобритании — http://data.gov.uk/ideas аналогичным образом и в других странах.

О первоочередных данных и данных о такси

По поводу того что в первую очередь хотят опубликовать данные о такси в Москве, то это просто смешно. Как я уже говорил данных в структурах Москвы очень много. Чиновники, будь у них такое желание, могли бы посмотреть как публикуют данные в других крупных городах таких как Нью-Йорк, Париж, Торонто, Берлин, Сан-Франциско, Чикаго, Филадельфия и ещё паре десятков.  А также посмотреть на опросы того какие данные наиболее востребованы гражданами. Как это делали в Socrata, как это делали в Великобритании.

А данные о такси — это полная ерунда. Это несопоставимо даже близко с теми данными что востребованы гражданами и что уже публикуются госорганами.

Я могу навскидку привести десятки примеров того что уже есть и московские власти могли бы публиковать:

  • списки всех разрешений на строительство включая геокоординаты объектов в форматах KML,CSV или XML
  • списки всех объектов культурного наследия
  • списки всех государственных структур на территории Москвы с адресами и координатами включая:
    • отделения милиции и ГИБДД
    • отделения налоговой службы
    • отделения ПФР
    • городские ночлежки для бездомных
    • отделения службы занятости
    • ветеринарные клиники
    • государственные и муниципальные аптеки
    • государственные и муниципальные больницы
    • травмпункты
  • бюджет города Москвы, хотя бы, за последние 5 лет в XML или CSV
  • государственные контракты структур на территории города Москвы в XML
  • статистика города, результаты переписей населения 2002 и 2010 г. , микропереписей
  • реестр санитарных проверок пищевых предприятий города
  • реестр получателей субсидий для малых инновационных компаний
  • реестр домов предназначенных для сноса
  • списки отключения горячей воды домов с датами отключения
  • по транспорту:
    • все маршруты, адреса и координаты наземного транспорта
    • трансляция маячков ГЛОНАСС через веб-сервисы в реальном времени (единственный случай где нужны веб-сервисы)
    • данные по московскому метрополитену — списки станций и линий, по каждой станции информации о наличии там аптек, объектов быстрого питания и банкоматов
    • данные о закрытых станциях, временно ограниченных переходах в метрополитене.
    • иная транспортнаая информация, включая статистику движения

И многое другое. Я могу долго продолжать.

К счастью, на этой встрече был Максим Дубинин, человек стоящий за проектом Гис-Лаб — http://gis-lab.info/ и хорошо знающего что такое геоданные и открытые данные в принципе. Максим также прокомментировал Cnews о геоданных, он упоминает важный британский опыт с их раскрытием. Почитайте Максима обязательно, он описал свои впечатления здесь — http://gis-lab.info/blog/2011-09/ermolaev/

Впрочем, несмотря на свой скепсис, я вполне допускаю что из этой затеи тот или иной толк будет. Потому как понятие открытых данных начинает поселяться в умах людей и чиновников в частности.

 

About This Author

  • http://twitter.com/Pautinich Kirill Vavilov

    Не очень понятно что делать с реально большими датасетами с ежедневным обновлением. Пример — кадастр и реестра прав — сейчас около 60 млн записей.  Для таких наборов данных нужны стандартные API доступа. Вопрос — какие?

    • http://ivan.begtin.name Ivan Begtin

      Реестры прав — это как и реестры юр. лиц. Данные которые имеют исключительно коммерческую ценность. Поэтому здесь правильное решение — это публичные консультации города и бизнеса и общественных организаций по доступу к этой информации. Главное чтобы решения не принимались за закрытыми стенами.

      • http://twitter.com/Pautinich Kirill Vavilov

        Готовится НПА по доступу к информационному ресурсу Реестра прав и Кадастра. Хотим с вами обсудить вопросы API доступа и сам порядок доступа к ресурсу. Вам это интересно?

        • http://ivan.begtin.name Ivan Begtin

          Да, конечно, всё что касается открытых данных мне интересно.

    • http://www.facebook.com/maxim.dubinin Maxim Dubinin

      в базе OSM — миллиарды записей с ежесекундным обновлением

Яндекс.Метрика