Data.gov.ru — размышления и обобщённая основа создания ресурса

Продолжая тему возможности пояления data.gov.ru предлагаю к публичному обсуждению мои собственные мысли на эту тему. Описания неуглублённые, а именно что общие для понимания направления действий. По возможности я постарался избежать бюрократической терминологии, но полного отсутствия вогонечности официальных терминов всё равно не удаётся.

Дальнейшие рассуждения я разделю на следующие разделы:

— зачем нужен ресурс data.gov.ru;

— какие данные должны  в нём содержаться;

— как обеспечить сбор информации;

— как обеспечить предоставление информации;

— проблемы и ограничения;

 

Зачем нужен ресурс Data.gov.ru

Цель создания Data.gov.ru — это создание единого реестра данных, открытого публичного репозитария и систематизированного каталога информации раскрываемой государством.

Целей его появления можно выделить несколько:

1. Создание централизованного ресурса для упрощения задач работы со справочниками и реестрами при создании любых государственных информационных систем. Например,  в части синхронизации общероссийских и региональных справочников.

2. Предоставление гражданам ресурса для удобного поиска и использования информации исходящей от государства.

3. Предоставление массивов данных для исследовательских задач по обработке, классификации и визуализации данных молодыми учёными.

4. Популяризация, в том числе грантами, создания интернет проектов использующих информацию раскрываемую государством привлекая общественный интерес к ключевым государственным активностям.

5. Увеличение влияния государства на информационное наполнение РуНета

Какие данные должны в нём содержаться

В реестре реестров могут и должны присутствовать информационные массивы справочников, реестров, классификаторов и временных данных (timed data) включая все версии массива данных со всеми изменениями и возможностью получения полной информации по каждой версии. Сложные данные, как, например, реестры описание которых включает ограниченное число ведомственных справочников, должны быть систематизированы как справочники входящие в общий массив данных, например, как для справочника БИК РФ существуют внутренние справочники расшифровки полей UER, PZN и ещё ряда других.  При этом каждый справочник должен обладать метаописанием и  OWL/RDF(S) схемой

Систематизацию информации в Data.gov.ru можно разделить на следующие категории.

По месту хранения:

1. Данные размещённые только в центральном репозитории Data.gov.ru в этом случае массивы данных на data.gov.ru являются эталонными

2. Данные размещённые в иных репозиториях, зеркалируемые на data.gov.ru

3. Данные размещаемые в иных репозиториях со своей спецификой хранения и доступа — упоминаемые в реестре государственных реестров на data.gov.ru включая описание особенносте доступа, форматов данных и так далее.

4. Веб сервисы на иных государственных ресурсах в форматах и интерфейсах поддерживающих возможность обращения к ним используя сервисы data.gov.ru как прокси.

5. Веб сервисы на иных государственных ресурсах обладающих собственными особенностями доступа и использования упоминаемые в реестре веб сервисов data.gov.ru

По доступности:

1. Информация являющаяся общедоступной и распространяемой без ограничений — общероссийские, региональные и ведомственные справочники и классификаторы, а также публичные реестры раскрываемые в сети Интернет в обязательном порядке.

2. Информация доступ к которой свободен, но регламентирован обязательностью идентификации запрашивающей системы/персоны и, возможно, ограничениями на перераспространение и доступ. Например, это может касаться информационных реестров значительных по объёму.

3. Информация доступ к которой предоставляется  рамках платных государственных услуг. Эта информация может быть разделена на массивы данных раскрываемые на платной основе с ограничениями на перераспространение  и информационными системами предоставляющими информационные срезы по отдельным запросам, например, подробные выписки из ЕГРЮЛ подпадают под эту категорию. 

Как обеспечить сбор информации

   Необходимо понимание что организационные меры по сбору информации самые долгие. Так если до сих пор не появились не то что RDF, а даже XML описания многих из реестров и справочников, то надеятся на их скорое появление даже если/когда data.gov.ru появится — не стоит. Не говоря уже о том что раскрытие разнородной информации в централизованном реестре десятками госучреждений будет существенно сложнее от размещения однородной информации тысячами госучреждений, как это сейчас происходит, например, со стат. отчетностью и госзакупками. 

Отсюда организация сбора информации должна являтся итеративным и эволюционирующим процессом. На первом этапе должны быть перечислены и систематизированы основные массивы данных раскрываемых государством. На втором этапе предусмотрены регламенты и форматы предоставления информации о раскрываемых данных. Переводя с руского на русский — это означает что не обязательно что данные в массие данных сразу будут в RDF формате, для начала будет достаточно чтобы в RDF описавался формат, структура массива, правила доступа к нему и так далее. Сам массив может быть хоть в DBF, хоть в CSV, хоть в XML.

Перевод массивов данных в RDF формат произодится уже на следующем этапе. Открытым вопросом остаётся как обеспечить метаописание вебсервисов для доступа к реестрам данных значительного объёма (более 1 миллиона записей) и к массивам данных доступ к которым осуществляется на платной основе, но и эта задача решается проработкой метаописаний.

Как обеспечить предоставление информации

Раскрытие информации в рамках data.gov.ru должно начинаться с непосредственно определения того что под этим раскрытием понимается. Раскрытие данных является — предоставление в открытом публичном доступе в сети Интернет информации раскрываемой государственными учреждениями для ознакомления и использования как гражданами в режиме навигации и поиска информации, так и предоставление информации в машиночитаемых форматах для последующего использования в автоматических и автоматизрованных системах. 
Раскрытие информации должно предусматривать соблюдение следующих условий:
1. Предоставление машиночитаемых данных в форматах RDF, XML, CSV, YAML, DBF(?)
2. Обеспечение возможности автоматической машинной навигации по массивам данных. А то есть, должна быть возможность получить список всех раскрываемых массивов данных и, по уникальному коду массива, запросить его как полностью, так и только мета информацию о нём.
3. Должно быть обеспечено хранение всех версий одного и того же справочника 
4. Должно быть обеспечено ведение реестра типов полей и реестра полей присутствующих в справочниках и реестрах
5. Должно быть предусмотрено ведение и раскрытие связей справочников и отдельных полей справочников между собой. Например, справочник кодов регионов автомобилей сильно пересекается и происходит от справочника регионов по статье Конституции их перечисляющей, но, в значительной степени, уже от него отличается в виду нехватки номеров. 
6. Для реестров обрадающих чётким временем создания и изменения объектов — обеспечение публикации как временных данных, с разбивкой по календарным датам и размещении в открытом доступе посредством FTP и HTTP протоколов.

Проблемы и ограничения

1. Основная проблема на сегодняшний день — это низкий уровень систематизации раскрываемой государством информации. Формирование реестра метаописаний, может потребовать понимания специфики отраслей раскрывающих справочники ведомств и не обойдётся без формирования комиссий и прочей бюрокрактии. Тем не менее значительная работа может быть осуществлена даже без учёта специфики за счёт обобщённой систематизации уже раскрытых ведомствами данных.

2. Другая немаловажная проблема — низкая доступность общероссийских справочников. До сих пор все основные общероссийские справочники крайне сложно найти в открытом доступе и в актуальном состоянии и рецепт преодоления этой болезни пока ещё не найден. При том что с ведомственными и региональными справочниками, как правило, таких проблем нет. Например, на сайте www.mosclassific.ru — можно после авторизации скачать несколько хорошо структурированных общемосковских справочников в форматах DBF и XML, а вот общероссийские справочники почему-то нельзя. Можно предположить что у региональных госучреждений ответственных за работу с общероссийскими классификаторами есть органичения на их перераспространение.

3.  Малая «государственная значимость» задачи. Несмотря на почти очевидную пользу от появления подобного ресурса сейчас тренды сдвинуты несколько в иную плоскость — государство в лице ответстенных ведомств активно систематизирует информационные системы и создаёт порталы услуг. Организация систематизированного раскрытия информации государственными органами потребует подготовки чётких аргументов в сторону обеспечения подобной работы и, с высокой долей вероятности, на начальных стадиях не сможет происходить за счёт государственного финансирования. Эта проблема может быть преодолена созданием некоммерческого ресурса систематизации раскрытия информации и демонстрация преобразования ограниченного числа справочников и реестров в структурированные RDF описания для повторного использоания.

About This Author

  • http://kopilkaz.blogspot.com/ Сергей

    По моему, количество мета-информации, которую генерирует гос-аппарат находится где-то за границей добра и зла.. В советское время под ее формализацию создали бы целый НИИОВЛИРДФ.
    Просто передо мной сейчас грозит встать похожая задача.. тоже с государством связанная. Количество работы впечатляет.

  • http://ivan.begtin.name ivbeg

    Мета-информации много, но задача не столь уж нерешаемая, поскольку сама эта мета-информация поддается систематизации. Там куда больше проблем организационных чем технических.

  • http://max.bukurov.ru/ Maxim Bukurov

    Малыми, малыми итерациями. И только открытые стандарты

  • AP

    Да, малыми итерациями. Начать надо с раскрытия реестра самих госорганов, подпадающих под закон, с методологии регулярной актуализации этого реестра.

    • http://ivan.begtin.name ivbeg

      Про реестр госорганов это интересная мысль. Я думаю что он скоро будет создан.

  • http://ivanko.buro.com.ru ivanko

    Вообще, RDF — это замечательно, однако есть проблемы с историческими данными. Насколько я знаю, есть отдельный концепт OWL-Time, который вводит понятие периода действия, но для его использования необходим более простой инструментарий. Это я к чему — маленькая технологическая проблема может привести в дальнейшем к перестройке всей логике реестра.

    Касательно содержания статьи — модель прекрасна и изумительна. Но — испорчен я бюрократическим вопросом — кто несет ответственность за предоставленные данные. Т.е. даже не ответственность, а модель работы с источниками информации — моя практика показывает, что обязанность публикации (т.е. предоставления данных) не бывает однонаправленной. Должен быть определен потребитель информации и регламенты подтверждения данных. Не говоря уже об идентификации (комментарий #5)

Яндекс.Метрика