Data.gov.ru — размышления и обобщённая основа создания ресурса
Продолжая тему возможности пояления data.gov.ru предлагаю к публичному обсуждению мои собственные мысли на эту тему. Описания неуглублённые, а именно что общие для понимания направления действий. По возможности я постарался избежать бюрократической терминологии, но полного отсутствия вогонечности официальных терминов всё равно не удаётся.
Дальнейшие рассуждения я разделю на следующие разделы:
- зачем нужен ресурс data.gov.ru;
- какие данные должны в нём содержаться;
- как обеспечить сбор информации;
- как обеспечить предоставление информации;
- проблемы и ограничения;
Зачем нужен ресурс Data.gov.ru
Цель создания Data.gov.ru — это создание единого реестра данных, открытого публичного репозитария и систематизированного каталога информации раскрываемой государством.
Целей его появления можно выделить несколько:
1. Создание централизованного ресурса для упрощения задач работы со справочниками и реестрами при создании любых государственных информационных систем. Например, в части синхронизации общероссийских и региональных справочников.
2. Предоставление гражданам ресурса для удобного поиска и использования информации исходящей от государства.
3. Предоставление массивов данных для исследовательских задач по обработке, классификации и визуализации данных молодыми учёными.
4. Популяризация, в том числе грантами, создания интернет проектов использующих информацию раскрываемую государством привлекая общественный интерес к ключевым государственным активностям.
5. Увеличение влияния государства на информационное наполнение РуНета
Какие данные должны в нём содержаться
В реестре реестров могут и должны присутствовать информационные массивы справочников, реестров, классификаторов и временных данных (timed data) включая все версии массива данных со всеми изменениями и возможностью получения полной информации по каждой версии. Сложные данные, как, например, реестры описание которых включает ограниченное число ведомственных справочников, должны быть систематизированы как справочники входящие в общий массив данных, например, как для справочника БИК РФ существуют внутренние справочники расшифровки полей UER, PZN и ещё ряда других. При этом каждый справочник должен обладать метаописанием и OWL/RDF(S) схемой
Систематизацию информации в Data.gov.ru можно разделить на следующие категории.
По месту хранения:
1. Данные размещённые только в центральном репозитории Data.gov.ru в этом случае массивы данных на data.gov.ru являются эталонными
2. Данные размещённые в иных репозиториях, зеркалируемые на data.gov.ru
3. Данные размещаемые в иных репозиториях со своей спецификой хранения и доступа — упоминаемые в реестре государственных реестров на data.gov.ru включая описание особенносте доступа, форматов данных и так далее.
4. Веб сервисы на иных государственных ресурсах в форматах и интерфейсах поддерживающих возможность обращения к ним используя сервисы data.gov.ru как прокси.
5. Веб сервисы на иных государственных ресурсах обладающих собственными особенностями доступа и использования упоминаемые в реестре веб сервисов data.gov.ru
По доступности:
1. Информация являющаяся общедоступной и распространяемой без ограничений — общероссийские, региональные и ведомственные справочники и классификаторы, а также публичные реестры раскрываемые в сети Интернет в обязательном порядке.
2. Информация доступ к которой свободен, но регламентирован обязательностью идентификации запрашивающей системы/персоны и, возможно, ограничениями на перераспространение и доступ. Например, это может касаться информационных реестров значительных по объёму.
3. Информация доступ к которой предоставляется рамках платных государственных услуг. Эта информация может быть разделена на массивы данных раскрываемые на платной основе с ограничениями на перераспространение и информационными системами предоставляющими информационные срезы по отдельным запросам, например, подробные выписки из ЕГРЮЛ подпадают под эту категорию.
Как обеспечить сбор информации
Необходимо понимание что организационные меры по сбору информации самые долгие. Так если до сих пор не появились не то что RDF, а даже XML описания многих из реестров и справочников, то надеятся на их скорое появление даже если/когда data.gov.ru появится — не стоит. Не говоря уже о том что раскрытие разнородной информации в централизованном реестре десятками госучреждений будет существенно сложнее от размещения однородной информации тысячами госучреждений, как это сейчас происходит, например, со стат. отчетностью и госзакупками.
Отсюда организация сбора информации должна являтся итеративным и эволюционирующим процессом. На первом этапе должны быть перечислены и систематизированы основные массивы данных раскрываемых государством. На втором этапе предусмотрены регламенты и форматы предоставления информации о раскрываемых данных. Переводя с руского на русский — это означает что не обязательно что данные в массие данных сразу будут в RDF формате, для начала будет достаточно чтобы в RDF описавался формат, структура массива, правила доступа к нему и так далее. Сам массив может быть хоть в DBF, хоть в CSV, хоть в XML.
Перевод массивов данных в RDF формат произодится уже на следующем этапе. Открытым вопросом остаётся как обеспечить метаописание вебсервисов для доступа к реестрам данных значительного объёма (более 1 миллиона записей) и к массивам данных доступ к которым осуществляется на платной основе, но и эта задача решается проработкой метаописаний.
Как обеспечить предоставление информации
Проблемы и ограничения
1. Основная проблема на сегодняшний день — это низкий уровень систематизации раскрываемой государством информации. Формирование реестра метаописаний, может потребовать понимания специфики отраслей раскрывающих справочники ведомств и не обойдётся без формирования комиссий и прочей бюрокрактии. Тем не менее значительная работа может быть осуществлена даже без учёта специфики за счёт обобщённой систематизации уже раскрытых ведомствами данных.
2. Другая немаловажная проблема — низкая доступность общероссийских справочников. До сих пор все основные общероссийские справочники крайне сложно найти в открытом доступе и в актуальном состоянии и рецепт преодоления этой болезни пока ещё не найден. При том что с ведомственными и региональными справочниками, как правило, таких проблем нет. Например, на сайте www.mosclassific.ru — можно после авторизации скачать несколько хорошо структурированных общемосковских справочников в форматах DBF и XML, а вот общероссийские справочники почему-то нельзя. Можно предположить что у региональных госучреждений ответственных за работу с общероссийскими классификаторами есть органичения на их перераспространение.
3. Малая «государственная значимость» задачи. Несмотря на почти очевидную пользу от появления подобного ресурса сейчас тренды сдвинуты несколько в иную плоскость — государство в лице ответстенных ведомств активно систематизирует информационные системы и создаёт порталы услуг. Организация систематизированного раскрытия информации государственными органами потребует подготовки чётких аргументов в сторону обеспечения подобной работы и, с высокой долей вероятности, на начальных стадиях не сможет происходить за счёт государственного финансирования. Эта проблема может быть преодолена созданием некоммерческого ресурса систематизации раскрытия информации и демонстрация преобразования ограниченного числа справочников и реестров в структурированные RDF описания для повторного использоания.
Поделиться в соц. сетях
-
http://kopilkaz.blogspot.com/ Сергей
-
http://ivan.begtin.name ivbeg
-
http://max.bukurov.ru/ Maxim Bukurov
-
AP
-
http://ivan.begtin.name ivbeg
-
http://ivanko.buro.com.ru ivanko
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






