OpenGovData.ru: Основные принципы организации данных и развития

Продолжая тему OpenGovData.ru  — я продолжу несколько неформальное представление проекта и того как предполагается наполнять его данными и поддерживать.

Я постараюсь уделить больше внимания именно тому как и что будет происходить в развитии и ответить на ряд уже звучавших вопросов.

1. Долгосрочные цели — RDF/OWL/LinkedData

Долгосрочные цели проекта:

   — это перевод собираемых данных в формат пригодный к машинной обработке и навигации фактически -построение Россиийского сегмента Linked Data в части общедоступной государственной информации.

   — подготовку спецификаций и рекомендаций по законодательному закреплению раскрытия данных в машиночитаемых форматах;

   — информационное освещение вопросов раскрытия данных государством;

2. Движение малыми итерациями

Ответ на вопрос почему же не сразу RDF?

    Достичь всеобщей RDFизации и структурированности в один прыжок — это практически невозможно. Невозможно и по той причине что прежде чем придать данным подобную форму их надо в принципе получить.  Проект будет двигаться малыми итерациями — будут собраны источники информации, будут определены их основные типы и ответственные организации, будет преобразование информации в промежуточные форматы на основе которых далее массивы данных будут сводится к единым спецификациям.

3. Сбор источников и классификация источников

Это то то происходит сейчас пока идёт наполнение разделе с перечнем источников данных http://opengovdata.ru/sources/ . Это начальная и важная часть работы поскольку на сегодняшний день работа с публичными данными крайне бессистемна. Она бессистемна даже на уровне отдельных ведомств не говоря уже о государственных органах вцелом.

Помимо сбора источников информации будет происходить и их классификация, как то частота обновления, есть ли обновления в принципе (статический ли источник) и другая классификационная информация.

4. Разнородность информации — постепенное преодоление

Информация представляемая государственными органами да и вообще кем бы то ни было крайне разнородна. При том что в подавляющем числе случаев мы имеем дело с простыми табличными данными, тем не менее иногда присутствуют и сложные структуры — например данные о госзакупках или о строительстве. 

Также имеются свои особенности у данных уже доступных в структурированной форме, данных огромного объема, данных содержащих бинарные образы и так далее.

5. Формирование банка данных

Для перехода от источников информации к непосредственно  предоставлению массиво данных вскоре я представлю первый драфт спецификации и несколько массивов данных согласно  этой спецификации. После появления спецификации я надеюсь на обсуждение, её обновление по результатам обсуждения и  в дальнейшем раскрытие данных по этим спецификациям.

Предварительно могу озвучить 3 подхода к наполнению банка данных:

— ручная или полуавтоматическая подготовка данных;

   может применятся для источников непригодных для автоматической обработки

— автоматическое распознавание и обновление;

  внутри системы или в виде внешних агентов ряд программ/скриптов будут обрабатывать изначально неструктурированные данные и обновлять/пополнять ранее опубликованные данные

— импорт данных раскрываемых в специфицированных форматах;

 спецификация раскрытия позволит единожды зарегистрировав источник данных предоставлять их в общий банк. Принципы работы здесь будут близки к используемому ныне стандарту Sitemaps используемому в веб-разработке. Если или когда появятся государственные органы готовые раскрывать информацию в структурированной форме — они смогут это сделать.

6. Необработанные и первичные данные

Будут ли доступны необработанные и первичные данные в OpenGovData.ru? Их доступность будет зависеть исключительно от их объемов, но безусловно во всех случаях когда это можно будет обеспечить — это будет сделано. Одна из причин этого в том сейчас в России отсутствует какая-либо политика раскрытия информации — в результате, при обновлении государственного сайта или при реорганизации ведомств иногда огромные массивы данных просто исчезают, иногда безвозвратно.

7. Визуализация

Нужно ли обеспечивать визуализацию данных? На эту тему рекомендую почитать — Should Data.gov visualize? Probably not.  Скажу больше — есть масса государственных сайтов которые дают графики вместо информации. Плохие ли или хорошие графики, но именно они как раз и ненужны — нужны первичные данные.

8. Открытость и доступность

Все данные проекта будут доступны без каких-либо ограничений как сейчас, так и в дальнейшем. 

 

 

9.  Другие темы

   Начиная OpenGovData.ru я сознательно сделал начальный акцент ресурса именно на машиночитаемости данных. Во первых поскольку здесь царит практически вакуум информации и активности, во вторых эту тему я знаю не по наслышке.
   Тем не менее есть ещё ряд тем которые так или иначе на OpenGovData.ru будут затронуты. Например,
удобство информации на официальных сайтах и соблюдение законов о раскрытии, в частности, 8-ФЗ.
Моё личное мнение что мониторинг раскрытия и оценка его качества может осуществляться только и исключительно на следующих принципах:
  — публичная процедура сбора и группировки критериев оценки и их веса на качество раскрытия;
  — публичная процедура оценки качества раскрытия по критериям. 
  — открытое соотнесение любого рассматриваемого веб-сайта по данными критериям с последующей публикацией 
  — машиночитаемость результатов анализа;
  — доступность и воспроизводимость первичных данных анализа.
    Я знаю что мониторинг госсайтов требованиям 8-ФЗ был запланирован в программе Электронная Россия на конец 2009 года, хотя и не знаю кто именно его будет осуществлять. Надеюсь лишь что результаты будут доступны онлайн и их можно будет разместить и на OpenGovData.ru. 
    Относительно других мониторингов, например, того что делал/делает Институт Свободы Информации — я ещё раз выражу моё да и не только моё мнение.  До тех пор пока институт занимался доступностью  информации о ГОСТах я относился к его деятельности с определённым уважением,   с того момента как они начали публиковать свои «рейтинги открытости» по закрытым методикам и критериям с упоминанием анонимных «экспертов» иначе как самодискридитацией их деятельности я это назвать не могу.  Оценка открытости без открытости самой оценки — это нонсенс. 
About This Author

  • http://gu.by/ Маргарита

    «7. Визуализация
    Нужно ли обеспечивать визуализацию данных? На эту тему рекомендую почитать — Should Data.gov visualize? Probably not. Скажу больше — есть масса государственных сайтов которые дают графики вместо информации. Плохие ли или хорошие графики, но именно они как раз и ненужны — нужны первичные данные.»

    Почему ненужны графики? По моему без них не обойтись!

  • http://www.messagemagic.ru/ Коммерсант

    Графики нужны. Маргарита права.

Яндекс.Метрика