OpenGovData.ru: Основные принципы организации данных и развития
Продолжая тему OpenGovData.ru - я продолжу несколько неформальное представление проекта и того как предполагается наполнять его данными и поддерживать.
Я постараюсь уделить больше внимания именно тому как и что будет происходить в развитии и ответить на ряд уже звучавших вопросов.
1. Долгосрочные цели — RDF/OWL/LinkedData
Долгосрочные цели проекта:
— это перевод собираемых данных в формат пригодный к машинной обработке и навигации фактически -построение Россиийского сегмента Linked Data в части общедоступной государственной информации.
— подготовку спецификаций и рекомендаций по законодательному закреплению раскрытия данных в машиночитаемых форматах;
— информационное освещение вопросов раскрытия данных государством;
2. Движение малыми итерациями
Ответ на вопрос почему же не сразу RDF?
Достичь всеобщей RDFизации и структурированности в один прыжок — это практически невозможно. Невозможно и по той причине что прежде чем придать данным подобную форму их надо в принципе получить. Проект будет двигаться малыми итерациями — будут собраны источники информации, будут определены их основные типы и ответственные организации, будет преобразование информации в промежуточные форматы на основе которых далее массивы данных будут сводится к единым спецификациям.
3. Сбор источников и классификация источников
Это то то происходит сейчас пока идёт наполнение разделе с перечнем источников данных http://opengovdata.ru/sources/ . Это начальная и важная часть работы поскольку на сегодняшний день работа с публичными данными крайне бессистемна. Она бессистемна даже на уровне отдельных ведомств не говоря уже о государственных органах вцелом.
Помимо сбора источников информации будет происходить и их классификация, как то частота обновления, есть ли обновления в принципе (статический ли источник) и другая классификационная информация.
4. Разнородность информации — постепенное преодоление
Информация представляемая государственными органами да и вообще кем бы то ни было крайне разнородна. При том что в подавляющем числе случаев мы имеем дело с простыми табличными данными, тем не менее иногда присутствуют и сложные структуры — например данные о госзакупках или о строительстве.
Также имеются свои особенности у данных уже доступных в структурированной форме, данных огромного объема, данных содержащих бинарные образы и так далее.
5. Формирование банка данных
Для перехода от источников информации к непосредственно предоставлению массиво данных вскоре я представлю первый драфт спецификации и несколько массивов данных согласно этой спецификации. После появления спецификации я надеюсь на обсуждение, её обновление по результатам обсуждения и в дальнейшем раскрытие данных по этим спецификациям.
Предварительно могу озвучить 3 подхода к наполнению банка данных:
- ручная или полуавтоматическая подготовка данных;
может применятся для источников непригодных для автоматической обработки
- автоматическое распознавание и обновление;
внутри системы или в виде внешних агентов ряд программ/скриптов будут обрабатывать изначально неструктурированные данные и обновлять/пополнять ранее опубликованные данные
- импорт данных раскрываемых в специфицированных форматах;
спецификация раскрытия позволит единожды зарегистрировав источник данных предоставлять их в общий банк. Принципы работы здесь будут близки к используемому ныне стандарту Sitemaps используемому в веб-разработке. Если или когда появятся государственные органы готовые раскрывать информацию в структурированной форме — они смогут это сделать.
6. Необработанные и первичные данные
Будут ли доступны необработанные и первичные данные в OpenGovData.ru? Их доступность будет зависеть исключительно от их объемов, но безусловно во всех случаях когда это можно будет обеспечить — это будет сделано. Одна из причин этого в том сейчас в России отсутствует какая-либо политика раскрытия информации — в результате, при обновлении государственного сайта или при реорганизации ведомств иногда огромные массивы данных просто исчезают, иногда безвозвратно.
7. Визуализация
Нужно ли обеспечивать визуализацию данных? На эту тему рекомендую почитать — Should Data.gov visualize? Probably not. Скажу больше — есть масса государственных сайтов которые дают графики вместо информации. Плохие ли или хорошие графики, но именно они как раз и ненужны — нужны первичные данные.
8. Открытость и доступность
Все данные проекта будут доступны без каких-либо ограничений как сейчас, так и в дальнейшем.
9. Другие темы
Поделиться в соц. сетях
-
http://gu.by/ Маргарита
-
http://www.messagemagic.ru/ Коммерсант
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (928)
- eGov (947)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (52)
- открытые данные (11)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (946)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






