О данных, их качестве и использование выборок
Работу с данными, особенно с большими и/или сложными их массивами можно сравнить, до некоторой степени, с приготовлением пищи.
Например, чтобы изготовить булочки с корицей и черносливом необходим не только главный ингридиент — мука, а ещё и длительный процесс по подготовке наиболее вкучных составщяющих как то сбор корицы, и выращивание и сушка плодовых слив.
Аналогично и здесь. Работая со структурированными выборками их качество может быть существенно повышено за счёт отдельного приготовления наиболее вкусных ингридиентов — связующих справочников и ключей перехода и связи с другими выборками данных. Это обогащение связями и ключами перехода собственно и позволяет рассматривать большую выборку с различных срезов.
Но эти связи бывают неочевидны, поскольку зачастую предметные и классификационные выборки могут и не иметь прямых точек пересечения и тут мы можем говорить о производных инструментах, исскуственно порождённых справочников позволяющих подобное сведение данных.
Расшифровка кодов, которую я упоминал ранее, это один из примеров того как эти справочники порождаются — анализом составных элементов кода и формированием информационных срезов на их основе. Так зная название, ИНН и КПП организации можно определить её организационно-правовую форму, регион местонахождение, номер налоговой инспекции по месту регистрации и форму регистрации по коду постановки на учёт (филиал ли или головное ведомство) и это без обращения к внешним источникам данных для уточнения.
При том что это сверхпростой пример, особенность в том что наличие у сущности атрибутов позволяет производить целенаправленное обогащение её данных за счёт определения типа атрибута, а в свою очередь тип атрибута определяет и его структуру и связи с другими массивами данных и может определять средства последующей визуализации.
Процессы анализа и подходов к обогащению данных, также поддаются систематизации и уложению в общую модель вплоть до того что за счёт предварительного анализа накопленных и проанализированных справочников можно анализируя новый справочник автоматически рекомендовать его связку с перечнем имеющихся и анализировать входящие в него данные на предмет типовых форм описания данных как в справочном так и текстовом виде.
За счёт конечности числа форм и шаблонов представления информации, обогащение данных может если не доведено до автоматизма, то значительно автоматизировано.
Поделиться в соц. сетях
-
Николай Бабич
-
http://ivan.begtin.name ivbeg
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






