О данных, их качестве и использование выборок

Работу с данными, особенно с большими и/или сложными их массивами можно сравнить, до некоторой степени, с приготовлением пищи. 

Например, чтобы изготовить булочки с корицей и  черносливом необходим не только главный ингридиент — мука, а ещё и длительный процесс по подготовке наиболее вкучных составщяющих как то сбор корицы, и выращивание и сушка плодовых слив.

Аналогично и здесь. Работая со структурированными выборками их качество может быть существенно повышено за счёт отдельного приготовления наиболее вкусных ингридиентов — связующих справочников и ключей перехода и связи с другими выборками данных. Это обогащение связями и ключами перехода собственно и позволяет рассматривать большую выборку с различных срезов.

Но эти связи бывают неочевидны, поскольку зачастую предметные и классификационные выборки могут и не иметь прямых точек пересечения и тут мы можем говорить о производных инструментах, исскуственно порождённых справочников позволяющих подобное сведение данных. 

Расшифровка кодов, которую я упоминал ранее, это один из примеров того как эти справочники порождаются — анализом составных элементов кода и формированием информационных срезов на их основе.  Так зная название,  ИНН и КПП организации можно определить её организационно-правовую форму, регион местонахождение, номер налоговой инспекции по месту регистрации и форму регистрации по коду постановки на учёт (филиал ли или головное ведомство) и это без обращения к внешним источникам данных для уточнения.

При том что это сверхпростой пример, особенность в том что наличие у сущности атрибутов позволяет производить целенаправленное обогащение её данных за счёт определения типа атрибута, а в свою очередь тип атрибута определяет и его структуру и связи с другими массивами данных и может определять средства последующей визуализации.

Процессы анализа и подходов к обогащению данных, также поддаются систематизации и уложению в общую модель вплоть до того что за счёт предварительного анализа накопленных и проанализированных справочников можно анализируя новый справочник автоматически рекомендовать его связку с перечнем имеющихся и анализировать входящие в него данные на предмет типовых форм описания данных как в справочном так и текстовом виде.

За счёт конечности числа форм и шаблонов представления информации, обогащение данных может если не доведено до автоматизма, то значительно автоматизировано.

About This Author

  • Николай Бабич

    Иван, объясните пожалуйста, на основании чего Вы полагаете что число форм и шаблонов конечно? Ведь связи данных по атрибутам не всегда возможны (на мой взгляд).

  • http://ivan.begtin.name ivbeg

    Они конечны потому как конечно число людей, объёмы и формы порождаемых ими знаний. Мы все ограничены нашими органами восприятия и передачи информации, ведь, к примеру мы передаём и фиксируем информации через текст или аудио-сообщения, а не астральными пучками образов. В свою очередь формы передачи и хранения информации задают правила её кодирования.

    Если же в кратце, то шаблоны и формы работы с информацией проистекают из шаблонов мышления.

Яндекс.Метрика