Фев 26
О данных, их качестве и использование выборок
Работу с данными, особенно с большими и/или сложными их массивами можно сравнить, до некоторой степени, с приготовлением пищи.
Например, чтобы изготовить булочки с корицей и черносливом необходим не только главный ингридиент – мука, а ещё и длительный процесс по подготовке наиболее вкучных составщяющих как то сбор корицы, и выращивание и сушка плодовых слив.
Аналогично и здесь. Работая со структурированными выборками их качество может быть существенно повышено за счёт отдельного приготовления наиболее вкусных ингридиентов – связующих справочников и ключей перехода и связи с другими выборками данных. Это обогащение связями и ключами перехода собственно и позволяет рассматривать большую выборку с различных срезов.
Но эти связи бывают неочевидны, поскольку зачастую предметные и классификационные выборки могут и не иметь прямых точек пересечения и тут мы можем говорить о производных инструментах, исскуственно порождённых справочников позволяющих подобное сведение данных.
Расшифровка кодов, которую я упоминал ранее, это один из примеров того как эти справочники порождаются – анализом составных элементов кода и формированием информационных срезов на их основе. Так зная название, ИНН и КПП организации можно определить её организационно-правовую форму, регион местонахождение, номер налоговой инспекции по месту регистрации и форму регистрации по коду постановки на учёт (филиал ли или головное ведомство) и это без обращения к внешним источникам данных для уточнения.
При том что это сверхпростой пример, особенность в том что наличие у сущности атрибутов позволяет производить целенаправленное обогащение её данных за счёт определения типа атрибута, а в свою очередь тип атрибута определяет и его структуру и связи с другими массивами данных и может определять средства последующей визуализации.
Процессы анализа и подходов к обогащению данных, также поддаются систематизации и уложению в общую модель вплоть до того что за счёт предварительного анализа накопленных и проанализированных справочников можно анализируя новый справочник автоматически рекомендовать его связку с перечнем имеющихся и анализировать входящие в него данные на предмет типовых форм описания данных как в справочном так и текстовом виде.
За счёт конечности числа форм и шаблонов представления информации, обогащение данных может если не доведено до автоматизма, то значительно автоматизировано.


