Мир как поток и совокупность информации. Часть 6. Конечность форм. Онтология форм

Решив пока отложить тему информационной психологии, в ней я вижу ещё очень много неоднозначностей и пока у меня нет её полного понимания, вместо этого затрону другую связанную с ней — конечность форм представления информации.

Что это такое? В первой части своих размышлений я упоминал о конечности информации. Предположении что несмотря на бесконечности информации в общем случае, различные срезы по источникам её поступления, можно будет предсказать на единицу времени.

Это моё утверждение основывается на трёх предположениях:

1. Число источников информации конечно и измеримо. Изменения числа источников со временем предсказуемо.

2. У каждого источника информации есть нижняя и верхняя планка числа создаваемых событий в единицу времени.

3. Число форм представления информации конечно и измеримо.

Важно также отметить что в рассматриваемой модели процесс регистрации источников данных, событий и форм их представления — заведомо исключен как сам источник данных. Исключен поскольку если мы будем рассматривать факт регистрации события как отдельное событие, то тут неизбежна рекурсия.

Итак, конечность форм. Будем исходить из того одно и то же событие, один datum, минимальная единица информации или же комплексная структура данных может быть отображена тысячами разных способов. Каждый из этих способов можно рассматривать как отдельную форму представления и число этих форм ограничено и измеримо.

Чем определяется эта измеримость и конечность? Тем что все мы, люди, находимся в одном информационном пространстве и при обмене информацией мы обмениваемся не только фактами как информацией в чистом виде, но и формами, способами её передачи. Фактически формы — это шаблоны,выражения мыслей, шаблоны информационного обмена и эти шаблоны базируются как на способности одного человека выразить свою мысль понятным образом, так и в способности других это понять. Разумеется не все следуют этому правилу на 100%. Например, художественные образы отличаются как раз нестандартностью форм и необычностью их представления, но может ли кто-либо измерить сколь много художественных форм среди форм предсказуемых? Я предположу что весьма и весьма мало.

В итоге мы имеем ситуацию когда для различных классов информационных блоков мы можем определить от нескольких до нескольких тысяч форм представления которые будут охватывать все встречающиеся случаи или, хотя бы, подавляющее их число.

Даже в сложных случаях, когда мы можем рассматривать комплексные структуры данных и сложные информационные объекты — число форм их представления, даже если невероятно велико, тем не менее ограничено и конечно.

И здесь, помимо понимания конечности форм, необходимо затронуть ещё одну тему — классификацию форм.

Классификация форм — это определение которое также можно описать как «шаблоны шаблонов» или  «правила формирования правил». Классификация основывается на том что формы представления информации обладают различными метриками, характеристиками и особенностями совокупность которых позволяет объединять их в мета-формы или мета-шаблоны.

Подобный классификационный подход в выявлении шаблонов позволяет достигнуть сразу несколько целей:

1. Возможность выявления шаблонов и мета-шаблонов представления данных по классифицированным выборкам.

2. Возможность проведения анализа правил соответствия шаблонов мета-шаблонам и формирование неизвестных (не встреченных) ранее шаблонов на основе данных правил.

Ещё одно следствие классификации форм — это сужение их числа до приемлимого с точки зрения их осмысленного понимания и анализа. И это позволяет достигнуть такой важной цели как построение онтологии форм — модели, иерархии, базовых понятий и их связей между различными формами представления информация. При этом онтология форм может быть как самая общая — описывающая их в базовом случае, так и построенные на её основе онтологии форм конкретных типов данных и их взаимосвязи.

Рассмотрим примеры.

Предположим у нас есть строка «12». Как и любую другую строку мы можем рассматривать её как форму, но что стоит за ней?

Как нам понять какому типу данных соответствует данная строка? Очевидный для человека ответ — «12» это число. Мы также можем убедится что это положительное целое двузначное число. Если подумать чуть дольше то можно предположить что это число может быть: месяцем, днём, часом, минутой, секундой или множеством других типов данных являющихся цифрами и под которые число 12 попадает. Почему мы можем предположить что «12»  может быть месяцем? Потому как 12 подпадает под шаблон от 1 до 12 применимый к числам месяцев.

Почему день? Потому как исходя из того что день описывается в значениях от 1 до 31, то 12 подпадает под этот критерий.

Но… «12» может быть и произвольным числом размерности в 1 байт (8 бит) и любым иным числом большей размерности.

Все эти возможные варианты значений «12» есть соответствие формы представления шаблонам форм. Шаблону месяца, шаблону дня, шаблону байта и так далее. При этом мы можем обратить внимание что шаблоны, особенно шаблоны чисел, могут пересекаться и даже полностью входить друг в друга.

Например, шаблон дня полностью входит в шаблон байта. Шаблон месяца входит в шаблон дня и шаблон байта.

Как мы можем классифицировать данные шаблоны? По размерности. По верхней и по нижней границам. По непрерывности/прерывности. По смысловой близости (год, месяц и день ближе по смыслу друг к другу чем к байту). И так далее. Мы можем сформировать набор особенностей, метрик и характеристик после чего сформировать мета-шаблоны описания.

Впрочем для цифр, численных значений более правильным было бы говорить даже не просто о шаблонах и их объединениях, а о сегментировании пространства чисел, в соответствии с этими шаблонами.

Анализ комплексных структур данных проводится аналогичным образом. Сложности возникают уже на уровнях когда анализируемые формы являются неоднородными (например, HTML или любое иное полуструктурированное представление информации). В этом случае анализ форм, зачастую, содержит огромное, хотя и, по прежнему, измеримое число вариантов.

Преодоление этого барьера основывается как раз на итеративном анализе и выявлении мета-шаблонов. В том что огромное число вариантов можно упростить до нескольких базовых и строить эти варианты уже от них.
Скиур, проект который я упоминаю уже неоднократно, создавался именно таким образом. Прежде чем прийти к текущему алгоритму, самое сложное было в создании алгоритма который стоит за ним, алгоритме выявления мета-шаблонов. Предварительный сбор тестовой выборки, её анализ и итеративная редукция (упрощение) структур данных, классификация наполнения структур и лишь в итоге создание универсального подхода объединяющего ограниченное число мета-шаблонов и умеющего распознавать шаблоны, а не структуры данных. Пусть даже и с текущими ограничениями по типологии данных — новостные потоки.

В качестве же итога добавлю что построение онтологии форм возможно и от алгоритмов распознавания образов, информации, данных необходимо приходить к алгоритмам обеспечивающим их построение. От шаблонов к иерархии форм. От частных решений — к частным решениям в рамках общей информационной модели.

В следующей части я постараюсь раскрыть подробнее темы форм представления и информационной психологии вместе.

About This Author

Яндекс.Метрика