Мир как поток и совокупность информации. Часть 3.

В предыдущих двух частях: часть 1 и часть 2 я описывал информационные потоки в общем случае, а также некоторые их метрики. В этой части я заторону подробнее такое понятие как информационный массив, конечно, в контексте информационных потоков.

Информационный массив (information dataset) — это совокупность однородных или связанных объектов включая их связи и структуру отношений, не обладающих временными метками или же в когда временные метки не являются ключевым критерием их рассмотрения и анализа. В качестве информационных массивов можно рассмотривать любую энциклопедию, справочник, коллекции статей «How-To». При этом массивы, как и потоки, можно рассматривать как простые (однородные) так и сложные.

Например, рассмотрим такой массив данных как телефонный справочник городов. У него простая структура: код, город; и, несмотря на то что можно фиксировать ещё и дату внесения кода в справочник, конечному потребителю этой информации дата будет ненужна в подавляющем большинстве случаев. Максимум она может подтвердить актуальность справочника, но вероятность того что кто-то, к примеру, будет подписываться на RSS изменений этого справочника стремиться к нулю, так как это массив информации, а не поток и его потребление основывается на принципах точности, поиска и сопоставления информации, но не на ежедневном потреблении новых данных. В то же время, рассматривая записи в этом справочнике с точки зрения модели информационных потоков мы можем определить в нём дополнительную дату — дату обновления записи и определить максимальное число информационных потоков. Можно предположить что это число будет равно 2 + N, где N — это число записей в данном справочнике с каждой из которых может быть связан поток изменений данной записи, а 2 — это два общих потока справочника один из которых является потоком появления новых записей и другой потоком изменений всех записей. Но получается что поток обновлений является аггрегированным потоком обновлений от каждой записи или наоборот поток обновлений от каждой записи является структурным подпотоком от основной ленты обновлений. Поэтому мы можем рассмотреть структуру потоков массива с двух точек зрения, как 2 потока или как 1 + N естественных потоков и 1 формируемый (искусственный поток). SA и SU где SU = S1 + S2 + … + Sn. (это не вполне корректно, так как поток обновлений массива это совокупность, а не сумма потоков, но более подходящей формы представления пока не приходит в голову).

То как рассматривать поток обновлений — это вопрос формы представления потоков которая зависит от информационной значимости отдельного элемента массива и частоты его обновления. Так, если мы продолжаем рассматривать телефонные коды, то общего потока обновлений там может быть вполне достаточно. А вот если мы возьмём массив более сложный массив налоговых инспекций включая их контактную информацию, то большинство бухгалтеров будут интересовать не поток изменений в общем списке, а возможные изменения в 1-2-х которые важно не упустить.

Другой пример — база документов. Этот массив информации характерен тем базовые объекты (объект — документ) в него входящие обладают или могут обладать значительным числом характеристик которые могут рассматриваться как дополнительные критерии группировки этих документов. Это могут быть тематические категории, срезы по форме представления и хранения документа (формат файла, кодировка), срезы по источникам данных и авторам, а также многое другое.

Итого мы получаем некую онтологию объектов вокруг некого базового с тем что присутствует группа объектов (подмассив) в у которых присутствует свой набор возможных информационных потоков — новых объектов, обновлений, обновлений единичных объектов. В чём разница рассмотрения подмассива объектов и его потока внутри информационного массива в сравнении с рассмотрением класса объекта? Разница в том стратегии хранения, формы поиска и представления и многие другие критерии будут точными только при рассмотрении групп объектов в динамике. Простое соотнесение структуры документа с реляционной таблицей не даст ответа на вопросы о том сколько, в среднем, документов будет там появлятся и каковы наиболее удобные практики поиска документов.

Всё это в совокупности можно уложить в понятие поведенческой модели информационного массива (dataset behavior model). Поведенческая модель — это совокупная модель онтологий и информационных потоков информационного массива, описывающая не только структуру взаимосвязей объектов в массиве, но и их динамику и структуру этой динамики. Поведенческая модель может использоваться для построения стратегий хранения, визуализации и информационного взаимодействия для рассматриваемого информационного массива. Её задача не только дать ответы на то с какой информацией мы работаем сейчас, но и с управляемой точностью предсказывать развитие данных и их структуры с течением времени. Как сейчас проектируются большинство массивов данных для информационных систем? Создаётся реляционная модель данных, делаются приблизительные оценки максимального роста, выбирается технология маштабирования. При этом, к сожалению, очень редко учитывается не только максимальный совокупный объём информации в массиве, но и метрики прироста и изменений, а формы представления элементов массива.

Фактически, лишь по достижению определённой нагрузки на систему начинается процесс её оптимизации — реорганизации структур данных, установки индексов, кеширования и иных операций. Предварительное формирование поведенческой модели информационного массива, а также использование алгоритмов машинного обучения имеет как минимум одну область применения — автоматический и постоянный анализ нагрузки на СУБД и реорганизации стратегий доступа и индексирования автоматически или автоматизировано.

Визуализация — это отдельная и очень большая тема, которую правильнее было бы определить как форму подачи информации пользователю. По сути визуализация информации это лишь одна из форм её представления и создания информационного канала или канала восприятия информации . Про информационные каналы я писал ранее в заметке Информационные потоки, скрытая информация и связность. Для взаимодействия человек-компьютер они выглядят несколько иначе и ограничены как способностью мозга принимать фиксированные объёмы информации в единицу времени, так и технически способностью компьютера информацию передавать — пока нет интерфейсов передачи запахов, вкуса и осязания. Фактически каждый из множества физиологических каналов приёма информации делится на множество дополнительных, входящих в него каналов. Но это будет также и не вполне точно, поскольку на самом деле это не каналы, а источники информации с разным уровнем управляемости, интенсивности, наличием обратной связи. Причём работа с информацией в сети основана, в основном, на зрении.

Отсюда, восприятие информации человеком зрением, можно разделить, условно на несколько уровней каналов:

0. Физиологический — зрение. Восприятие изображения из окружающей действительности, её осознание.

1. Физический — дисплей, монитор. Непосредственный канал передачи через который действуют остальные.

2. Программный — программные продукты обеспечивающие трансляцию изображения на экран и через экран к человеку.

3. Структурно-информационный — адаптированный к восприятию информационный поток транслируемый посредством одного из программных продуктов. Например, чтение новостной ленты сайта через браузер можно рассматривать как информационный поток.

Отдельно можно говорить о форме подачи — цветовой гамме, шрифтах, изображениях и способах изображения различных элементов информационного потока в виде пригодном к восприятию пользователем. Всё это в совокупности, начиная от информационного потока и информационного массива до канала восприятия информации формируют единую онтологию информационного пространства, разные слои которого находят своё отражение в технологиях хранения данных, формах их представления и восприятии пользователей.

P.S. К сожалению у меня в последнии дни всё меньше свободного времени на алгоритмические исследования и чтобы продолжить эту серию в подробностях. Эти размышления пока только фундамент для формализации онтологии и её анализа, а на завершение этой работу нужно время. В планах есть провести детальный анализ какого-либо тематического поисковика, например, того же Рамблер.Бета с точки зрения работы с потоками информации, но когда смогу это сделать сейчас предсказывать не берусь.

About This Author

Яндекс.Метрика