Мир как поток и совокупность информации. Часть 2

В первой части я писал о восприятии информации в рамках модели событие-факт и о понятиях информационного потока и связанных с ним явлений. Далее я подробнее остановлюсь на структуре и метриках информационных потоков.

Одна из основных задач при отделении потоков информации друг от друга — является разделение их на основе метрик связанных с ними фактов, а также их происхождении. В большинстве случаев мы можем рассматривать цепочку событий как поток в случае если они обладают единой структурой или же набором критериев позволяющим привести их к общему виду. Источник информации — источник потока, также может рассматриваться в качестве одного из подобных критериев. Часто потоки могут зависеть друг от друга и разделяться на меньшие потоки или же давать направление другие потокам.

К примеру любой блог обладает потоком новых записей. Источником этих записей является веб сайт или страница где этот блог находится, а все записи однородны по структуре и именно поэтому могут рассматриваться в качестве потока. С точки зрения событийной модели, публикация записи — это событие. Но единственный ли это поток в блоге? Если мы рассмотрим каждую запись по отдельности, то обнаружим ещё и поток комментариев который можно рассматривать и как единый поток всего блога со ссылками из комментария на запись в блоге, так и как совокупность потоков комментариев от каждой записи. Отличия между совокупной лентой комментариев и отдельными лентами кроются и в принципах потребления информации пользователями, поскольку общий поток комментариев бесконечен, а вот комментарии по отдельной записи имеют время жизни. Хотя и иногда люди комментируют записи и через 1-2 года после её появления, чаще же есть ограниченный период времени в течении которой поток комментариев по данной записи интересует её читающих.

Этот пример характерен наличием измеряемой структуры потока.

Структура потока (information stream structure) это совокупность характеристик событий и связанных с событиями фактов, включая другие потоки исходящие от этих фактов, а также вхождение различных фактов друг в друга.

У большинства известных потоков структура довольно проста — это однородные или сводимые к однородным факты связанные с событиями из одного источника или несколькими обладающими схожими характеристики. В то же время во всех случаях когда факты идущие с событиями потока могут быть связаны между собой и другими фактами, здесь они могут рассматриваться в рамках одного потока.

Например. Предположим автомобиль оснащён устройством которое фиксирует каждые 5 минут объём оставшегося топлива и расход с момента прошлого измерения. Это же устройство, в зависимости от скорости автомобиля, определяет находится ли тот в пробке или же движется в определённых диапазонах скоростей. При нахождении автомобиля в пробке или перехода в определённый скоростной диапазон, фиксируется начало этого события и при смене скоростного диапазона — окончание события. В результате мы имеем два потока информации. Один — это информационный поток с гарантированной частотой формирования событий (тем не менее не стоит спешить его сжимать, без готовности принимать как факт наличие погрешностей измерений) и другой информационный поток с частотой не гарантированной и замеряемой, к примеру, с возможной атомарностью в 1 секунду. Но атомарностью чего — события или измерения? Замеры скорости также могут происходить с гарантированной частотой в 1 секунду и формировать цепочку микрособытий измерений, но, в завимости от результатов замера информации и необходимости выбора формы её представления в процессе движения и последующего анализа эту цепочку микрособытий и можно раскладывать по определённым диапазонам в форме описанной выше — регистрация начала попадания в скоростной диапазон и выхода из него в итоговом факте во временном промежутке (time-slice fact). Частота и длительность этих фактов уже не является гарантированной и как раз и может представлять исследовательский интерес в совокупности с другими измерениями.

Все вышеперечисленные потоки мы можем рассмотреть в рамках одного потока измерений от прибора разделённых на два подпотока один из которых ещё раз разделён на основной поток и поток микрособытий.

При этом мы, также, сталкиваемся с таким определением как частота событий потока.

Частота событий потока — это соотношение числа событий потока в течении фиксированного промежутка времени к длительности этого промежутка в выбранных атомарных единицах измерения.

В общем случае анализ частоты событий неотъемлимо связан с выбранным промежутком для её измерения или на участке измерения. При этом события источником которых могут быть измерительные приборы также могут обладать гарантированной частотой измерения, когда время между двумя событиями создаваемыми ими известно заранее, в то же время для таких типов информации как новости, публикация в блогах или комментарии в них частота может быть замеряна только по мере накопления событий их последующих рассмотрений.

Гарантированность частоты можно отнести к метрикам природы информации когда помимо источника у потока ещё и происхождение сходящих в него фактов. Так как факты «исскуственного происхождения» — информация измерений, часто обладает гарантированной частотой появления событий, в то же время рассматривая социальные явления где события формируются по фактам создаваемым людьми, чаще нет гарантии когда событие может быть сформировано, но возможны вероятностные оценки по результатам накопленных данных и непредсказуемые явления, как то, например, стихийные бедствия, извержения вулканов и прочее.

Продолжая рассматривать потоки с точки зрения метрик, можно выделить такую метрику как дата и время начала потока (information stream start date). Рассмотрим пример. У нас есть блог с некоторым числом публикаций в нём. Эти посты в блоге можно рассматривать с точки зрения событийно-фактовой модели, при этом первая запись в этом блоге — это первая по времени запись. Кроме того блог обладает ещё и датой его создания как отдельного сайта или аккаунта на блогохостинге. Итого одну из этих дат — дату создания блога или дату появления первой записи мы можем рассматривать как отправную точку для данного потока.

Сложнее приводимая выше ситуация с приборами измерения, так как измерения прибора могут производится от начала включения прибора и до начала его выключения. В этом случае могут быть разные подходы к рассмотрению потока информации от прибора.

Один из них — это рассмотрение событий включения и выключения прибора как отдельный информационный поток и результатов измерения как структуру потоков внутри него. В этом случае поток, условно, непрерывен и разделяется на периоды работы и отключения прибора.

Другой подход — рассмотрение каждого отдельного измерения как независимого потока информации. Это будет более точно в случаях когда измерения отличаются по среде и условиям в которых они проводятся. Так, если переставить прибор для измерения скорости / расхода топлива с БМВ на КАМАЗ, то результаты измерений изменятся кардинально.

Далее я затрону подробнее темы потребления и хранения информационных потоков, их отличия от информационных массивов, а также подробнее остановлюсь на формах представления информации из информационных потоков для поисковых систем.

About This Author

Яндекс.Метрика