Мир как поток и совокупность информации. Вероятностная изменчивость данных

Что такое вероятностная изменчивость данных? Это набор правил, условий и точек при которых данные целиком или полностью могут изменится. Вероятностную изменчивость можно измерить в виде карты вероятностей.

Если мы рассмотрим любой информационный объект как последовательность элементов, то у каждого из этих элементов будет своя вероятность изменений и, соответственно, частота изменений по накопленным статистическим данным и по предварительно сформированным поведенческим схемам.

Например, пусть будет карточка пользователя в блогосервисе, том же LJ. Можно обратить внимание что данные есть в карточке те данные которые неизменны — это дата регистрации, внутренний ID и ник, есть те которые могут менятся время от времени — это описание и те которые меняются при каждом заходе — дата последнего захода и те которые меняются с каждым постом — счетчик их числа.

В подавляющем числе похожих систем все эти данные хранятся в одной структуре, несмотря на принципиально разные модели работы с ними и доступом к ним, как правило это оправдано поскольку современные СУБД достаточно гибки в настроках индексов и управлении данными чтобы для каждого типа данных не нужно было формализовывать свою стратегию, но, в то же время когда записей становятся миллионы, а их декомпозиция с учётом поведения пользователей становится немаловажной. Учёт изменчивости данных становится частью процесса оптимизации хранения данных и организации доступа к ним.

Но, хотя это и самая очевидная, но отнюдь не единственная область учёта вероятности изменений. Вероятность изменений (мне очень хочеться ввести термин «мутабельность‘ (mutability), но тут главное не путать его с аналогичным астрологическим термином) позволяет решать или быть частью решения и других задач.

Например, рассмотрим вопрос с опечатками с другой стороны. Возьмём слово, любое обычное слово, к примеру «можжевельник». Так вот цифры по реальной его изменчивости и вероятности внесения в него ошибки весьма далека от статистики.

Отчего часто его пишут без одной «ж», как «можжевельник», но практически никогда без последней буквы как «можжевельни» или без предпоследней как «можжевельнк». Отчего могут написать слово как «мажжевельник», но никто не напишет его как «мяжжевельник» или «мфжжевельник»?

От того что у каждого слова есть своя карта изменчивости (mutability map) которая не только указывает на наиболее вероятные точки (позиции букв) ошибок, но и для каждой буквы и позиции формирует пространство изменений (change space) определяющее вероятность изменения именно таким образом, именно в заданном направлении. При этом карта изменчивости тесно связана со множеством особенностей — расположением клавиш на клавиатуре, созвучности букв и сочетаемости букв.

В итоге, карта изменчивости и формируемое на её основе пространство изменений формируют таблицу  вероятных ошибок и проверка слова на опечатки может быть существенно оптимизирована исходя из этих вероятностных таблиц.

Хотя может и показаться что примеры в виде профиля пользователя где меняются отдельные свойства и анализ вероятных опечаток не связаны, но, на самом деле, они лишь представляют две различные стороны одной модели изменчивости. Изменчивость свойств объекта при его изменении характеризует временную вероятность измененений и структуризацию изменения, обновления данных в целом. Изменчивость при анализе опечаток оценивать пространственную вероятность изменений оценивая потенциальную встречаемость экземпляра объекта обладающего данными характеристиками. Пространственная вероятность определяет то как меняется объект и какие производные объекты он создаёт, а временная изменчивость определяет то что меняется в объекте со временем.

Области применения подхода по анализу и учёту подобной изменчивости есть. Одна из областей в анализе полуструктурированных данных в потоке, когда характеристики изменчивости участка потока позволяют делать предположения о структуре участка и дать дополнительную информацию при необходимости принятия решения в спорных ситуациях.

Например, этот подход используется при анализе различных кодов что я приводил в заметках ранее. В этом случае код сегментируется на различные участки и по существующей выборке производится группировка по этим сегментам. В случае по коду доступна сопроводительная информация эта группировка соотносится имеющимся данным и тем самым можно делать конечные выводы.

Другая область применения — оценка предсказуемости информационных потоков.

P.S. темы исправления опечаток мне так и не удаётся избежать в различных публикациях. Я думаю что подготовклю один подробный пост с рассмотрением разных использованных мною подходов. Конечной их целью было не исправление опечаток, но для исправления они вполне пригодны.

About This Author

Яндекс.Метрика