Полнота модели vs. частные решения

Чем больше я читаю исследований по работе с информацией в самых разных формах — алгоритмы поиска, разпознавания музыки, голоса и изображений, тем более убеждаюсь в верности того утверждения что больше данных, действительно, бьёт лучшие алгоритмы.

При том что во множестве исследований проводятся весьма интересные эксперименты, а также выводятся весьма точные алгоритмы, проблема в нехватке акцента на том что главное это не алгоритмы, главное — это полнота информационной модели.

А здесь то и кроется тот подводный камень что большая часть исследований исключительно утилитарны, они нацелены на решение конкретных и очень узких задач. В некоторых случаях решения по разным направлениям пересекаются, но, очень мало действительно толковых алгоритмов связывания информации и создания единой информационной модели.

Например, недавно исследуя вопросы математической лингвистики и общих подходов в ней я столкнулся с тем что в фактически нет единой модели языка и всех рассматриваемых в них сущностей. При том что можно связать лемму с морфемой, лемму с тематической областью, представить характеристики леммы или морфемы в виде набора классов и атрибутов, но описания всего вместе просто нет. Да, тут надо отметить что есть неоднозначности, они кроются как в разном подходе различных учёных (например, как разделять слово на слога) так и в языковых особенностях как то слова исключения, фразы исключения, недопустимые сочетания букв и так далее. Но ведь и исключения можно уложить как раз в эту модель. Более того, полнота модели заключается не в том что в ней описано всё без исключения, а в том что она безболезненно расширяется и меняется. Возможность и подход к изменениям является неотъемлимой частью подобной модели. Также, возможность и характер изменений должны быть структурированы и также могут менятся в соответствии с определёнными заранее правилами.

Иначе говоря некоторые размышления о том какой может быть полноценная информационная модель:

1. Каждая рассматриваемая сущность может обладать неограниченным набором атрибутов которые, по сути, являются ничем иным как тематическими связями данной сущности с данным классом атрибутов.

Пример: автоматически назначаемые тематические метки назначаемые постам в блогах автоматически. Тэг является не ключевым словом, а связью данной записи с со словом или словосочетанием упомянутому в тэге.

2. Каждый атрибут обладает смысловым классом характеризующий область его применения, а также характеристиками (атрибутами) изменчивости, формы хранения, формы представления, допустимых форм визуализации, связанных ограничений.

Пример: дата комментария в блоге характеризуется тем что она обладает нижней границей по дате публикации в блоге к которой был данный комментарий что допускает визуализацию даты комментария как в виде даты, так и по относительному смещению её от заданной границы. Эта же дату можно рассматривать как постоянный, однократно изменяемый атрибут объекта задаваемый исключительно при его создании. Иначе говоря, это учётная дата регистрации факта события. Формы представления даты могут варьироваться уже по общим правилам применения для дат.

3. Характер данных, в моделировании реляционной модели, это тип данных — строка, число (с разрядностью), двоичное значение и так далее, применительно к обладающим им атрибутом или классом является ничем иным как ссылкой привязанной к значению. При этом каждый из типов / характеров данных может обладать своими характеристиками — длиной, размерностью и так далее.

4. Информационная модель должна позволять и предусматривать возможность нахождения тематических связей, включая ограничения поиска данных связей по типам классов и характеристикам объектов в данной модели.

5. Форма представления и операции над моделью должны позволять рассматривать её как срез по определённым её частям / уровням, а также, при необходимости, упрощать её для автоматической обработки. Правила упрощения модели на любом из её участков должны быть структурированной характеристикой данной модели.

6. Вопросы производительности методов работы с моделью должны быть полностью вынесены из процесса её формирования. Главной целью является обеспечение полноты и максимального снятия всех неоднозначностей. Если модель неполна, то её неполнота, также, должна быть описана в структурированном виде и является неотъемлимой частью данной модели.

—-

Конечно, всё вышеописанное можно охарактеризовать как сверхизбыточность и сверхусложнение. Но, на самом деле, в этом мире конечна не только совокупная информация, но и формы представления информации, характеристики связей и их изменчивость. Итоговая полная модель, включая возможности её связывания с другими моделями, позволит достичь куда больших результатов чем быстрые частные алгоритмы решения конкретных задач.

Иными словами — алгоритмы должны быть простыми, данных же должно быть много и они должны максимально связаны и описаны. Сложные алгоритмы можно строить уже на анализе связей данных, автоматически.

Как и в остальных случаях мат. лингвистику я привёл лишь как один из примеров, другие области — анализ неструктурированных массивов информации, социальных сетей, распознавание видео и так далее, подпадают под всё вышеописанное в той же степени. Прежде чем сделать алгоритм умнее и сложнее, стоит подумать, а какой информации Вам недостаёт чтобы сделать его проще, при этом сохранив или улучшив его качество?

About This Author

Яндекс.Метрика