От сложного к сложному.

Я в последнее время часто привожу примеры из анализа лингвистических и других данных, иногда я буду приводить их и дальше, смысл в них и применимость не в конкретно лингвистике, а в принципиальном подходе — формирование максимально исчерпывающей онтологии и только потом её упрощение, редуцирование, до более простых моделей.

Полностью забываем про приизводительность, акцент на полноте модели (здесь можно проводить параллели с нормализацией данных в СУБД или формированием объектов, но по сути информационные модели это нечто большее).

Ряд утверждений:

1. Любой атрибут любого класса (объекта) характеризуется не только значением, но и характером отношения. В терминологии RDF — это субъект, предикат, объект. Подробнее можно прочитать про RDF Triple Ключевым здесь является понимание что классическая реляционная модель отношений объектов для подобного рода отношений не работает.

2. Отношение между классами (объектами) может быть выделенно в отдельный класс. Любой атрибут может рассматриваться как отдельный класс, а его экземпляр как отдельный объект. Например, Петербург может относится к Ленинградской области как её столица, а также он может относится к ней как порт на её территории, а также как город миллионник на её территории. Онтология отношений может расширятся и должна учитывать возможное расширение, а также сами отношения могут быть охарактеризованы различными метриками — тематика, уникальность vs. рассчитываемость и так далее.

3. Характеристики атрибутов, а также характеристики атрибутов атрибутов и так далее формируют иерархию метаданных которая может быть, при необходимости, упрощена на любом из уровней.

4. Атрибуты любого объекта можно разделить на естественные и рассчитыванные. Естественные атрибуты могут делиться на неотъемлимые характеристики объекта без которых он теряет своё значение / смысл и назначенные которые установлены заранее и их пересчёт / автоматическое формирование невозможно. Для информационной полноты объектов  достаточно естественных атрибутов. Рассчитываемые атрибуты строятся на основе / с учётом естественных и могут обладать иерархией расчёта, в зависимости от того на чём они базируются на естественных атрибутах или же на других рассчитанных. Естественные и рассчитанные атрибуты связываются отношением используемости их между собой.

Пример: у объекта город имеются атрибуты площадь и число жителей . Атрибут плотность населения будет рассчитываться на основе двух этих атрибутов и обладать к ним отношением использования.

5. Значение одного или нескольких атрибутов класса в совокупности может порождать изменение / расширение структуры объекта и возможности назначения ему иных атрибутов. Наглядный пример — это статьи в Википедии где в зависимости от того о чём статья она может обладать одним и более специфичным для данного понятия структурированными шаблонами. Иными словами часть речи в определённом значении

Ещё один пример. Если у города нет выхода к морю он не может обладать атрибутами морских портов на его территории, и наоборот если у него есть выход к морю, то подобные отношения могут быть.

Суммарно, большая часть написанного выше применима к RDF и OWL онтологиями, за исключением разьве что типов атрибутов — рассчитываемые или нет. Всё это не так сложно как может показаться, в реальности онтологии, например, анализа генов — не в пример сложнее, важнее понимание того что редукция моделей построенных на подобных правилах, не является сложной операцией, а вот расширение простых структур до их комплексного описания требует длительной аналитической работы.

И буквально недавно мне пришло на ум что объёмы информации генерируемой одним человеком в единицу времени (сутки) конечно. Даже если каждый будет ходить с видеокамерой на одном плече, микрофоном на другом и увешается мониторами измерения физических показателей организма — вся эта информация конечна и, с учётом развития систем хранения и процессорных мощностей, рано или поздно возникнет ситуация когда человечество сможет хранить практически всё воспроизведённое. Пределы же создания качественного контента наступят даже раньше, отсюда и утверждение что по достижению количественных пределов, акцент будет на качестве работе с ней, как то структуризации и моделировании отношений. Фактически, уже сейчас мы достигли ситуации когда качество информации стало выходить на передний план.

About This Author

Яндекс.Метрика