Скрытые факты и метаданные метаданных. Непростые вопросы

Читаю материалы и исследования по выявлению и работе с метаданными и, в очередной раз, убеждаюсь что тема куда сложнее чем можно было подумать вначале.

Например, наиболее часто встречающиеся схемы работы с нимия:

Объект + тэги

Упрощённая модель когда дополнительные характеристики и атрибуты объектов определяются исключительно смысловым значением ключевых слов. Плюсы — простая реализация, минусы — слабая аналитическая пригодность. Пример — любая социальная сеть закладок, тот же del.icio.us.

Объект + атрибуты метаданных без структуризации. В этом случае каждому информационному объекту может присваиваться произвольный набор атрибутов его характеризующих. Каждый атрибут определяется его названием, типом (строка, число, дата и т.д.) и значением. Пример — файлы Microsoft Office, где можно указать набор метаданных в документе. Плюсы — лучшая пригодность к анализу и классификации чем тэги, минусы — классификация атрибутов определяется внутренними словарями анализирующих их приложений/

— Объект со специфицированной карточкой атрибутов, например, в виде XML схемы

Атрибуты чётко специфицированы и уложены в XML схему. Как результат, информационные объекты легко подвергаются анализу и обработке, минусы в негибкости расширения схем. Такой подход используется в большинстве коммерческих и государственных стандартов обмена данными, где надежность и предсказуемость важнее гибкости. Ко всему эта модель чётко ложится на реляционные СУБД, OOP и другие наработанные технологии

— Объект в контексте онтологической модели

Это то что вкладывают, как одно из значений, в Semantic Web и в этом случае атрибуты объекта также специфицированы как и при XML схеме и также негибки в изменении, но, при этом атрибуты могут быть не просто значениями, но ссылками и связями с другими объектами этой онтологической модели. Пример, описывая организацию в виде объекта онтологии, БИК её счета может быть связующей ссылкой по которой можно получить метаданные банка которому он принадлежит. При этом анализ аномалий, особенностей данных и закономерностей может происходить автоматически даже без знания предметной области. Либо с незначительной корректировки аналитических алгоритмов, предметным специалистом. Недостаток такой модели в необходимости длительной и кропотливой работы надо формированием «моделей связностей». А также в технологических проблемах хранения и работы с подобного рода информацией — необходимы базы данных с поддержкой OWL и RDF, а также преодоление проблем комплексности описываемых областей.

Погружаясь именно в онтологическое описание объектов у меня возникает всё большее число вопросов:

1. Есть ли отношения между метаданными, если они ест то как они должны укладываться в существующие модели?

Если у объекта «Персона» есть метаданные «Фамилия», «Имя», «Отчество», то является ли безусловно обятельным связка их в единый блок или же их отношение можно определить связями для метаданных.

Абстрактный пример, для статистического исследования мы хотим узнать как чаще пишут о человеке в СМИ — в форме «Василий Пупкин» или «Пупкин Василий», для конкретного человека и в общем случае. Необходимо ли для этого проверить все метаданные персон в новостных блоках или же достаточно проверить внутренние связи метаданных этих блоков?

2. Является ли связь объектов через метаданные характеристикой объектов или метаданных?

Например, в профиле местонахождения человека он указывает «Moscow». Мы определяем его как метаданные географического объекта «город федерального значения Москва» по алиасу его названия «Moscow». Вопрос: являются ли отношения расположения атрибутом персоны к географическому объекту или же отношением атрибута (метаданных) месторасположения к алиасу(метаданным) географического объекта ?

Дополнительный вопрос — в чём разница подобных отношений?

3. Рассматривать ли атрибуты как отдельные информационные объекты (сущности) или же как «метаданные с со своим набором атрибутов»?

Пример, тот же БИК можно рассмотреть как значение атрибута организации и как значение атрибута банка. Но можно рассматривать и как комплексную структуру так как его разряды 3-4 определяются первыми разрядами ОКАТО, а разряды 5-6 кодом подразделения Банка России. Итого мы имеем метаданные пригодные для дальнейшей декомпозиции и вопрос о том как их рассматривать с этого момента — всё ещё как метаданные или уже как отдельный объект. Важно в примере также и то что атрибуты БИК — это обеспечиваются алгоритмической структуризацией и при их, условном удалении, из его описания они могут быть восстановлены вновь по его значению
Тем самым у нас есть «рассчитываемые метаданные» и эта категория метаданных и есть один из элементов выявления «скрытых фактов».

About This Author

Яндекс.Метрика