Системы управления информацией. Неструктурированный анализ. Структуры данных

Не так давно и уже не в первый раз перепробовав различные семантические Вики я столкнулся с тем что все они до сих пор недружелюбны к пользователям. Если не считать Freebase, остальные крайне неюзабельны. Но FreeBase — это сервис, мощный и интересный сервис, но не продукт, не то что open source и даже не коммерческий продукт.

В итоге для меня лично вопрос об организации данных стоит уже давно и так и не понятно окончательно как его решать.

Например, пока структуру данных интересующей онтологии можно описать простым списком — всё в порядке. Но когда структура сложная, со множеством вложенных элементов, поддеревьев и требующая несколько ракурсов рассмотрения — то ни одного более менее стоящего инструмента найти не удаётся.

Делать самому весьма накладно, да и не очень интересно. Я лучше решаю смысловые задачи, чем инженерные.

Но для себя я сформулировал ряд требований к такому ПО:

1. Наличие веб интерфейса и, желательно, настольный вариант с синхронизацией с веб

2. Возможность просматривать структуры данных в разных разрезах и формах. По пространствам имён, по взаимосвязям, по тематическим областям и так далее.

3. Гибкие поисковые возможности — что-то вроде MQL для Freebase

4. Интеграция со структурами и данными из Linked Data

5. Возможность прямой работы с онтологиями, изменение их и визуализация в разных формах — схемы, 3D.

6. Возможность простого и быстрого ввода данных в формате выбранной онтологии

7. Расширяемый анализатор структур данных под различные типы онтологий и массивы данных.

8. Экспорт в XML, CSV, XLS (ODS), RDF/Triple и так далее.

Часть таких возможностей есть в некоторых некоммерческих и коммерческих разработках, но всего вместе, увы, нет.

В своё время я немало времени занимался вопросами восстановления структуры данных по их наличию — это важная задача при анализе неструктурированных табличных и древовидных данных, но в итоге пришёл к выводу что без построения многослойного основы в виде онтологии онтологий и «онтологии анализа данных» итоговая реализация сваливается в набор частных решений.

Описанная мною ранее модель информационного контракта — обладает и обратной применимостью когда по форме представления необходимо определить характеристики содержания, включая структуру содержания. Это вполне разрешимая задача в частных случаях, но в общем случае более чем сложна.

Собственно Скиур я периодически привожу как результат подобных экспериментов. До того как его создать у меня копились данные по различным представлениям структур с разметкой этих структур. Эти данные по формам и позволили в итоге сформировать алгоритм частичного восстановления данных.

Очень похожа ситуация и со многими другими информационными срезами на веб страницах где объектная картография — разметка страниц и сайтов по ряду объектных категорий будет работать весьма эффективно. Но тут то возникает ситуация когда прежде чем сформировать срез данных, необходимо понять а существует ли он и какой. Хорошо когда есть информация о новостях, она понятна и с момента формализации решаема. Другое дело в том как понять, а какая информация вообще есть? Это можно делать экспертным путём, но при существующих массивах данных, экспертный путь не единственный. Будущее за алгоритмами выявления повторяющихся форм представления информации. Последующей классификации и восстановления данных.

Сложность этого, сложность смысловая — в инструментах пригодных к решению подобных задач. К примеру, у меня есть N-ное число наработок и исследований по SEO ссылкам, анализу сайтов, связыванию различных именованных понятий, классификации текстов и другом, но до сих пор не удаётся объединить всё это вместе в единое целое. Как ни заходи — обобщённая смысловая модель оказывается слишком громоздкой и чем она полнее тем менее удобна в работе, в первую очередь из-за значительной перегруженности деталями.

Единственный ощутимый вывод к которому я прихожу сейчас что помимо основной, базовой онтологии основных понятий необходима ещё и параллельная онтология охватывающая природу информации, принципы её зарождения и основные формы её представления. Это нечто большее чем просто описание концепций и типов данных — это формирование модели взаимосвязей этих типов.

Минус конечно в том что описанное выше по большей части является исследовательсткой деятельностью отнимающей много времени от деятельности производственной, но исследований по теме, к сожалению, очень и очень мало, особенно на русском языке и в России.

About This Author

Яндекс.Метрика