Слова и буквы в контексте информационной модели

Что такое ветер — это небо.

Юрий Шевчук

Вопрос — что такое слово? Обычное слово, в предложении, суть буквы и ничего более. Конечно слово — это часть речи, может быть представлено родом и склонением, глаголы имеют спряжения и так далее. Рассмотрим слово и некоторые другие понятия с точки зрения информационных моделей и извлечения информации.

Для начала дадим определения рассматриваемым объектам.

Предложе́ниеязыке) — это минимальная единица человеческой речи, которое представляет собой грамматически организованное соединение слов (или слово), обладающее смысловой и интонационной законченностью. («Современный русский язык» Валгина Н. С.) .

Слово — центральная единица языка. Это основная номинативная и когнитивная единица языка, служащая для именования и сообщения о предметах, признаках, процессах и отношениях. Слово представляет собой структурно-семантическую двустороннюю единицу языка, обладающую формой (планом выражения) и значением (планом содержания).

Бу́ква — отдельный символ какого-либо алфавита, графема.

Итак, условно определим следующие аксиомы:

1. Слово состоит из букв и определяется совмещённым значением буквы с её позицией. Фактически — это массив элементов.

2. Буквы могут быть строчными и прописными, при этом значение буквы не меняется, меняется значение буквы в слове, а также может менятся значение самого слова в контексте предложения. Форма буквы является характеристикой позиции в слове и определяет ряд характеристик самого слова, но не является характеристикой буквы, как буквы алфавита.

3. Ударение является характеристикой исключительно данного слова, но связано с буквой. Оно может быть записано как атрибут буквы, так и самого слова. Это характеристика слова связанная с его структурой и накладываемая на неё.

4. Часть речи, род, спряжения и прочие лексические характеристики конечны на уровне слова и не имеют прямых связей с буквами и их атрибутами.

5. Буквы могут быть гласными и согласными, звонкими, глухими и сонорными, знаками, обладать разной частотой и так далее. Все эти характеристики букв не имеют прямых связей как со словом в котором буква присутствует так и с атрибутами слова.

6. Согласные и гласные буквы — это две категории одного уровня, их происхождение базируется на физических принципах произношения звуков. Деление согласных букв на сонорные, глухие и звонкие можно рассматривать как следующий уровень иерархии подобного деления. Это дерево конечных классификационных атрибутов однократно формируемых вручную

7. Частотное деление букв по встречаемости можно рассматривать как численный атрибут буквы не имеющий прямой связи с другими атрибутами. Каждой букве можно указать её частоту на основе частотных карт языка.

8. Частотные карты могут быть контекстными и тематическими и отличаться от частотных карт всего языка. Конечное число подобных частотных карт неограничено. Частотные карты могут быть связаны между собой отношениями пересечения анализируемых корпрусов и методик их формирования.

9. Буква может быть охарактеризована её номером в алфавите, а также численным выражением в компьютерных кодировках. При этом минимальной смысловой единицей для назначения кодировки является слово, а в основном применяется она для характеристики текстов.

Утверждения:

1. Буква алфавита является объектом характеризуемом набором различных по классам признаков как статичных так и динамичных по природе. Букву можно рассматривать как условно минимальную смысловую единицу дальнейшее дробление которой возможно по статическим и физическим признакам.

2. Слово является объектом характеризуемом последовательностью букв (символов) и определяется на основе двух значений — значения буквы в заданной позиции, а также уточняется размерностью буквы в данной позиции. Слово обладает набором атрибутов отличающихся по их изменчивости (статике / динамике), способу назначения (рассчитываемое / назначаемое по словарю значений) и так далее.

(Я сознательно не затрагиваю здесь тему предложений, так как там характеристик и их взаимосвязей куда больше)

Вывод который из всего этого следует — слово и буква суть объекты, а вот буква в слове — это не более чем ссылка на объект буква в алфавите. Характеристики слова на основе частотного анализа — это ни что иное как совмещение характеристик двух связанных объектов по заранее определённым правилам.

Проанализируем, к примеру, слово «футляр«.

Рассмотрим слово как набор букв — массив [‘ф’, ‘у’, ‘т’, ‘л’, ‘я’, ‘р’]. Что не так с подобной записью? Мы теряем наглядность одного из важных признаков — позиции буквы.

Опишем слово по другому [1, ‘ф’], [2, ‘у’], [3, ‘т’], [4, ‘л’][5, ‘я’],[6, ‘р’]. Цифра — это позиция буквы в слове, буква — это ссылка на букву в алфавите.

Разберём теперь слово с большими деталями и с использованием Semantic Web для иллюстрации.

Значение: http://not_exists_anywhere/rdf/1.0/rus_alphabet#ф

— Номер в алфавите: [22, http://not_exists_anywhere/rdf/1.0/rus_alphabet_position]

— Звучание: [«согласная», http://not_exists_anywhere/rdf/1.0/sound_type#consonant]

— Частотная позиция: [31, http://not_exists_anywhere/rdf/1.0/freqmap#russian_alphabet]

— Код кодировки: [1092, http://not_exists_anywhere/rdf/1.0/encoding#utf8]

— Код кодировки: [244, http://not_exists_anywhere/rdf/1.0/encoding#cp1251]

— Код кодировки: [198, http://not_exists_anywhere/rdf/1.0/encoding#koi8r]

… И так далее для каждой буквы …

Мы переносим значения классов объекта буква в структуру слова и формируем не просто массив букв, а иерархический или, если угодно, многослойный и многомерный массив.

Что мы получаем в итоге — мы получаем иерархию метаданных и возможность для ручного или автоматизированного упрощения, редукции рассматриваемого объекта, в нашем случае слова.

Вернёмся к тому что я писал в прошлой записи о составлении карт слов по определенным правилам. Эти правила становятся чрезвычайно просты как только мы начинаем рассматривать их в рамках развёрнутой структуры. Так схема кластеризации базируется на изменчивости рассматриваемого параметра. Схемы разреза на гласные -согласные базируется на конечности числа категорий данного классификационного уровня, схема разреза по позициям гласным базируется на редуцировании значения буквы в карте в соответствии с заданным правилом редукции. В нашем случае это:

если [буква.звучание == гласная], то значение = буква.значение иначе значение = ‘.’

Формирование правил, как я думаю уже понятно, может быть и автоматическим. Главная же применимость их — в нахождении скрытых связей между не связанными на прямую атрибутами целого.

Пример такой применимости — в нахождениях взаимосвязей букв и их последовательностей со значениями и происхождением слов, как то имён. При том что мы исходим из изначальной установки наличия, но неизвестности таких взаимосвязей.

Более сложные и, с другой стороны, простые механизмы используются для n-gram причём два этих подхода можно совмещать.

В любом случае — забудьте про слова и буквы. Они не имеют значение, значение имеет, что если Вы хотите понять связи между объектами, то будьте готовы к полной их декомпозиции и обратной сборке.

По сути — это тот же принцип map /reduce, но перенесённый на микроуровень и Data Mining перенесённый из мира небесных тел, в мир атомов и кварков.

About This Author

Яндекс.Метрика