Систематизация и классификация опечаток

Чтобы понять какое-либо сложное явление вначале надо понять хотя бы часть этого явления, детализировать и систематизировать причины.

Например, ранее я несколько раз обращался к механизмам обработки опечаток, включая алгоритм Левенштейна и вопросы алфавита в общем случае. Сейчас я затрону тему которую не хочу называть ни «нано», ни «семантикой» — пусть это будет самая простая и банальная систематизация явления с некоторыми выводами.

Рассмотрим ситуацию с опечатками.  Классический подход, реализуемый в алгоритме Левенштейна в том что опечатки бывают, условно, 4-х типов:

1. Потерянная буква.

2. Лишняя буква.

3. Буквы перепутанные местами.

Например, часто вместо слова картридж пишут картрижд, а вот, почему-то, опечаток вроде картридя не бывает?

Причина очень проста — буквы д и ж расположены очень близко на клавиатуре, а также они идут друг за другом внутри слова.

По той же причине иногда имя Георгий пишут как Неоргий. Буквы Н и Г хотя и не созвучны, но находятся рядом и природа опечаток понятна — люди нажимают кнопки на клавиатуре находящиеся рядом с нужными.

Схожая ситуация с буквами лишними. В подавляющем случае лишняя буква появляется, либо та что идёт до неё, либо одна из находящихся рядом на клавишах.

Что я хочу всем этим сказать — природа значительного числа опечаток, если не всех, происходит от расположения кнопок на клавиатуре и от структуры слова, уровня его «ошибабельности». Вроде того же «картриджа», в котором ошибаются, по моим личным наблюдениям, очень часто.

Чтобы понять природу опечаток возможно и необходимо построить онтологию опечаток.

Эта онтология, фактически, будет алфавитной онтологией где помимо самих букв, будут представлены их отношения по физическому месторасположению. Так буква «й находится слева от ц» — означает что буква «й» обладает отношением к букве «ц» и это отношение основано на её физическом расположении с левой стороны от буквы «ц»

Далее онтология может расширятся созвучностью букв, соответствие латинскому алфавиту и так далее.

В итоге на основе построенной онтологии, формируются правила где по структуре слова и отношению букв можно определить наиболее вероятные опечатки.

В свою очередь обратное применение этих правил даст возможность находить наиболее вероятные (по смыслу) кандидаты словам с опечатками.

About This Author

  • L

    а 4 пункт вы специально забыли? :)

  • http://sigmund.ru Sigmund

    Самая частая ошибка это в имени «Юля»

  • http://ivan.begtin.name ivbeg

    2Sigmund Именно эту ошибку и сложнее всего классифицировать как ошибку.

Яндекс.Метрика