Систематизация и классификация опечаток
Чтобы понять какое-либо сложное явление вначале надо понять хотя бы часть этого явления, детализировать и систематизировать причины.
Например, ранее я несколько раз обращался к механизмам обработки опечаток, включая алгоритм Левенштейна и вопросы алфавита в общем случае. Сейчас я затрону тему которую не хочу называть ни «нано», ни «семантикой» — пусть это будет самая простая и банальная систематизация явления с некоторыми выводами.
Рассмотрим ситуацию с опечатками. Классический подход, реализуемый в алгоритме Левенштейна в том что опечатки бывают, условно, 4-х типов:
1. Потерянная буква.
2. Лишняя буква.
3. Буквы перепутанные местами.
Например, часто вместо слова картридж пишут картрижд, а вот, почему-то, опечаток вроде картридя не бывает?
Причина очень проста — буквы д и ж расположены очень близко на клавиатуре, а также они идут друг за другом внутри слова.
По той же причине иногда имя Георгий пишут как Неоргий. Буквы Н и Г хотя и не созвучны, но находятся рядом и природа опечаток понятна — люди нажимают кнопки на клавиатуре находящиеся рядом с нужными.
Схожая ситуация с буквами лишними. В подавляющем случае лишняя буква появляется, либо та что идёт до неё, либо одна из находящихся рядом на клавишах.
Что я хочу всем этим сказать — природа значительного числа опечаток, если не всех, происходит от расположения кнопок на клавиатуре и от структуры слова, уровня его «ошибабельности». Вроде того же «картриджа», в котором ошибаются, по моим личным наблюдениям, очень часто.
Чтобы понять природу опечаток возможно и необходимо построить онтологию опечаток.
Эта онтология, фактически, будет алфавитной онтологией где помимо самих букв, будут представлены их отношения по физическому месторасположению. Так буква «й находится слева от ц» — означает что буква «й» обладает отношением к букве «ц» и это отношение основано на её физическом расположении с левой стороны от буквы «ц»
Далее онтология может расширятся созвучностью букв, соответствие латинскому алфавиту и так далее.
В итоге на основе построенной онтологии, формируются правила где по структуре слова и отношению букв можно определить наиболее вероятные опечатки.
В свою очередь обратное применение этих правил даст возможность находить наиболее вероятные (по смыслу) кандидаты словам с опечатками.
Поделиться в соц. сетях
-
L
-
http://sigmund.ru Sigmund
-
http://ivan.begtin.name ivbeg
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






