Лингвистика, работа с текстом и частотный анализ
По рзеультатам одонго орпоса слато пноятно. Не иемет занчнеия,
в кокам пярокде рсапожолены бкувы в солве. Галвоне,
чотбы превая и посляендя бквуы блыи на совём мсете.
Читая материалы по статистике частоты употребления слов в русских и английских текстах убеждаюсь что и среди них тоже очень много «измерений средней температуры по больнице». К примеру, многое ли скажет частота употребления букв в русском языке? Например, криптографам, да, это нужно да и то, на самом деле, есть куда более интересная статистика.
Например, визуально и по прочтению текста где в каждом слове все буквы кроме первой и последней произвольным образом переставляются, тем не менее текст остаётся вполне читаемым. Но это суть наблюдение, а в чём причины этого явления?
Суть в том что слово преобразованное таким образом показывает нам:
- первую букву слова
- последнюю букву слова
- длину слова
- набор букв составляющих буквы между первой и последней буквой путём перестановок.
Практически сразу можно убедиться что все слова с числом букв менее 4 будут понятны автоматически — две буквы заранее известны, третью, для слов из 3-х букв, не с чем переставлять.
Далее для все слова из 4-х букв читаются аналогично просто так как достаточно переставить 2-ю и 3-ю буквы чтобы получить оригинальное слово.
Для пяти букв вариантов прочтения будет 6 — что чуть сложнее, но, тем не менее читается легко.
Кажется что дальше для более длинных слов будет сложнее? На самом деле это только кажется.
Фокус в том что для принятия решения о том что же за слово в 30% случаев, достаточно первой и последней буквы и знать длину этого слова. А в остальных случаях по контексту выбрать значение из набора от 2-х до 15 слов в зависимости частотной таблицы построенной по первой букве, последней букве и длине слова. Причём в большинстве случаев необходимо будет перебрать не более вариантов 3-4-х слов. А для слов длиннее 8 букв и того меньше.
Фокус с перестановками же лишь облегчает выбор слова из набора и даёт возможность подобрать слова не прибегая к мат. расчётам, проведя их в голове. Конечно и для алгоритма подбора слов, знание переставленных букв может упростить и ускорить их подбор, но безусловно необходимыми эти знания не являются.
Ещё одно наблюдение по частотному распределению это то что частоты встречаемости букв сильно варьируются в зависимости от позиции буквы в слове.
Например, для букв в начале слова лидерами являются:
с, п, в, н, о, и, м, к
Достаточно сравнить с частотной таблицей для букв без оглядки на их позиции в словах:
о, а, е, и, н, т, р, с
И те и те другие значения получены из корпруса 10 текстов разных жанров библиотеки Мошкова.
Ну а к вопросу зачем это вообще нужно, то областей применения куда больше чем может показаться. Начиная от криптографии, где, имхо, этот вопрос уже менее актуален и продолжая возможностями разгадывания кроссвордов и слов в «Поле чудес» алгоритмическим образом.
Поделиться в соц. сетях
-
Aleksez
-
Ирина
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






