Лингвистика, работа с текстом и частотный анализ

По рзеультатам одонго орпоса слато пноятно. Не иемет занчнеия,

в кокам пярокде рсапожолены бкувы в солве. Галвоне,

чотбы превая и посляендя бквуы блыи на совём мсете.

Читая материалы по статистике частоты употребления слов в русских и английских текстах убеждаюсь что и среди них тоже очень много «измерений средней температуры по больнице». К примеру, многое ли скажет частота употребления букв в русском языке? Например, криптографам, да, это нужно да и то, на самом деле, есть куда более интересная статистика.

Например, визуально и по прочтению текста где в каждом слове все буквы кроме первой и последней произвольным образом переставляются, тем не менее текст остаётся вполне читаемым. Но это суть наблюдение, а в чём причины этого явления?

Суть в том что слово преобразованное таким образом показывает нам:

— первую букву слова

— последнюю букву слова

— длину слова

— набор букв составляющих буквы между первой и последней буквой путём перестановок.

Практически сразу можно убедиться что все слова с числом букв менее 4 будут понятны автоматически — две буквы заранее известны, третью, для слов из 3-х букв, не с чем переставлять.

Далее для все слова из 4-х букв читаются аналогично просто так как достаточно переставить 2-ю и 3-ю буквы чтобы получить оригинальное слово.

Для пяти букв вариантов прочтения будет 6 — что чуть сложнее, но, тем не менее читается легко.

Кажется что дальше для более длинных слов будет сложнее? На самом деле это только кажется.

Фокус в том что для принятия решения о том что же за слово в 30% случаев, достаточно первой и последней буквы и знать длину этого слова. А в остальных случаях по контексту выбрать значение из набора от 2-х до 15 слов в зависимости частотной таблицы построенной по первой букве, последней букве и длине слова. Причём в большинстве случаев необходимо будет перебрать не более вариантов 3-4-х слов. А для слов длиннее 8 букв и того меньше.

Фокус с перестановками же лишь облегчает выбор слова из набора и даёт возможность подобрать слова не прибегая к мат. расчётам, проведя их в голове. Конечно и для алгоритма подбора слов, знание переставленных букв может упростить и ускорить их подбор, но безусловно необходимыми эти знания не являются.

Ещё одно наблюдение по частотному распределению это то что частоты встречаемости букв сильно варьируются в зависимости от позиции буквы в слове.

Например, для букв в начале слова лидерами являются:

с, п, в, н, о, и, м, к

Достаточно сравнить с частотной таблицей для букв без оглядки на их позиции в словах:

о, а, е, и, н, т, р, с

И те и те другие значения получены из корпруса 10 текстов разных жанров библиотеки Мошкова.

Ну а к вопросу зачем это вообще нужно, то областей применения куда больше чем может показаться. Начиная от криптографии, где, имхо, этот вопрос уже менее актуален и продолжая возможностями разгадывания кроссвордов и слов в «Поле чудес» алгоритмическим образом.

About This Author

  • Aleksez

    Да это дстельвитнейо так!

  • Ирина

    Просидела вечер пытаясь найти частоту встречаемости первых и последних букв в словах. Частотный список букв -пожалуйста, биграмм — тоже, а эти данные, похоже, исследователей мало волнуют. Хотя, полностью согласна, знание именно первой и последней буквы существенно «угадывания» слова.

Яндекс.Метрика