Инфографика речей Медведева с коррекцией на нормальные формы слов

Как Вы помните я совсем недавно размещал карты слов/тэгов по речи Медведева у себя в блоге. Это такая довольно забавная инфографика сгенеренная с помощью Wordle и многим она нравится.

Но, с этой инфографикой есть одна небольшая но существенная проблема. В русском языке слова в зависимости от падежа и других способах их изменения меняют своё написание. В результате если в тексте упоминается общество как слово «общество» и как слово «обществу» и как «обществом», то это будут разные слова и итоговую частоту упоминания не словоформы, а смысла мы теряем. И единственный способ это преодолеть — это подсчет упоминаемости не слов, а их нормальных форм.

Ну а поскольку я периодически и сам берусь за клавиатуру дабы не потерять навыки, то буквально за час я набросал скрипт который использовал движки PyTagCloud для визуализации и pymorphy для приведения слов к нормальным формам. Причем из этого часа больше половины времени ушло на то чтобы подобрать хорошую визуализацию.

Как всегда, в роли экспериментальных кошечек использовались речи Дмитрия Медведева, что, впрочем, не должно ограничивать других в экспериментах над другими речами.

Итак, я подобрал несколько примеров. В каждом случае вначале буду приводить картинку без нормализации слов и потом из нормальных форм слов

Дмитрий Медведев выступил на конференции «Великие реформы и модернизация России» — http://www.kremlin.ru/transcripts/10506

Текст как есть без нормальных форм

Текст с нормальными формами слов

Послание Президента Федеральному Собранию 30 ноября 2010 года — http://www.kremlin.ru/transcripts/9637

Текст как есть без нормальных форм

Текст с нормальными формами слов

Послание Федеральному Собранию Российской Федерации 12 ноября 2009 года — http://www.kremlin.ru/transcripts/5979

Текст как есть без нормальных форм

Текст с нормальными формами слов

Как видите во всех случаях ключевые слова речи меняются. Например, в речи про реформы без приведения слов к нормальной форме, слова «страна» и «свобода» были лишь одними из ключевых, а после приведения слов они стали самыми ключевыми. В остальных случаях каждый может посмотреть самостоятельно что да как.

А исходный код можно посмотреть вот здесь — https://github.com/ivbeg/ruspytagmap, там же желающие и обладающие навыками работы с Python’ом могут, и просто поиграться с текстами, и сделать русский аналог Wordle.

About This Author

  • http://twitter.com/chedim Дмитрий Чижевский

    Linux, 1600*900, Chromium 11.0.696.71 (86024) Ubuntu 11.04 + FF 4.0.1 
    жостко расползлась вёрстка статьи  — подписи к картинкам обтекают их справа.
    можете повторить проблему просто уменьшив масштаб 😉

  • Hg

    оттовараивать:)

Яндекс.Метрика