Прорабатываем идею: «Измеритель непонятности гостекстов»

Помните в Apps4Russia была идея — Измеритель непонятности государственных текстов. Основная мысль идеи очень проста — чиновники и законодатели пишут невообразимые тексты законов, приказов и концепций непонятные всем-нормальным-людям. И измерителя непонятности очень нехватает, хотя бы для того чтобы засовывать в него законопроекты и показывать их качество с точки зрения понятности изложения. Да и речи чиновников туда тоже стоит засовывать для измерения их близости к народу.

В общем и целом — штука востребованная, но пока никем не начатая.

И вот какая у меня возникла мысль — надо эту идею проработать. И вот как мы можем это сделать.

Для начала я вижу два самых очевидных пути реализации такого сервиса.

1-й путь — это измерение частоты встречаемости «устойчивых словосочетаний» вроде «нормативно-правовая база» и так далее и по их общему числу встречаемости и по весу каждого словосочетания можно определять критическую массу нечеловекочитаемости в данном тексте. Это сравнительно несложный путь для него нужна база словосочетаний. Хотя бы из 100-200 вариантов, а лучше больше.

2-й путь — это анализ самых выдающихся примеров нечеловекочитаемых документов и на их основе построение списков частот слов. Соответственно надо 10-20 таких примеров и на основе их составить «частотную карту». Её надо будет очистить от stop words и далее можно измерять нечеловекочитаемость в тексте по доле слов которые попадают в топ-100 из выборки ранее проанализированных текстов.

Оба подхода, конечно, очень упрощённые и специалисты по машинной лингвистике могут описать более правильные схемы реализации, но с них вполне можно начать.

А пока предлагаю всем покидать мне в комментарии примеры словосочетаний маркеров нечеловекочитаемости и текстов отличающихся повышенной нечеловекочитаемостью которые могли бы стать основой выборки.

Какие словосочетания вижу я лично:

нормативно-правовая база

— нормативно-правовые акты

— информационно-аналитическая система

— осуществляемые функции

— функции уполномоченного

— осуществляющего регулирование

— соответствующих действий

— в том числе посредством использования

— органы власти субъектов Российской Федерации

— органы местного самоуправления

— финансово-хозяйственная деятельность

— интерактивный доступ

— спектр функциональных возможностей

— создаёт возможность

— публично-правовые образования

— будут обеспечивать

— формирование методологии

— повышение эффективности

— создаст условия для

— создаваемый в целях обеспечения

— основано на максимальном использовании

— в соответствии с функциями и полномочиями

— предоставляется возможность обеспечения

И так далее.

А какие тексты вы считаете непонятными и какие словосочетания особо бюрократическими?

 

 

About This Author

Яндекс.Метрика