Прорабатываем идею: «Измеритель непонятности гостекстов»

Помните в Apps4Russia была идея — Измеритель непонятности государственных текстов. Основная мысль идеи очень проста — чиновники и законодатели пишут невообразимые тексты законов, приказов и концепций непонятные всем-нормальным-людям. И измерителя непонятности очень нехватает, хотя бы для того чтобы засовывать в него законопроекты и показывать их качество с точки зрения понятности изложения. Да и речи чиновников туда тоже стоит засовывать для измерения их близости к народу.

В общем и целом — штука востребованная, но пока никем не начатая.

И вот какая у меня возникла мысль — надо эту идею проработать. И вот как мы можем это сделать.

Для начала я вижу два самых очевидных пути реализации такого сервиса.

1-й путь — это измерение частоты встречаемости «устойчивых словосочетаний» вроде «нормативно-правовая база» и так далее и по их общему числу встречаемости и по весу каждого словосочетания можно определять критическую массу нечеловекочитаемости в данном тексте. Это сравнительно несложный путь для него нужна база словосочетаний. Хотя бы из 100-200 вариантов, а лучше больше.

2-й путь — это анализ самых выдающихся примеров нечеловекочитаемых документов и на их основе построение списков частот слов. Соответственно надо 10-20 таких примеров и на основе их составить «частотную карту». Её надо будет очистить от stop words и далее можно измерять нечеловекочитаемость в тексте по доле слов которые попадают в топ-100 из выборки ранее проанализированных текстов.

Оба подхода, конечно, очень упрощённые и специалисты по машинной лингвистике могут описать более правильные схемы реализации, но с них вполне можно начать.

А пока предлагаю всем покидать мне в комментарии примеры словосочетаний маркеров нечеловекочитаемости и текстов отличающихся повышенной нечеловекочитаемостью которые могли бы стать основой выборки.

Какие словосочетания вижу я лично:

нормативно-правовая база

— нормативно-правовые акты

— информационно-аналитическая система

— осуществляемые функции

— функции уполномоченного

— осуществляющего регулирование

— соответствующих действий

— в том числе посредством использования

— органы власти субъектов Российской Федерации

— органы местного самоуправления

— финансово-хозяйственная деятельность

— интерактивный доступ

— спектр функциональных возможностей

— создаёт возможность

— публично-правовые образования

— будут обеспечивать

— формирование методологии

— повышение эффективности

— создаст условия для

— создаваемый в целях обеспечения

— основано на максимальном использовании

— в соответствии с функциями и полномочиями

— предоставляется возможность обеспечения

И так далее.

А какие тексты вы считаете непонятными и какие словосочетания особо бюрократическими?

 

 

About This Author

  • http://twitter.com/otkds Denis Otkidach

    Визитная карточка бюрократических текстов — сочетание глагола, не несущего смысловой нагрузки, и существительного действия:
    выполнить …
    провести …
    реализовать …
    обеспечить [комплекс мер/мероприятий по] …
    принять [срочные] меры по …
    внести изменения

    Ещё хуже, попадаются аналогичные деепричастные обороты.

    Все примеры взяты из парочки последних текстов поручений Президента.

    • http://ivan.begtin.name Ivan Begtin

      спасибо.

  • http://profiles.google.com/eugene.beschastnov Eugene Beschastnov

    Может быть, добавить ещё обратную связь с читателями? Т.е. люди читают статью и оценивают — понятная она или нет, а на основании этой информации составляется/обновляется список признаков (хотя бы тем же Байесом).

    • http://ivan.begtin.name Ivan Begtin

      Обратную связь нужно обязательно — это немного другой формат, но вполне укладывающийся в инициативу «понятное государство»

  • http://www.aceler.ru/ Aceler

    Как правило, проблема бывает не в самих текстах, а в концентрации маразма в руководящих документах. Когда после прочтения каждого предложения возникает вопрос «зачем???», на который нет ответа.

    • http://ivan.begtin.name Ivan Begtin

      Маразм, увы, автоматикой не измерить, тут люди нужны. Чистый краудсорсинг.

  • http://si14.livejournal.com/ si14

    Также, можно оценивать среднюю длинну предложений и сложность их структуры (правда, понадобится вычленять подлежащие/сказуемые и анализировать предлоги). Длинные сложноподчинённые предложения это ад. Тренировать можно на текстах Толстого :)

  • http://twitter.com/gosuslugibad GosuslugiBad

    обеспечение прав граждан и организаций
    дублирование функций и полномочий
    бюджетное планирование
    принцип законности
    в пределах своих полномочий

    • http://ivan.begtin.name Ivan Begtin

      Спасибо.

  • http://www.facebook.com/ivan.ninenko Ivan Ninenko

    Вот шедевральный ответ из Тульской прокуратуры. Там на второй странице фраза «отсутствовала
    причинно-следственная связь между
    действиями должностных лиц, осуществляющих
    организацию доступа к информации о
    деятельности мировых судей, и отсутствием
    таковой информации на официальных
    сайтах»

    Подходит?

    http://askjournal.ru/files/ima
    http://askjournal.ru/files/ima

    • http://ivan.begtin.name Ivan Begtin

      Отличный пример! Спасибо.

Яндекс.Метрика