Можно ли использовать индексы читаемости текстов?

В продолжение обсуждений/рассуждений о непонятности государственных текстов, рассмотрим эту проблему чуть шире. А ещё точнее, взглянем на эту проблему с точки зрения читаемости текстов.

В английском языке это называется readability и, как оказалось, анализ читаемости для английского языка один из самых развитых в мире. Причём этот анализ, как правило, ориентирован в 3-х направлениях:

— оценка понимаемости текстов для школьников и студентов.

— проверка медицинских текстов на понимаемость пациентами

— проверка понимаемости текстов технических инструкций военным персоналом.

Для чего существует несколько тестов для оценки читаемости — readability tests

В Википедии есть ссылки на множество из них. Например вот:

LIX — шведский алгоритм, оценивает читаемость формуле использующей число слов в тексте, число предложений и число слов с более чем 6 символами

Coleman-Liau Index — американский алгоритм рассчитывающий уровень школьного образования необходимый для понимания текста. Использует параметры числа слов и числа предложений на 100 слов текста.

Fry Readability Formula — американский алгоритм, также, рассчитывающий уровень школьного образования необходимый для понимания текста. Использует такие параметры как число предложений на 100 слов и число слогов

Gunning Fog Index — ещё один алгоритм на тему американского школьного образования. Использует такие параметры как число предложений на 100 слов, средний размер предложения и число сложных слов с 3-мя и более слогами.

Lexile — это такой инструмент/программа для используемая для анализа текстов на пригодность к пониманию людьми разных возрастов.

Raygor Readability Estimate — ещё один алгоритм на тему американского школьного образования. Использует такие параметры как число предложений на 100 слов и число слов с более чем 6 буквами.

Другие тесты: SMOG — для анализа текстов в области медицины, Linsear Write — для анализа пригодности к чтению технических мануалов, Automated Readability Index и многие другие.

Практически все эти тесты ориентированы на быстрый машинный анализ. И у всех у них есть один общий недостаток — они предназначены для английского языка. Даже если взять те которые не ориентированы на американскую образовательную шкалу, их всё равно необходимо адаптировать под русский язык.

В, принципе, для русского языка существует есть адаптация, например, индекса Флэша упоминаемая в статье Оборневой, однако, тут, конечно, хорошо бы знать мнение специалистов.

И, наконец, после того как Вы всё это прочитали — посмотрите на вот этот текст What’s wrong with Readability Formulas? от некоммерческой организации «Center of Plain Language».

Все эти формулы слишком просты и могут не отражать реального уровня запутанности текстов. Ключевое же их достоинство — в простоте расчёта.

Впрочем у американцев есть множество государственных документов с инструкциями по чёткому и правильному изложению официальных текстов. В частности — Federal Plain Language Guidelines (PDF, 112 страниц) , How to use Plain Language on the Government Website и другие руководство на сайте PlainLanguage.gov

Можно ли и нужно ли проводить адаптация одного из таких индексов?  Если это не сложно, то вполне возможно что стоит, для сравнения с другими метриками.  Но основной метрикой это не может быть ни коим образом.

Я склоняюсь к мнению что для анализа «непонимаемости» гостекста оптимально использовать несколько текстов:

— машинная оценка читаемости по индексу (очень просто сделать)

— лексический/терминологический анализ и метрика «терминологизации» (не очень сложно сделать)

— расчёт метрики избыточности и усложнённости в тексте когда используются сложные словесные обороты, лишние слова вроде «осуществляемый» или «данный» (уже непросто)

— оценка граждан через краудсорсинг (вполне возможно)

— экспертная оценка (тоже возможно, однако требует большей организации)

В том что касается технических решений можно начать с простого и двигаться постепенно. А вот в том что касается краудсорсинга то тут есть задачи которые просто таки просятся.

Во-первых краудсорсинг может быть сделан просто на уровне рейтингования и комментирования. Особенно в том что касается речей политиков/чиновников/завершённых документов

Во-вторых можно подумать над инициативой «Перепишем вместе!». Когда берётся публичный текст и граждане его переписывают своими словами и рейтингуют. Например, можно взять тексты что написаны в публичном транспорте, в объявлениях там же, в органах милиции, в паспортных столах, пенсионных фондах, инструкциях и правилах использования — метрополитена, наземного транспорта и так далее.

Ну и, конечно, конкурсы. Конкурсы надо делать обязательно. Конкурс «чистописателей» и «грязнописателей» по тому насколько их тексты хороши / плохи. Такие конкурсы проводит тот же Center of Plain Language как ClearMark и WonderMark. Вот тут подробнее —  http://centerforplainlanguage.org/awards/

P.S. Кстати Леонид Ильич вчера говорил на схожую тему про «грязную информацию» на госсайтах. Правда, я лично, почему-то до сих пор считаю что грязная информация это то что мы в «Официально» нарываем как публикуемую госами чернуху — http://federal.polit.ru/list/bad/, но всему своё время.

А пока продолжаем предпринимать шаги к тому чтобы сделать государство понятным.

 

 

 

 

 

About This Author

  • http://17slonov.ru Marsel

    Я думаю, «сложный» текст можно проверять нейронными сетями, натренированными на детских сказках, анекдотах и жёлтой прессе, тогда тексты, например законов точно не пройдут :)

Яндекс.Метрика