По поводу системного проекта по Электронной России

Собственно в Cnews прошла статья про этот системный проект — http://www.cnews.ru/news/top/index.shtml?2010/02/16/379863 и Илья Пономарев подверг его критике http://ilya-ponomarev.livejournal.com/410831.html.

Правда как я понимаю из статьи на Cnews, то критике подвергался не сам документ, а пояснительная записка к нему, однако документ неоднозначный и подвергать его бездеятельной критике, не предлагающей решений, у меня желания нет. Неинтересно.

Предлагаю критику деятельную:

1. «Обсуждение с народом» — это хорошая мысль когда поставлен процесс «общения с народом» и «народные мысли» четко структурированы и конструктивны. Поэтому обратим внимание на такой проект как Концепция Здравоохранения 2020 http://www.zdravo2020.ru/ где можно было публично этот документ обсудить. Я считаю что системный проект по электронной России должен быть не «эрзацем будущих внедрений», а живым документом с живым обсуждением и ничто не должно мешать сделать для него сайт, разбить документ по главам и дать возможность обсуждать каждую. Это, кстати, не потребует ни миллионых вложений, ни детальной аналитики, ни чего-то сверхсложного.

2. Что меня лично убивало во всех документах по ФЦП, не только по Электронной России, но и других — это в их зубодробительности и объёмности.  Универсального решения этой проблемы я не знаю, но думаю что то же самое «обсуждение с народом» должно преследовать цель поиска и его тоже.

3. Технический момент. С PDF документами без крепких выражений работать не получается. У SunLightLabs есть даже отдельный пост «Adobe is Bad for Open Government«. Да, я знаю плюсы PDF в виде цифровых подписей, ограничений на печать и копирование, удобство их печати и тому подобное. Однако Вы попробуйте хоть разок извлечь из них автоматически таблицу особенно большую и со сложными данными и поймёте что это за счастье. Например, мне бы очень хотелось получить из пояснительной записки что опубликовал Илья Пономарёв таблицу со списком баз данных стоящих на балансе федеральных органов власти. Да вот как бы не так! Даже ABBY PDF Transformer преобразует таблицы с массой ошибок особенно в длинных ссылках, а это один из лучших известных мне продуктов по преобразованию PDF в XLS.

В общем, формат имеет значение, особенно когда предполагается что с документом будут активно работать.

А в том что касается обсуждения документов, я давно думаю о том как можно было бы организовать их наиболее простым и удобным способом и все размышления пока упираются только в рутину по нарезке документов на главы. При наличии возможностей автоматизировать этот процесс, остальное решается быстро.

P.S. Кстати, если кто-нибудь знает способ эту таблицу оттуда всё таки извлечь не покорёжив текст и не поломав ссылки буду очень благодарен за помощь.

About This Author

  • http://twitter.com/ratxor ratxor

    Может быть быстрее будет распознать таблицу ABBYY FineReader?

    • http://ivan.begtin.name Ivan Begtin

      Насколько я знаю Finereader и PDF Transformer работают по одной и той же технологии, не думаю что тут могут быть существенные отличия.

      • http://catlion.name catlion

        А где можно взглянуть на этот документ?

  • http://www.okburo.ru/ Артем Геллер

    Ух, 460 страниц.

    • http://ivan.begtin.name Ivan Begtin

      Это ещё не так много, есть отчеты по НИОКР и большего объёма.

  • http://www.okburo.ru/ Артем Геллер

    Мысли на счет формата. PDF сейчас — идеальный вариант его плюсы перевешивают его минусы, в отсутствии альтернатив. Нельзя просто забывать про дублирование всех данных в машиночитаемом виде на серверах гос. органов.

    • http://ivan.begtin.name Ivan Begtin

      Если рядом с PDF'ом идёт машиночитаемый файл, то да. Если не идёт, то это большая проблема вроде той которую я пытаюсь решить извлекая таблицы из этой пояснительной записки. А ещё есть задачи с разбивкой документов законов на параграфы, автоматическое кросслинкование документов и не только.

      • http://www.okburo.ru/ Артем Геллер

        Это понятно, но на выходе и для печати должен быть pdf — это для людей, а для девелоперов внутренних и внешних легко можно выбрать машиночитаемый формат по душе.

        Вообщем надо дублировать. Или (что практически не возможно) делать другой форматю

  • http://twitter.com/ratxor ratxor

    Может быть быстрее будет распознать таблицу ABBYY FineReader?

  • http://ivan.begtin.name Ivan Begtin

    Насколько я знаю Finereader и PDF Transformer работают по одной и той же технологии, не думаю что тут могут быть существенные отличия.

  • http://catlion.name/ Artem K.

    А где можно взглянуть на этот документ?

  • http://ivan.begtin.name Ivan Begtin

    Вот тут — http://www.slideshare.net/iponomarev/100125-e-g… . Чтобы его скачать надо зарегистрироваться в SlideShare.

  • http://www.okburo.ru/ Артем Геллер

    Ух, 460 страниц.

  • http://www.okburo.ru/ Артем Геллер

    Мысли на счет формата. PDF сейчас — идеальный вариант его плюсы перевешивают его минусы, в отсутствии альтернатив. Нельзя просто забывать про дублирование всех данных в машиночитаемом виде на серверах гос. органов.

  • http://ivan.begtin.name Ivan Begtin

    Это ещё не так много, есть отчеты по НИОКР и большего объёма.

  • http://ivan.begtin.name Ivan Begtin

    Если рядом с PDF'ом идёт машиночитаемый файл, то да. Если не идёт, то это большая проблема вроде той которую я пытаюсь решить извлекая таблицы из этой пояснительной записки. А ещё есть задачи с разбивкой документов законов на параграфы, автоматическое кросслинкование документов и не только.

  • http://www.okburo.ru/ Артем Геллер

    Это понятно, но на выходе и для печати должен быть pdf — это для людей, а для девелоперов внутренних и внешних легко можно выбрать машиночитаемый формат по душе.

    Вообщем надо дублировать. Или (что практически не возможно) делать другой форматю

Яндекс.Метрика