Проблема с чтением бюллетеней Счетной Палаты
К вопросу о форматах документов и способах их публикации.
Я тут постоянно читаю бюллетени Счетной Палаты, не целиком, но самые интересные отчеты обязательно и вот какая нехорошая ерунда в них обнаружилась.
Полная их подборка тут — http://www.ach.gov.ru/ru/bulletin/ все в формате PDF
И если открыть какой-либо PDF документ, например, http://www.ach.gov.ru/userfiles/bulletins/01-buleten_doc_files-fl-1895.pdf то видно что там не сканы, а текст.
Но когда начинаешь по этому тексту искать — то можно увидеть что поиск работает только по латинским буквам и цифрам.
А вот если поискать по русским буквам то нифига не находится. Лично я проверял это Foxit Reader’ом и Adobe Reader’ом. И перепроверял на других документах других ведомств вроде этого — http://www.ed.gov.ru/files/materials/9554/Izmenenie_1_v_AD_JA_68a.pdf — по ним поиск работает нормально
Кстати поисковик Гугля всё таки текст из таких документов умеет извлекать. Видимо он распознаёт по начертанию, смотрим тут — http://www.google.com/search?hl=en&q=site:ach.gov.ru+filetype:pdf+ОКОГУ&aq=f&aqi=&aql=f&oq=&gs_rfai=
А вот Google Docs не умеет. Если загрузить туда такие документы, то вместо русских букв выдаёт кракозябры.
Если у кого есть возможность проверить в других программах — буду благодарен.
Итого:
Очень хочется надеяться что это техническая случайность. А Счетной Палате явно нехватает блога куда об этом можно было бы написать.
UPDATE: Со слов знакомых с ситуацией — это техническая случайность и, я надеюсь, будет скоро исправлена. Лично мне, как любителю почитать отчеты Счетной Палаты — это бы очень помогло.
Но, на всякий случай, письмо на email’ы пресс-службы и ИТ департамента я отправил.
Поделиться в соц. сетях
-
http://avm.myopenid.com/ Александр Мыльцев
-
http://ivan.begtin.name Ivan Begtin
-
Yury
-
http://ivan.begtin.name Ivan Begtin
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






