Посты в категории: %d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f

О живых данных

В последние несколько месяцев от меня было куда меньше постов чем обычно по довольно простой причины — прямо сейчас я занимаюсь проектом довольно непростым понятийно и технически. Планировал я его несколько лет и только в этом году удалось приступить к реализации.

Проект, разумеется, связан с большими объёмами информации, её обработкой, классификацией

Читать больше

Сокрытие информации и бинарные форматы файлов

Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.

Далее будут рассуждения и не более.

Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.

Правильные ответ —

Читать больше

О законодательно-загадочном

Просматриваю в очередной раз ряд сайтов федеральных органов власти и поражаюсь одному факту. На многих из них есть разделы «графических копий документов», двух известных российских компаний причём никто не задаётся вопросами (что они делают на официальных сайтах??), а вот ссылок на ГРСПА (Государственная система распространения правовых актов) нигде нет!

При

Читать больше

Мысли дайджестом

IT: Только что вернулся со встречи посвящённой ProfyClub организованной Павлом Рогожином (http://pavel.rogozhin.ru/?p=304). Общее впечатление что у затеи может быть будущее и некоммерческая организация — это неплохая задумка. Конечно, всё будет зависеть от того как пойдёт процесс, но поучаствовать в нём стоит.

—-

eGov: Cnews пишут что тема госуслуг переходит в Ростелеком

Читать больше

Скиур: некоторые цифры и развитие

Для тех кто может быть не знает, Скиур — мой небольшой экспериментальный проект продолжает жить, правда пока его развитие несколько притормозилось, но не от того что нет идей куда развивать, а поскольку есть другие не менее интересные проекты.

Цифры

Пока же приведу некоторые цифры:

— всего из активно используемых веб страниц имеется

Читать больше

Infogeeks / Инфогики

Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин — InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик,

Читать больше

OpenGovData: Государственный рубрикатор научно-технической информации

Ещё одно пополнение для OpenGovData.ru — государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.

Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 —  http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.

ГРНТИ, кстати — это один

Читать больше

Автоматическое индексирование отсканированных документов

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск — например, вот так и щелкнув на ссылку «просмотреть» переходим в Google

Читать больше

MongoDB

Вторую неделю экспериментирую с MongoDB . Для тех кто не знает — это такая экспериментальная база данных ориентированное на хранение в виде документов (document-based), похожая на CouchDb по идеологии и по принципам работы.

По результатам впечатления смешанные.

С одной стороны к плюсам можно отнести то что:

Сжатие документов. Итоговая сравнительная таблица

В результате всех экспериментов со сжатием файлов получилась следующая таблица результатов.

Объём Процентов
Без сжатия 70745088 Читать больше

Яндекс.Метрика