Сен 30 2009

Infogeeks / Инфогики

Tag: datasets, из жизни, информацияivbeg @ 4:31 пп

Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где «мета» обозначает концептуальную модель её производства, существования и структуры.

Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.

Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.

В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.

Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.

Кстати, большой плюс у такого хобби в его безграничности.


Сен 29 2009

Про госзакупки и блоггерские активности

Недавно в ЖЖ я нашёл нечто вроде сообщества zakupki-news (http://zakupki-news.livejournal.com/) где публикуют разные интересные или необычные тендеры.

Да и в последнее время резко участились ссылки блоггеров на zakupki.gov.ru и другие аналогичные сайты, так что явно интерес к теме проснулся (спустя 4 года после принятия 94-ФЗ). Лично я все такие публикации уже давно мониторю и читаю.

Скажу честно, отношение к этому явлению у меня неоднозначное, так что я сформулирую его тезисно, кое в чем выступая в качестве «адвоката дьявола»:

1. Все разговоры о том что кто-то из госзаказчиков что-то закупает ненужное или очень дорогое, вместо того чтобы помогать пенсионерам, больным детям, бездомным, инвалидам и так далее – это ничто иное как популизм. Причём популизм дешёвый и неверный. По факту у каждого государственного учреждения есть лимиты выделяемых им из бюджетов средств в рамках которых они ведут свою деятельность, выплачивают зарплату и объявляют конкурсы, аукционы и прочие торги. При этом необходимо понимать что:

a. У них нет наличных денег. Все средства перечисляются из отделения казначейства которое выступает в качестве кассира и переводит их в безналичной форме.

б. Если деньги выделены на обеспечение деятельности бюджетного учреждения, но, не израсходованы полностью, то потратить их на что-либо кроме тем на которые они были зарезервированы невозможно кроме как нарушив закон невозможно. Просто напросто казначейство не одобрит платеж.

2. Эти же ограничения по тому на что и как можно потратить средства в равной степени относятся к словам ряда чиновников которые вещают про сильную экономию на аукционах и электронных аукционах. Даже если экономия есть – это экономия в рамках определенной статьи расходов и эффект от неё достигается только когда заведомо известно на что деньги будут потрачены по её результатам.

3. Ни одно бюджетное учреждение, на самом деле, не имеет стимулов к экономии так как чем меньше они потратят средств в течении года тем меньше они получат средств в следующем. Я думаю что понятно что любой чиновник, что честный, что коррупционной мотивированный – заинтересован в экономии не будет.

4. Надо понимать что российская система госзакупок одна из самых прозрачных в мире. Это ни капли не шутка. В некоторых вопросах возможно что даже самая прозрачная. Те кто не согласен, приведите ссылки на зарубежные сайты закупок с полной доступностью конкурсной и аукционной документации и протоколов.

Проблемы же у нас не с прозрачностью как таковой, а в том что без некой зрелости общества она не работает. Закон действует уже 4 года, а активный гражданский мониторинг закупок начался только сейчас. А главная российская особенность в высокой толерантности бизнеса к коррупции. Конкурсы подготовленные под определённого поставщика воспринимаются как норма, а не как исключения.

5. Поскольку, как я ранее упомянул, с прозрачностью у нас гораздо лучше чем с самоорганизацией бизнеса или граждан, то и есть вероятность что доступность информации в будущем может снизится. Сделать это можно как организационно, введя предварительную регистрацию на едином сайте который будет создаваться в 2009-2010 годах, так и технологически – выведя большую часть сайта из под индексирования, минимизировав возможности распространения информации не допуская пермалинков (постоянных ссылок) и так далее. Причём всё это может быть сделано под эгидой самых благих побуждений – минимизации нагрузки на сайт и так далее и тому подобное. Не стоит забывать про возможность законодательных ограничений, которые, впрочем, лично я считаю мало вероятными. Как бы то ни было гражданский мониторинг госзакупок не заработает без доступности информации, а доступность эта будет складываться из многих если.

6. В 2009-2010 году будет новая версия zakupki.gov.ru и сайт станет не только федеральным, но и вообще единым по закупкам государственных и муниципальных организаций в России. Причем планируется на него потратить 190 миллионов рублей. А желающие могут подробнее прочитать что и как будет создаваться в изменениях к Электронной России – http://www.government.ru/content/governmentactivity/insiderfgovernment/archive/2009/09/17/0d4a5909-4ed8-4aab-a4a9-bd7621ba4a8f.htm

Про доступность информации там, ожидаемо, ничего нет – ни в показателях, ни в описании системы.

И, самое главное.  Неважно какая форма торгов используется и даже неважно кто выиграл эти торги, как то:

1. Что предполагалось поставить, какие предоставить услуги и какие работы произвести.

2. Насколько работы оплата этих работ фактически соответствовала их рыночной стоимости

3. Какие контрольные точки были предусмотрены в процессе проведения работ. Какая отчетность была предоставлена.

4. Что было получено в результате? В каком состоянии? Является ли результат общедоступным?

и так далее.

А то есть главное – это контроль за результатами и предварительным планированием закупок.

И, напоследок, многие говорят про сертификацию поставщиков, например, по ISO 9000, а в ИТ есть ещё и CMMI. А вот знает ли кто-нибудь хотя бы одно государственное учреждение работающее по ISO 9000?

Учат ли этому хоть где-нибудь чиновников отвечающих за планирование, проведение и приёмку государственных проектов?

Есть ли само понятие проектных групп у госзаказчиков?

Разумеется, нет.

Отсюда и отношение к поиску «прикольных госторгов» у меня лично как к выведению родимых пятен у больного птичьим гриппом. Даже если сотню таких пятен вывести, больному это не поможет.


Сен 27 2009

Сокрытие информации и бинарные форматы файлов

Tag: аналитика, информацияivbeg @ 6:38 пп

Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.

Далее будут рассуждения и не более.

Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.

Правильные ответ – любые, какие только могут вздуматься производителю ПО, до которых это ПО может добраться и объём которых укладывается в полезную ёмкость контейнера для рассматриваемого формата.

Термин полезная ёмкость контейнера взят из стеганографии и он определяет то какой объём информации мы можем поместить в файл при этом сохранив остальное его содержимое неизменным для программ и людей которые с ним будут работать.

Фокус в том что стеганографические способы сокрытия метаданных обычно применяют в мультимедиа файлах – видео, изображениях и музыкальных файлах, например, через Least Significant Bit и ещё ряд методов. Когда нужно скрыть сравнительно большие объёмы данных или же возникает потребность в «скрытом канале информации», то по другому и не получится.

Но, вот в том то и хитрость что скрывать большие объёмы данных может потребоваться не всегда, а вот контроль и мониторинг действий пользователей можно обеспечить и малым объёмом наиболее важной информации.

И всё упирается в три простых понятия характеризующих любого разработчика ПО как компании работающего с такими форматами:

  1. Мотивация – есть ли у разработчика ПО потребность в получении скрытой информации о пользователе?
  2. Репутация – превышает ли потенциальная выгода от получения риск обнаружения?
  3. Квалификация – обладает ли компания квалифицированными кадрами чтобы обеспечить сокрытие информации?

Всё начинается с понятия мотивация и я приведу несколько потенциальных причин для её появления на неё влияющих:

1. Желание отслеживать «лицензионную чистоту» ПО по серийным номерам продуктов.

2. Желание отслеживать наличие/отсутствие ПО конкурентов.

3. Необходимость сотрудничества со спецслужбами, выполняя их требования по идентификации персоны по каким-либо оставленным файлам.

Иначе говоря, найти мотивацию возможно, и потенциальная выгода, в зависимости от ситуации, может быть довольно привлекательно, исходя из этого перейдём к другому понятию – репутация.

Главный риск любого тайного отслеживания пользователя в том что если это вскроется и получит огласку, то потом будет очень сложно доказать что всё это делалось для блага, а не с корыстными целями. Риски получения судебных исков будут более чем реальны и вопрос в том что же перевесит мотивация или репутация? Да, конечно, можно частично минизировать их, например, распространяя действие коммерческой тайны на форматы файла и запрещая дизассемблирование ПО. В этом случае репутационные риски могут возникнуть только в случае нарушения закона со стороны обнаруживших сокрытие данных. Как резюме – можно предположить ситуации когда производитель ПО может рисковать и использовать сокрытие информации несмотря на риски.

И, фактор третий, квалификация. Это ничто иное как способность программистов скрыть сам факт сбора информации и сохранение в файл. В квалификацию также можно включить наличие понимания того как определить полезную ёмкость информации для форматов файлов и использовать её.

При этом файл как контейнер для хранения этой скрытой информации будет обладать как очевидными так и неочевидными носителями информациями – участками и способами кодирования в которых скрытые данные могут передаваться.

Наиболее очевидными носителями информации будут:

  • Проприетарные участки файла для закрытых форматов
  • Резервные поля и блоки файла если формат является условно-открытым и часть описания присутствует, а часть нет.

Всё это довольно просто – если формат файла неизвестен никому или же в нём есть закрытые куски, то можно сохранять в нём куски из блока скрываемой информации подвергшиеся предварительному преобразованию – сжатию, кодированию, сглаживанию и так далее.

Но, кроме очевидных способов сокрытия данных найдутся и весьма неочевидные:

  • GUID’ы и UUID’ы – за счёт эмуляции псевдослучайных чисел присутствует по 16 байт на каждый уникальный идентификатор
  • уникальные идентификаторы объектов отличные от UUID, например, если формат файла XML подобен и внутри у записей есть уникальные идентификаторы используемые только внутри контейнера и не несущие смысловой нагрузки при интерпретации программами потребителями, то идентификаторы записей могут использоваться как носители скрытой информации.
  • использование особенностей чередования объектов/символов или стеганография пробелами для текстовых файлов.
  • сокрытие информации внутри бинарных объектов в файле контейнере, например, в мультимедиа файлах.

Иначе говоря, при необходимости можно скрывать информации даже в открытых форматах.

Собственно, а как это можно отследить и выявить?

1. Отслеживать обращения ПО к информации уникально идентифицирующей компьютер/персону. Например, выявлять попытки чтения адреса Ethernet или Wifi/Wimax адаптера, чтения CPUID, попытки доступа к хранилищам сертификатов, номерам лицензий ОС и других программных пакетов и так далее.

Но, во первых чтобы отследить все обращения нужен специальный софт который бы это мониторил, а во вторых, программы могут обращаться к такой информации не постоянно, а лишь единожды при запуске и далее сохранять её в памяти в неоднократно, но обратимо преобразованном виде.

2. Очисткой файлов от «бинарных блоков», например, перекодированием изображений и перегенерация кодов GUID/UUID.

3. Анализ аномалий в потенциальных носителях информации, но это уже совсем другая история.

Пока же могу сказать точно что у производителей софта гораздо больше возможностей отслеживать пользователей, чем у пользователей возможностей это предотвратить.

Такие дела.


Сен 24 2009

Ссылки: Инфографика бюджета

Tag: e-Government, eGovivbeg @ 11:37 пп

Сен 24 2009

Про госзакупки и азартные игры

Катерина в gov-gov.ru пишет про российских watchdog’ов в госзакупках, в некоторой степени к ним можно отнести и меня, особенно после всех этих публикаций с латиницей и прочими искажениями.

С одним лишь нюансом – про госзакупки я знаю не только снаружи, но и долгое время разбирался как работает их механизм начиная от принятия бюджетов ведомств и заканчивая результатами.

Поэтому могу сказать лишь одно, те конкурсы или аукционы ссылки на которые периодически циркулируют в благосфере, не то чтобы ерунда, но, как бы сказать помягче, очень несерьёзно. И не потому что там не может быть потенциальной или фактической коррупции или аффилированности заказчиков и поставщиков, а по той причине что проблема с госзакупками системная и от текущего законодательства страдают не только граждане, но и те вполне добросовестные госзаказчики.

На самом же деле сейчас процесс госзакупок в России сродни азартным играм. Если кто помнит фильм «Статский советник» (а может кто и книгу читал), так вот там все рассуждения князя Пожарского они ох как актуальны. А главная мысль оттуда что русский человек он ох как азартен и к чиновникам это относится в полной мере.

Чтобы понять это достаточно прикинусь:

1. Сколько закупок в заключается в год

2. Число нарушений выявляемых ФАС в год и оценка последствий этих решений

2. Кто отвечает за результат работ, услуг или поставки товаров

3. Число нарушений выявляемых генпрокуратурой в год и оценка последствий этих решений

4. Число нарушений выявляемых контрольно-счетными палатами субъектов, муниципалитетов и СП РФ и их последствия

В результате получится матрица рисков по которой можно определить чем, как и с какой вероятностью рискует представитель заказчика.

И про 94-ФЗ. Скажу честно, когда я слышу от кого-либо слова в его защиту, то сильно настораживаюсь ибо, либо человек не понимает/не хочет понимать, либо всё прекрасно понимает, что даже хуже.

Так вот 94-ФЗ – это «прозрачность в рамках матрицы рисков». Он позволил добавить ещё один фильтр проверки, в виде watchdog’ов, СМИ, особо активных граждан, но в нём всячески избегается любая систематизированная деятельность по выявлению «потенциальной коррупционной составляющей». Просто в матрицу добавилась отдельная строчка.

Но, как я писал ранее, русский человек азартен. И то что появляется новый, сравнительно редкий по частоте, но потенциально значительный приводит не к снижению коррупции, а к увеличению откатов.

Потому как:

a. Увеличиваются риски

б. Контроль за результатами куда меньше контроля за процедурами.

Отсюда и мы имеем, то что мы имеем и отсюда же моё скептическое отношение к деятельности ряда федеральных ведомств.


Сен 21 2009

Электронная Россия в сравнении редакций. Часть 2. Мероприятия

В первой части я привёл график и сравнение по расходам в зависимости от ведомств и редакции.

На сей раз обещанные денормализованные данные по мероприятиям в обеих редакциях. Учитывая что внутри эти редакции отличаются очень сильно, а кроме того предыдущая охватывала период в 4 года, а эта лишь на 1 год 3 месяца (условно тоже 2 года), то отличается там всё кроме расходом на мероприятия Рособразования и ФСО России.

Файл можно скачать тут – сравнение редакций ФЦП Электронная Россия

Если подробнее – в файле 4 вкладки:

- «Мероприятия ПП 502-16.08.2006″ – список направлений старой редакции программы

- «Мероприятия ПП 721-10.09.2009″ – список направления новой редакции программы

- «Сравнение направлений» – сравнение название направлений двух редакции ФЦП

- «Сравнение редакций ФЦП ЭР» – сравнение структуры расходов по ведомству, редакции и году

Во вкладках списков мероприятий все данные денормализованы, а то есть если за одно и то же мероприятие отвечает более одного ведомства, то для каждого из ведомств по данному направлению вносится отдельная строка.

Поэтому номера мероприятий не уникальны, а уникально сочетание: номер мероприятия + название ведомства

Провести детальный анализ каждый может самостоятельно, я же приведу ряд, возможно, неочевидных наблюдений:

1. В редакции от ПП 502 в большей части мероприятий одновременно участвовали Минэкономразвития и Росинформтехнологии вместе. В новой редакции мероприятий которые ведутся более чем одним ведомством очень мало.

2. Чуть ли ни ключевое изменение – отсутствие какого-либо серьёзного выделения средств субъектами федерации.

Ну и конечно желающие могут вооружится любимыми орудиями труда: Excel, Picalo, язык R и иные способы покрутить информацию на компьютере, в своей голове или любым иным общественно полезным способом.

Лично я подготавливал их для opengovdata.ru, где таблицы отсюда вскоре появятся.

Пожелания/предложения/замечания и кидание графиками приветствуются.


Сен 20 2009

Электронная Россия в сравнении редакций. Часть 1

Как многие знают вышла новая редакция Электронной России (прочитать и скачать её можно здесь – http://www.government.ru/content/governmentactivity/rfgovernmentdecisions/archive/2009/09/10/7594263.htm)

Но радость была бы не полной… Но одно дело когда текст представлен как текст и совсем другое данные для анализа. Я эти данные, потихоньку перевожу из DOC в Excel и далее CSV и прочие более полезные форматы.

Поэтому для ФЦП привожу первую порцию преобразованных данных как cравнение распределения расходов между редакциями от ПП 502 от 16 августа 2006 года и ПП 721 от 10 сентября 2009 года.

Плюс наиболее простой график на котором видны самые очевидные изменения в виде сокращении доли Росинформтехнологий и увеличение доли Минкомсвязи.

ScreenShot011

Впрочем используя данные из Excel’евского файла можно увидеть и меньшие изменения как-то сокращение капитальных расходов у Минэкономразвития и ФСО России, при сохранении прочих расходов и расходов на НИОКР.

Интересно, конечно, будет сравнить и изменение структуры мероприятий и ответственных за них, но это позже.

Кстати, тут имеется 4 уровня срезов данных – по постановлению правительства, по ведомству, по году, по виду расходов. Кто подскажет какой график лучше всего подойдёт для визуализации?

П.С. Если кто-нибудь занимается инфографикой или знает тех кто занимается, покидайте, плз, контакты/цены/ссылки на портфолио. Ибо есть у меня уже много данных и готовность заказывать их визуализацию.


Сен 16 2009

Disqus и комментарии к OpenGovData

На днях я перевёл все свои основные блоги на систему комментариев от Disqus (http://www.disqus.com)

Теперь он запущен на:

Главные плюсы – простота установки, удобство комментирования, поддержка авторизации через OpenID и Twitter, гибкость модерации и ведения черных и белых список и так далее

Главные минусы – это то что комментарии на сайте подгружаются через JavaScript и не индексируются поисковиками, не весь интерфейс переведён, нет российской специфики вроде авторизации через Яндекс (впрочем, имхо, не особо она и нужна).

И, ещё один, возможно даже ключевой плюс. Disqus можно подключать не только к блогам, но и к сайтам, что и собственно было сделано в случае OpenGovData.ru.

Так что от всех интересующихся жду замечаний/пожеланий/предложений к источникам данных, документам и собранным датасетам.

Примеры того как комментарии выглядят есть тут – http://opengovdata.ru/opendata/5/

Кстати, по поводу блогов чиновников без комментариев.

А можно и сделать такой федеральный проект на много миллионов рублей, провести его под эгидой ФСО, нанять толпу модераторов и отслеживать все неанонимные мнения (с использованием российской криптографии, разумеется).

Но куда проще будет прикрутить возможность комментирования можно и с помощью Disqus’а и с помощью схожих конкурирующих сервисов.


Сен 09 2009

Мой список Wanted data

Одно дело собирать уже раскрываемые данные и куда важнее те данные которых в открытом доступе нет, а, в лучшем случае, есть их производные.

Причём по моему наблюдению и если говорить о государственной информации, то чуть ли не самые интересные данные находятся в ведении региональных и муниципальных властей.

Я собрал небольшую подборку того какая информация была бы наиболее интересна и социально-полезна.

1. Всё что касается экологического мониторинга.

Это результаты замеров загрязнения атмосферы, поверхности воды, почв и так далее в форматах пригодных для дальнейшей обработки.

Например, я знаю что в Москве такая информация точно собирается. Ещё до июля месяца на сайте Департамента природопользования и охраны окружающей среды (http://www.moseco.ru) были данные мониторинга со станций. Сейчас те что мне удалось найти ограничены июлем месяцем и нет ничего в машиночитаемой форме.

Зато масса графиков, наложений на карты и прочих производных. Но от графиков польза нулевая, а вот на основе первичных данных можно было бы построить интересные машапы вокруг темы экологии в городе. Подозреваю что в других регионах ситуация не сильно лучше.

Кое-что, правда, есть на сайте ГПУ «Мосэкомониторинг», например, http://www.mosecom.ru/air/air-week/station/marin/ , но и это не машиночитаемые данные, а сравнительно легко извлекаемые из HTML таблицы.

2. Перечни всех городских строек.

Практически на всех стротельных объектах устанавливаются щиты с упоминанием кто является застройщиком, его контактные телефоны и т.д.

Вопросы:

а. Почему там нет их веб-сайта?  Это куда более важный канал информации чем телефон

б. Как узнать кто ведёт строительство и ремонт где в городе и когда он будет закончен? Вообще моё личное мнение что для того чтобы узнать кто из строителей шумит по ночам у меня под окнами я не должен идти и смотреть на эту табличку.

Помимо всего прочего эта информация позволит проводить мониторинг тех кто срывает сроки ремонта и строительства и учитывать идущие и планируемые стройки при переездах и тому подобное.

3. Актуальные перечни и адреса госучреждений и муниципальных (социальных) магазинов

Это перечни отделений департаментов соц. защиты, центров занятости, больниц и так далее. А то есть всех тех социально-значимых учрежений информация о которых людям необходима.

В значительном объёме эта информация и так уже публикуется, но если бы она публиковалась в машиночитаемой форме, то появились бы веб-ресурсы способные помочь людям которым эта информация необходима. Как минимум это могут быть специализированные машапы, а как максимум эта информация может пригодится и крупным поисковым игрокам для улучшения поисковой выдачи и собственных сервисов.

И так далее – это всё неполный список того что является Wanted Data для меня лично поскольку я точно знаю что нашёл бы применение перечисленным выше данным.

А что Wanted Data для Вас? Кому не сложно, напишите какие данные хотелось бы увидеть и были бы Вы готовы строить на них машапы, встраивать в свои сайты и так далее.


Сен 09 2009

Статус информации на сайте

Некоторые пресс-службы министерств и ведомств жгут.

Сегодня прочитал вот тут – http://www.rosoez.ru/public_waiting_room/stat_info/

—-

3. Авторские права
Дизайн и структура интернет-страниц, составляющих интернет-сайт РосОЭЗ, а также иные их элементы, являющиеся объектом охраны по закону Российской Федерации об авторских правах и интеллектуальной (промышленной) собственности, не могут воспроизводиться или имитироваться полностью или частично для создания на их основе новых информационных объектов либо для каких-либо иных целей, нарушающих указанное законодательство. Изображения, графика, звуковая или видео информация не могут копироваться для размещения на иных интернет-сайтах (интернет-страницах) либо для распространения путем создания копий на бумажных или магнитных носителях без разрешения Пресс-службы РосОЭЗ.

….

5.1. Лица (организации), желающие разместить гиперссылку на интернет-сайт РосОЭЗ (либо на его отдельные интернет-страницы) в целях использования в качестве элемента информационной (содержательной) структуры своего интернет-сайта (например: в каталоге, предусматривающим реконструкцию текста; в виде самостоятельной тематической рубрики и т.п.), а также в виде графической ссылки (баннера), в обязательном порядке уведомляют об этом Пресс-службу РосОЭЗ.

—-


Следующая страница »


Rambler's Top100