Фев 27 2009

ИИБР сообщает. Лидеры бесполезных рейтингов

Tag: почти несерьёзно, юморivbeg @ 5:53 пп

ИИБР (Институт исследования бесполезных рейтингов) сегодня опубликовал внеочередное исследование бесполезных рейтингов в который вошли 3 наиболее известных российских рейтингов. 

Рейтинг «бесполезных рейтингов» (далее рейтинг БР) был основан на глубинном анализе чакр, астральных всплесков и продолжительности гомерического хохота экспертов института. 

Исследователи отмечают, что подобный рейтинг, с учётом всех закрытых и открытых параметров исследования, впервые публикуется в Российском сегменте сети Интернет и должен быть востребован как отраслевыми экспертами, так и специалистами по проведению специализированного рейтингования.

Рейтинг бесполезных рейтингов

AAA | Рейтинг устойчивости Российских ИТ компаний

BBB | Рейтинги открытости сайтов государственного заказа и открытости государственных сайтов

CCC | Рейтинг прозрачности государственных закупок

Евлампий Деревяшкин, главный эксперт консалтингового агенства «Цветущий буратино» отметил что «рейтинг, бесспорно, инновационен и показывает рост конкуренции в секторе БР.»  И добавил что «Если ранее при чтении рейтинга его развлекательная составляющая не превышала 0.25 Петросяна, а в среднем была лишь около 0.1, то достижение планки в 0.75 петросяна у лидера рейтинга можно считать отраслевым рекордом».

Мы попросили разъяснить рейтинг неизменного председателя ИИБР Пафнутия Адольфовича Стервятникова.  «В этом году мы решили отойти от уже привычной практики распространения рейтингов посредством точечных астральных всплесков и азбукой глухонемых на расстоянии не менее километра от получателя и рискнули впервые разместить наш рейтинг в сети Интернет».

Напомним, что Институт исследования бесполезных рейтингов, является уникальным, существующим уже более 50 лет учреждением, эксперты которого, используя уникальную методику кармической защиты, рискуют читать бесполезные рейтинги более одного раза в сутки. 

 

На правах художественного произведения.  Перепечатка разрешается и приветствуется.


Фев 27 2009

Личные ощущения в период кризиса

Tag: Енот Поискун, размышленияivbeg @ 1:55 пп

В качестве краткого оффтопа.

Пожалуй, сейчас, когда кризис уже всё таки есть я могу просуммировать и свои личные ощущения от происходящего и собрать воедино как это отразилось на мне лично и, уверен, что я не единственный кто может так просуммировать.

Рабоче-Исследовательское

1. Значительное перераспределение времени между работой на заработок денег и исследованиями в области анализа данных, шаблонов извлечения информации, анализа соц. сетей и так далее.  В совокупности порядка 10 направлений.

2. Вынужденная заморозка ряда личных исследовательских проектов в сети. Если раньше было время развивать как Социоранк (www.sociorank.ru) так и Скиур (www.skyur.ru), то сейчас возможностей развития существенно меньше из-за меньшего времени. С полу-закрытыми проекты такие как анализ платных ссылок (новая версия алгоритма) и движок извлечения, очистки и обогащения данных ситуация та же – они требуют времени которого,  увы, меньше чем хотелось бы. Хотя и некоторые «хвосты» из этих проектов сейчас я переношу в виде сервисов расшифровки кодов в Еноте и закидываю в статьи в Википедии посвящённые гос. кодам, но это капля имеющихся наработок.

3. Перевод доступа к данным в Еноте Поискуне в бесплатный доступ. Фактически,  на этот проект кризис повлиял довольно отрицательно в части платных услуг, но проект будет существовать в любом случае ибо инновационных разработок (инновационных для именно этой области) в него было вложено очень много. Автоматическая классификация закупок, организаций, регионов и ряд алгоритмов обогащения данных тестировались именно там.

Финансовое

4. Лично удалось пронаблюдать несколько людей которых кризис затронул довольно сильно и ряд из них так и не привели свои амбиции в соответствие с реальностью не взирая на здравый смысл и не понимая последствий для себя и других .  Видеть это более чем печально, но бывает и не такое. Проехали, живём дальше.

5.  Падение реальных доходов. При том что инфляцию никто не отменял, ко всему и девальвация. Мне лично помогает два фактора:

  • принцип «никаких кредитов» которого я придерживаюсь вот уже лет 10. Лучше жить относительно спартанской жизнью, чем за счёт собственного будущего.
  • «машинофобия» – у меня давняя и благоприобретённая нелюбовь к автомобилям, благодаря которой я не обзаводился ими и не планирую в ближайшее время что также снижает ежемесячные расходы. 

 

А в остальном, лично мне жаль лишь что меньше времени на исследования и только, в остальном же только плюсы – внешнее давление мобилизует.


Фев 26 2009

О данных, их качестве и использование выборок

Tag: алгоритмы, размышленияivbeg @ 3:56 пп

Работу с данными, особенно с большими и/или сложными их массивами можно сравнить, до некоторой степени, с приготовлением пищи. 

Например, чтобы изготовить булочки с корицей и  черносливом необходим не только главный ингридиент – мука, а ещё и длительный процесс по подготовке наиболее вкучных составщяющих как то сбор корицы, и выращивание и сушка плодовых слив.

Аналогично и здесь. Работая со структурированными выборками их качество может быть существенно повышено за счёт отдельного приготовления наиболее вкусных ингридиентов – связующих справочников и ключей перехода и связи с другими выборками данных. Это обогащение связями и ключами перехода собственно и позволяет рассматривать большую выборку с различных срезов.

Но эти связи бывают неочевидны, поскольку зачастую предметные и классификационные выборки могут и не иметь прямых точек пересечения и тут мы можем говорить о производных инструментах, исскуственно порождённых справочников позволяющих подобное сведение данных. 

Расшифровка кодов, которую я упоминал ранее, это один из примеров того как эти справочники порождаются – анализом составных элементов кода и формированием информационных срезов на их основе.  Так зная название,  ИНН и КПП организации можно определить её организационно-правовую форму, регион местонахождение, номер налоговой инспекции по месту регистрации и форму регистрации по коду постановки на учёт (филиал ли или головное ведомство) и это без обращения к внешним источникам данных для уточнения.

При том что это сверхпростой пример, особенность в том что наличие у сущности атрибутов позволяет производить целенаправленное обогащение её данных за счёт определения типа атрибута, а в свою очередь тип атрибута определяет и его структуру и связи с другими массивами данных и может определять средства последующей визуализации.

Процессы анализа и подходов к обогащению данных, также поддаются систематизации и уложению в общую модель вплоть до того что за счёт предварительного анализа накопленных и проанализированных справочников можно анализируя новый справочник автоматически рекомендовать его связку с перечнем имеющихся и анализировать входящие в него данные на предмет типовых форм описания данных как в справочном так и текстовом виде.

За счёт конечности числа форм и шаблонов представления информации, обогащение данных может если не доведено до автоматизма, то значительно автоматизировано.


Фев 25 2009

Official SEC Feeds (официальные RSS ленты раскрытия данных SEC)

Как можно увидеть на скриншоте SEC (US Securities and Exchange Comission) официально начало предоставлять RSS ленты по отдельным организациям что позволяет отслеживать документы публичных организаций обязанных отчитываться в SEC, практически сразу же.

screenshot081

Это к вопросу о том как небольшие технические изменения быстро меняют уровень доступности информации.


Фев 25 2009

Ещё про госзакупки и свободу информации

Продолжаю чтение статей ИРСИ – на сей раз вот этой. 

И как бы так сказать, вообще-то про проблему с размещением информации о государственных закупках я пишу уже не первый год и в куда больших объёмах – можно было бы хотя бы внимательнее прочитать, поскольку вопрос не просто в трудоёмности поиска информации, а в принципиальном отсутствии систематизированного подхода к поддержании информации о закупках и раскрывающих эту информации ресурсах актуальной.

В чём разница между тем как, к примеру, над раскрытием государственной информации работают те же SunLight Lab в США и ИРСИ в России? Разница в том что первые делают общественные порталы по раскрытию, а вторые пишут исследования которые далеки от реальных проблем. 

И вдогонку, по реестрам контрактов. То что в некоторых регионах реестры контрактов раскрывают в виде больших Excel файлов – это не проблема. Пусть раскрывают хоть 100 мегабайтными файлами – их потом можно прочитать как самостоятельно так и обработать, характер доступа к подобной информации отличается от информации о закупках.

А вот то что в некоторых регионах которые _невозможно_ не заметить (догадайтесь сами какие) в реестрах контрактов отсутствует информация которая _требуется по закону_ – вот это серьёзная проблема, равно как и то что вместо большого ZIP архива перед нами система всего лишь с одним способом поиска контракта – по его номеру. Надо ли пояснять что организовать раскрытие информации таким образом можно лишь сознательно.

Ну и такие нюансы как, например, сейчас закупочное законодательство не обязывает в протоколах указывать ИНН/КПП участников торгов – в результате там только названия и адреса организаций. Проверить аффилированность участников можно только длительным поиском по реестру юр. лиц, поскольку названия организаций не уникальны.

По поводу неумения открыть некоторые протоколы. Даже незнаю что сказать… Может быть дело не в протоколах? 

В общем и целом у меня ощущения несерьёзности написанного. Выражаясь образно и сравнив государственную машину с поселением Вогонов (которые не злые, но бюрократы), то публикации ИРСИ, в данном случае, это как если бы приглашённый консультант объяснял вогонам что все их проблемы от того что они неправильно едят и не пользуются парфюмерией, вместо описания реальных проблем связанных с непосредственно бюрократией и её последствиями. Выглядит это всё печально, право слово.


Фев 25 2009

Полезные умные алгоритмы и каталоги веб-ресурсов

В  посте от 23 февраля я писал про каталог веб ресурсов в поискуне и, всё таки, удалось запустить его полуавтоматическое наполнение ресурсами по тематикам и из 1668 сайтов сейчас туда внесённых около 900 было внесено роботом, при этом, если сравнить время которое бы потребовалось на ручное внесение ресурсов или внесение их предоставив такую возможность посетителям, тем не менее краткое программирование робота плюс ручное исправление ошибок (около 12 на 900 ресурсов) показывает что такой подход вполне оправдан.

Теперь собственно о каталоге. Туда попали порядка 200 региональных сайтов министерств и ведомств, территориальные подразделения нескольких федеральных ведомств, администрации муниципальных образований, сайты региональных подразделений прокуратуры, территориальные подразделения казначейства и сайты торгово промышленных палат.

Конечно, помимо практической пользы, а каталог этих ресурсов собственно мне лично нужен для работы, есть польза экспериментальная в проверке работоспособности алгоритма автонаполнения. Вернее алгоритмов, поскольку есть несколько подходов разного уровня сложности – конкретно этот довольно прост. Пока это первый шаг, но далее можно будет собрать все необходимые данные.

В любом случае создать каталог ресурсов это, конечно, чем связанный массив данных с провязкой по всем ключевым справочникам и возможности рассмотрения тех или иных сущностей с разных срезов. Например, сейчас каталог ресурсов позволяет лишь найти те гос. учреждения у которых есть их сайты, в то время как есть и обратная ситуация в поиске тех учреждений у которых веб-сайты отсутствуют. Для такого анализа веб-сайт уже не является базовой сущностью, а анализ проистекает от иерархии госуправления, которая, в свою очередь, должна бы отражаться в таком справочнике ОКОГУ, но,  по моему глубокому убеждению, ОКОГУ давно уже морально устарел и не отражает и десятой части всех тех связей которые присутствуют между организациями. Построение же собственного справочника, завязанного на онтологию взаимосвязей – это большая задача, которую врядли государство когда-либо будет финансировать.

Впрочем и у каталога ресурсов есть практическое применение – оно заключается в том что, как я и писал ранее, гос-сайты могут выступать как доверенная зона для Trustrank, в виду того что 99% из них крайне консервативны и такие явления как продажа ссылок на них не распространяется.  

По общему числу гос. сайтов в России у меня оценки прежние – порядка 10 000 ресурсов. Сюда попадают и различные сайты таких типов организаций как ГУП, МУП, МУЗ, ОГУЗ, МИАЦ, ФГУ, ФГОУ и так далее.

Причём число их постоянно растёт, простейший пример, это когда регионы создают для своих муниципалитетов веб-сайты сразу пачками на поддоменах. 

Каталог ресурсов, по прежнему, по ссылке: http://enotpoiskun.ru/links/


Фев 24 2009

Почему государственные сайты не должны строится на базе CMS

В блоге SunLight Labs появился интересный пост Content Management Systems that just doesn’t work где автор пишет о том почему готовые CMS системы нельзя использовать для государственных веб-ресурсов и почему использование программных фреймворков таких как Django и Ruby более эффективно.

Лично я согласен с автором технически – для государственных сайтов, особенно в части раскрытия структурированных данных – CMS противопоказаны. Во всех известных мне случаев когда использовались несложные CMS системы, в лучшем случае, различные реестры и иная табличная информация публикуется в Excel файлах или в Excel файлах в архивах, а то есть практически непригодна для поиска.

А вот с организационной точки зрения это всегда проблема поскольку большинство госорганов  (и в России тоже) не обладают, ни квалифицированными кадрами разработчиков, ни постановщиками задач при заказе разработки систем.

Кстати, www.recovery.gov сделан на Друпал’е, отчего собственно автор и начал критику CMS.

P.S. Кстати, SunLight выкладывают многие из своих разработок с полным исходным кодом на Django - http://sunlightlabs.com/projects/


Фев 24 2009

Ссылки на 24.02.2009. Государственные и окологосударственные веб-ресурсы

Tag: e-Government, eGov, links, госзаказivbeg @ 8:17 дп

Фев 23 2009

По поводу рейтингов информационной открытости

Продолжу уже привычную критику рейтингов открытости Института развития свободной информации.

На днях почитал я рейтинг открытости фед. органов  и добавлю к нему что:

  • официальный сайт Министерства Энергетики (временный сайт пресс-службы) – это http://www.minenergo.com
  • официальный сайт Федерального агентства по делам Содружества Независимых Государств, соотечественников, проживающих за рубежом, и по международному гуманитарному сотрудничеству (Россотрудничество)  - это http://www.rusintercenter.ru

Потом посмотрел на рейтинг открытости сайтов по госзакупкам. Я как-то уже писал что «проценты открытости» без описания методики мало что значат. Причём методика должна быть не отдельным большим и непонятным файлом, а присутствовать прямо в тексте – потому как без объяснения цифр веры им нет. Точно также непрозрачный «рейтинг прозрачности» выпускал Науэт, а толку то с него было. В общем, это несерьёзно и тоже самое касается всех остальных процентных рейтингов.

И по поводу текста тут:

Сегодня органы государственной власти охотно делятся общей информацией – данными о структуре, руководстве ведомства. Однако при этом практически невозможно получить сведения, связанные с  финансовыми расходами госорганов. Причем, это общее «правило», касающееся как федеральных, так и региональных органов власти.

В этом есть доля правды, только информацию надо искать не на сайтах госорганов, а на сайтах федеральных и региональных закупок. И именно наличие и систематизация этой информации и должно быть одним из критерием открытости сайтов по госзакупкам. 

P.S. 

   В Еноте Поискуне у меня давно уже был собран и постоянно пополняется каталог ссылок на различные гос. ресурсы и коммерческие ресурсы по закупкам.  И, я ещё надеюсь, что всё таки удасться запустить робота для полуавтоматического пополнения каталога гос. ресурсов.


Фев 22 2009

Расшифровка кодов ИНН, КПП и ОГРН

Вдогонку к посту Расшифровка кодов ИНН, КПП и других ноября 2008 года, я всё таки решился и понял что сервис проверки кодов необходим и сделать его не очень сложно, главное было понять как именно он должен выглядеть и как представлять информацию по расшифровке отдельных и идентификации организаций.

В итоге в составе Енота появился Сервис расшифровки ИНН, КПП и ОГРН где достаточно ввести в форму код ИНН (10 цифр), КПП (9 цифр), ОГРН (13 цифр) и получить расшифровку того что значат отдельные его части включая регион организации, номер инспекции, расшифровку причин поставновки для КПП.  Для кодов ИНН и ОГРН также проводится их корректность по контрольной цифре, для КПП, увы, контрольная цифры отсутствуют и проверять можно лишь по некой разумность отдельных частей, пока полного понимания как это делать у меня нет .

А также, если организация с таким ИНН или КПП есть в базе данных Енота, то эти организации высвечиваются при проверке. 

Сервис, собственно, лишь пример дешифровки кодов которой я занимаюсь давно, но полноценное построение связной онтологической модели кодирования информации займёт ещё долгое время, а ряд утилитарных применений есть и для имеющихся наработок. 

Как и многое другое – сервис делался, в первую очередь, для себя, но уверен что польза с него будет и другим.

И несколько примеров: ИНН: 5036032527 или КПП: 525601001 или ОГРН: 1025004701402


Следующая страница »


Rambler's Top100