Сен 01 2010

Ответ из ФАС России

Итак, я получил ответ от Елены Нагайчук, представителя ФАС России.

—-

Мы изучили представленные Вами сведения о некорректных данных в реестре недобросовестных поставщиков. Очевидно, что их основная часть связана с ошибками ввода. На сотрудниках управления контроля государственного заказа лежит большая нагрузка по вводу данных в разнообразные реестры и базы. Безусловно, это может быть лишь объяснением, но не оправданием. Поэтому сейчас, учитывая значимость реестра, мы сразу начали корректировку данных в реестре по присланным случаям, а также поиск и исправление аналогичных.

Мы благодарны за выявленные недостатки в нашей работе, постараемся их исправить, и свести к минимуму дальнейшие ошибки. Для этого принято решение о доработке самого реестра в части внедрения механизмов защиты от некорректного ввода данных (реквизиты, ИНН, латинские символы и пр.) программными и организационными средствами.

Уверяем Вас, что ФАС России открыта к диалогу и конструктивному сотрудничеству, которое в конечном счете способствует повышению эффективности исполнения наших функций.

Я считаю что это положительный результат. Итак, теперь у нас есть не первый, но полезный пример того зачем же нам нужны открытые данные и чего с помощью них можно добиться.


Авг 30 2010

О реестре недобросовестных поставщиков и недостоверной информации. Много и подробно

Поскольку я ответа от представителей ФАС так и не получил, но обнаружил что большую часть примеров что я им прислал они «тихо поправили». Скажу честно, такое отношение к делу мне не нравится, но я к нему был заранее готов. Так что придётся всё таки публиковать у себя, максимально подробно.  По крайней мере с моей стороны все приличия были соблюдены.

Для начала,  что такое реестр недобросовестных поставщиков, он описан в статье 19 94-ФЗ:

2. В реестр недобросовестных поставщиков включаются сведения об участниках размещения заказа, уклонившихся от заключения государственного или муниципального контракта, а также о поставщиках (исполнителях, подрядчиках), с которыми государственные или муниципальные контракты по решению суда расторгнуты в связи с существенным нарушением ими государственных или муниципальных контрактов.
3. Реестр недобросовестных поставщиков должен содержать следующие сведения:
1) наименование, место нахождения (для юридических лиц), фамилия, имя, отчество, место жительства, идентификационный номер налогоплательщика лиц, указанных в части 2 настоящей статьи;
2) дата проведения аукциона, подведения итогов конкурса или итогов проведения запроса котировок в случае, если победитель аукциона, победитель конкурса или победитель в проведении запроса котировок уклонился от заключения государственного или муниципального контракта, дата признания несостоявшимися торгов, в которых единственный участник размещения заказа, подавший заявку на участие в конкурсе или заявку на участие в аукционе, либо участник размещения заказа, признанный единственным участником конкурса или аукциона, либо участник аукциона, единственно участвующий в аукционе, уклонился от заключения государственного или муниципального контракта, дата проведения запроса котировок, в котором единственный участник размещения заказа, подавший котировочную заявку, отказался от заключения государственного или муниципального контракта, дата заключения неисполненного или ненадлежащим образом исполненного государственного или муниципального контракта;
3) предмет, цена контракта и срок его исполнения;
4) основания и дата расторжения государственного или муниципального контракта в случае расторжения контракта в связи с существенным нарушением поставщиком (исполнителем, подрядчиком) контракта;

—-
А также реестр недобросовестных поставщиков регулируется 292 постановлением правительства от 15 мая 2007 года.
Если внимательно прочитать закон и постановление, то можно обратить внимание что:
1. Нигде не упомянут механизм (регламент) проверки наличия поставщика в реестре госзаказчиком.
2. Можно обратить внимание что в требованиях к той информации которая вносится в реестре нет требований к проверки её на достоверность.
Итак а теперь в чём проблемы в реестре недобросовестных поставщиков. Здесь есть две категории проблем.
Проблемы практические – касающиеся того как реестр ведётся прямо сейчас, и проблемы принципиальные – то как реестре должен был бы быть устроен «правильно». Сейчас я остановлюсь только на практических проблемах, они достаточно актуальны.
На  практике госзаказчике проверяют поставщиков на наличие в реестре по двум критериям. По реквизитам поставщика – идентификационному номеру налогоплательщика и по названию организации. Что означает что эти данные в реестре должны быть достоверными.
А теперь представим себе ситуацию что в данных которые заказчик передал в территориальные УФАС закрались ошибки, случайные ли, или намерянные (как отличить?), но ошибки. Например, в названии организации есть опечатка или же ИНН записан неверно и в таком виде эта информация попадёт в реестр.  И,  как результат, если другой госзаказчик будет проверять ту же информацию по реестру он этой организации там не найдёт. Полагаете надуманная ситуация? Как бы не так.
Обратимся к информации в реестре поставщиков и рассмотрим конкретные примеры:

Пример N1. ИНН введён не полностью или наоборот избыточно.
По ссылке можно увидеть реестровую запись о внесении Шишова Андрея Олеговича http://rnp.fas.gov.ru/RNPCard.aspx?id=98c4974e-60fd-453b-8355-7640d60c2603
Однако вы можете обратить внимание что его ИНН состоит из 10 цифр – 6503078914, а не из 12 каким должен быть ИНН у физических лиц.
Итого если кто-то будет проверять данного поставщика  по его настоящему 12-значному ИНН, то, разумеется, он его не найдёт.
Другой пример, запись об ООО «Символ» http://rnp.fas.gov.ru/RNPCard.aspx?id=0cf71bbb-0c55-45b8-b6cf-46b1c40166b8 включает ИНН 18270172235 из 11 цифр, которого, конечно, никак не может быть у ООО. Да и вообще такого кода ИНН не может быть.
Пример N2. ИНН организации не проходит валидацию и отсутствует в ЕГРЮЛ.
По ссылке можно увидеть запись о ООО «Абсолют строй» http://rnp.fas.gov.ru/RNPCard.aspx?id=5e0e7fb2-1b92-4c15-8804-7ae9e12d1ad1 с кодом ИНН 7813308543. Так вот данный код ИНН некорректен и отсутствует в ЕГРЮЛ в чём можно убедиться здесь http://egrul.nalog.ru/fns/
Другой похожий пример ООО «Возрождение» и Удмуртии http://rnp.fas.gov.ru/RNPCard.aspx?id=d2d8c035-e029-4df3-aa58-4dcd84955dd9 с кодом ИНН 1834045253. Который, как Вы уже догадались, отсутствует в ЕГРЮЛ с данным ИНН. Однако если подробнее поискать в том же ЕГРЮЛ, то можно найти эту же организацию по тому же адресу с кодом ИНН 1834045258.  То есть при внесении в реестр недобросовестных была совершена всего лишь одна опечатка в последней цифре кода, но в результате находимость организации по ИНН теперь нулевая.
Пример N3. ИНН организации не соответствует её названию
Это более сложный случай чем предыдущие когда код ИНН одной организации может, на самом деле, принадлежать другой.  Или же когда организация может сменить своё название.
Например, ООО «СтройПроектМонтаж» из Новосибирской области находится в реестреhttp://rnp.fas.gov.ru/RNPCard.aspx?id=7c723330-fdad-43ed-ab09-7c121d45c7d0. Однако если сейчас заглянуть в ЕГРЮЛ и поиска организацию с ИНН 5405161277 то мы найдём организацию «Лотос М». Если заказчик проверял наличие поставщика в реестре именно по названию, то организацию с названием «Лотос М» он там не найдёт.
Вопрос в том является ли это название «Лотос М» новым названием этого юр. лица или же СтройПроектМонтаж было изначально неверным названием организации. Это невозможно проверить кроме как не подняв исторические данные об организации из ЕГРЮЛ.
Пример N4. Латиница в названиях организаций
В реестре недобросовестных может быть точно такая же проблема что и с закупками. Если в названии поставщика были использованы латинские символы вместо кириллических, то и госзаказчик ищущий поставщика по названию может его не найти.
Увы этот пример будет исключительно умозрительный. Те несколько случаев которые были мной найдены, я ранее пересылал сотрудникам ФАС России и теперь уже их нельзя привести наглядно поскольку они успели быстро их поправить.
В основном это были простые ошибки, например, вместо «ООО» русскими буквами было написано латинскими, кое-где вместо русской буквы «Эс» использовалась латинская «Цэ».
Пример 5. Опечатки в названиях
Этот пример также умозрительный, не из-за невозможности, а из-за сложности проверки. Если латиницу в названиях организаций ещё хоть как-то можно выявить, то если кто-то ошибётся в названии организации. Особенно если ошибка будет невелика и, например, всё же сохранит смысл слова, то организацию поставщик, опять же будет невозможности найти по названию. Окончательно убедиться  в этом будет можно только сопоставив название организации из ЕГРЮЛ с названием в реестре недобросовестных. И, хотя это и займёт немало времени, это ещё может быть сделано.
—-
Примеры  Выше это не единичные случаи. Разумеется подобных случаев гораздо больше, особенно некорректно введённых кодов ИНН. Десятки случаев.

Отсюда вопрос относительно того как же именно госзаказчики должны проверять наличие поставщика в данном реестре – по реквизитам (коду ИНН) или по названию? Получается что в любом из этих способов есть риск что поставщик, даже если он был внесён в реестр, может быть не найден.
Другой немаловажный вопрос в том как же возникла такая ситуация. Проверяют ли вообще сотрудники антимонопольной службы информацию которую они вносят в данный реестр?
К великому моему сожалению, вся данная ситуация показывает работу Антимонопольной Службы не в лучшем свете. Даже если мы предположим кристальную честность сотрудников данной службы, то отсутствие контроля за той информацией которая вносится в реестр ставят ФАС России на одну ступень с заказчиками «случайно»  использующих латиницу в госзаказах.

Приложение к посту. Письмо которое уходило в ФАС (значительная часть там написанного ими уже поправлено)

Continue reading «О реестре недобросовестных поставщиков и недостоверной информации. Много и подробно»


Авг 28 2010

Новое в OpenGovData.ru – данные, заметки, источники и примеры

Итак, в OpenGovData.ru и его Вики появилось много нового.

1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.

Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.

2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут

3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.

4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.

А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат.  Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.

Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.


Авг 27 2010

Вопросы и обсуждения по открытым данным

Поскольку число обсуждающих всё ширится, я хочу поднять ряд вопросов которые возникли, озвучить своё мнение и предложить их к обсуждению.

1. Почему не Java, .NET и прочие и прочие?

В основном по той причине что есть ряд языков/платформ разработки крепко привязанных к компаниям их продвигающих. Так .NET прочно ассоциируется с Microsoft, а Java с Sun/Oracle. Учитывая что эти платформы в основном коммерческие то и, хотя разработчиков на них много, но многие самые интересные движки и библиотеки которые могли бы помочь – тоже коммерческие.

Я лично считаю что для инициативы создания общественного блага на этих платформах должны идти от их вендоров или при их поддержке. Но учитывая что тема имеет гражданское приложение, я слабо верю в то что кто-то из них на это решиться.

В остальном здесь ситуация следующая. Если кто-то по собственной инициативе сделает парсер данных хоть на Lua или Object Pascal и выложит его в открытый доступ, ему в любом случае, респект и уважуха и такие случаи я упомяну обязательно. Но в том что касается случаев когда я выделяю на перевод массива в машиночитаемый вид денежку, то тут точно нет. Моя цель – открытые данные и наиболее простые и понятные способы их создания.

2. Не упомянут Perl

Это правда, но не от нелюбви к нему, а по невнимательности. Конечно, на скрипты на Perl’е всегда приветствуются.

3. Почему не GPL?

Тут та же самая ситуация что и с вендорозависимыми платформами. Если кто-то по своей инициативе хочет сделать скрипт по перобразованию данных и выложить его в открытый доступ под GPL. Хорошо, в любом случае общественное благо. Но лично я рассматриваю лицензию GPL как ограничивающую возможности, а не расширяющие. Соответственно в тех случаях когда я публикую предложения преобразовать за деньги которые я выделяю лично – на GPL это не распространяется. Если же кто-то последует моему примеру и решится выделить средства или вообще организовать такую же инициативу, но GPL’ориентированную – организуйте её самостоятельно. Это тоже общественное благо, тоже респект и уважуха.

4. Почему не RDF и не Semantic Web?

Для спрашивающих, я в общем-то человек сам от Semantic Web’а не далеко ушедший и, например, моделировал геополитическую онтологию в формате OWL о чём можно узнать в моём блоге или в вики OpenGovData.ru.

Так вот, RDF’изация вселенной разумна и практична только когда у Вас _уже_ есть структурированные данные или если Вы формируете онтологии своими руками. Соответственно если у кого то возникнет желание и возможность переводить данные накопленные в OpenGovData.ru и уже преобразованные в форматы для Semantic Web – милости прошу. Лично я же считаю, и сужу по мировому опыту гражданских проектов, что для них достаточно принципиальное наличие данных в структурированной форме, желательно простой – CSV или JSON. Поэтому и все существующие проекты, например, Open Knowledge Foundation помимо RDF отдают данные ещё и в XML и JSON’е. Потому как пока ещё, к сожалению или к счастью, но RDF не стал массовым явлением.


Авг 26 2010

Про реестр недобросовестных поставщиков и ФАС России.

Итак, по поводу вот этой темы с ошибками в реестре недробросовестных.

Я отправил письмо в ФАС России, там его получили, отнеслись к написанному серьёзно, обещали в течении недели разобраться.

Раз такое дело, я планирую несколько дней подождать их ответа. Если его не будет, размещу найденное, а потом уже их ответ как придёт, если ответ будет то размещу вместе найденные проблемы и их реакцию.

В зависимости от их ответа будет понятно надо связываться с другими контрольными органами или нет.

А тем временем, каждый из Вас может и сам заглянуть в данные этого реестра тут – http://github.com/kappa/opengovdata-parsers или тут http://github.com/AmbientLighter/rpn-fas (спасибо Алексею Капранову и Виктору Мирееву за парсеры!) и поискать там интересное для себя.

Зачем всё это нужно? Это будет ничто иное как кейс использования открытых данных для контроля граждан за органами власти. Наглядная демонстрация того для чего это всё делается.


Авг 26 2010

OpenGovData.ru: Данные для преобразования на неделю с 26.08.2010 по 02.09.2010

Итак, как я ранее уже писал начнём процесс по преобразованию данных.

План работы такой:

1. Я еженедельно публикую список массивов данных и призываю волнотёров помочь с их преобразованием.

2. В конце недели я публикую отчет по результатам и публикую новый список.

3. Если какие-то данные небыли охвачены волонтёрами, то на следующей неделе публикую их с предложением компенсировать расходы на их преобразование.

4. Самые сложные массивы данных выносятся на общее обсуждение.

Актуальный список также всегда будет доступен по ссылке и я буду его обновлять по мере появления парсеров.

Ниже список данных составленный мною на эту неделю с 26 августа по 2 сентября. Я также собираю предложения по тому какие данные вынести на следующую неделю.

Примечание от 29.08.2010: Многие массивы из этого списка уже преобразованы, актуальный список всегда доступен по ссылке  http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D0%BA-%D0%BF%D0%BE%D0%BC%D0%BE%D1%87%D1%8C-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%83

сверяйтесь, пожалуйста, со списком представленным там.

Источник данных в плохом формате Для чего могут быть использованы эти данные Статус Парсеры и данные
Технические комитеты Ростехрегулирования

http://www.gost.ru/wps/portal/pages.TechCom

Список и множество HTML страниц

Для мониторинга того чем занимаются комитеты, если у них сайты, какие из них были бы интересны гражданам и так далее Не преобразован ?
Список зарегистрированных политических партий (Минюст)

http://www.minjust.ru/ru/activity/nko/partii/

Набор HTML страниц со ссылками на документы

Для последующего анализа списков региональных отделений, числа членов, финансовых отчетов и так далее. Не преобразован ?
Перечень зарегистрированных политических партий (Избирком)

http://www.cikrf.ru/newsite/politparty/reg_politparty.jsp

Очень простой и небольшой список партий с регистрационными номерами в избиркоме

Для сведения воедино всей информации о политических партиях из разных источников. Не преобразован ?
Государтсвенный реестр фильмов

http://mkrf.ru/activity/register/search/

Форма поиска. Особенность в том что для некоторых фильмов выводит страницу с подтверждением на её просмотр

Для анализа данных реестра на предмет наличия порнографии, оскорбительного содержания, анализа плодовитости авторов и компаний и многое другое Не преобразован ?
База запусков космических аппаратов

http://www.federalspace.ru/main.php?id=10&year=14
Набор HTML страниц по годам

Позволит провести анализ запущенных аппаратов по изготовителям, заказчикам, странам, потенциальным местам падения, составить календарь истечения сроков эксплуатации и использоваться для более наглядного отображения. Не преобразован ?
Депутаты Государственной Думы

http://www.duma.gov.ru/index.jsp?t=deputat/1.html

Много отдельных маленьких страничек

Позволит делать гражданские проекты основанные на активности депутатов. Например, по мониторингу их выступлений, публикаций в блогах с фильтрацией по партии, фракции, комитету госдумы и так далее Не преобразован ?
Российский сегмент мирового пространства идентификаторов объектов

http://www.ctel.msk.ru/x500/OIDS/inform.htm
Одна HTML страница с несколькими таблицами

Например, для наглядного соотнесения удостоверяющего центра и органа власти дабы показать в каких из них уже есть свои УЦ, а где нет. Не преобразован ?
Реестр эксплуатантов гражданской авиации

http://www.favt.ru/airl/airl_r/index.php
Несколько HTML страничек с алфавитной разбивкой

Для отображения организаций на карте, соотнесения с другими банками данных для анализа отрасли авиаперевозок, для анализа какие эксплуатанты к каким аэропортам относятся Не преобразован ?
Государственный реестр аэропортов гражданской авиации

http://www.favt.ru/ap/ap_rga/

Одна HTML страница с несколькими простыми таблицами

Позволяет отобразить официальный список существующих аэропортов на карте, а также расширять этот список адресами сайтов и реквизитами предприятий. Не преобразован ?
Сведения о доходах сотрудников РосГраницы
http://www.rosgranitsa.ru/about/income

В виде множества DOC файлов с таблицами внутри

Для сервисов по анализу данных о расходах чиновников Не преобразован ?
Сводная налоговая отчетность
http://www.nalog.ru/document.php?id=27443&topic=stat_otch

Сложные данные в виде множества XLS файлов.

Для анализа того как и по каким темам приходят деньги от налогоплательщиков. Не преобразован ?

Поскольку массивы данных вроде сведений о доходах сотрудников Росграницы и Сводную отчетность никто не преобразовал. То если кто-то возьмётся за них, я готов подарить за скрипт, который как и все другие скрипты будет потом в публичном доступе, по любому из них по 1000 рублей. Не скрою, мой интерес не только в том чтобы появились эти данные машиночитаемыми, но и в том чтобы появились примеры преобразований данных в форматах DOC и XLS, ибо их у нас публикуется немало.

Единственно, предупредите меня заранее что берётесь такой скрипт написать дабы не дублировать усилия.  А если по каким-то причинам не хотите делать их за деньги, тоже, пожалуйста, об этом напишите мне.


Авг 26 2010

Любите ли Вы Антимонопольную Службу так как люблю её я?

Итак, всем кто задавался вопросом зачем нужны некоторые массивы данных и какой с них толк, я собираюсь показать один живой наглядный пример.

Как Вы знаете один из интересных массивов был Реестр недобросовестных поставщиков http://rnp.fas.gov.ru/ ведомый Федеральной Антимонопольной Службой нашей с вами Федерации.

В этот реестр вносятся поставщики которые не имеют право участвовать в госзаказах и госзаказчики, по хорошему, должны проверять нет ли там заявляющихся на госторги организаций.

Казалось бы, а нафига он нужен машиночитаемый? И кому?

Так вот. Подозрения у меня были довольно давно, но всё небыло возможности подойти к вопросу системно. Сейчас же я _могу доказать_ что в этом реестре есть недостоверная информация наличие которой не  позволит, для некоторых организаций, убедиться был включён ли поставщик в реестр недобросовестных.

Прямо перед глазами у меня 30 наиболее очевидных случаев и это ещё результат неглубокой проверки, а глубокая проверка может выявить большее число. Случаи на грани очевидности, при желании их найти могу не только я. И да, это не устаревшая информация которая стала недостоверной по истечении времени. Это информация не соответствующая действительности изначально при её внесении.

Я не берусь судить как такое могло произойти – опечатками, из-за недостаточности контроля, сознательно и т.д.  Возможно так данные передавались от госзаказчиков, возможно. Не знаю. Я оперирую только фактами, наличием таких вот случаев.

Итак, а теперь главный вопрос, что с этим делать.

Варианты следующие:

1. Разместить очевидные примеры онлайн для всех желающих – пусть блогеры обсуждают, СМИ пишут.

2. Написать в ФАС РФ, на тему не хотят ли они исправить выявленное и вообще отрегулировать ведение этого реестра. А публиковать онлайн только после того как будет известна их реакция.

3. Провести более детальный анализ, он займёт с неделю, и передать материалы в другие контролирующие органы (Прокуратура, СП РФ, Контрольное управление и т.д.) или передать материалы тем кто передаст.

4. Передать какому-нибудь СМИ на публикацию. Если конечно, тема будет интересная для СМИ.

В общем я не решил пока, думаю. Беру паузу в сутки и потом напишу что да как.


Авг 25 2010

Ещё не конкурс, но обсуждение!

В ВебПланете вышла статья про то что я уже организовал конкурс – http://www.webplanet.ru/news/service/2010/08/25/begtin.html.

Друзья, спасибо за привлечение внимания к идее. Только это ещё не конкурс, это был анонс обсуждения и сбор предложений как конкурс организовать. Обратите, внимание, на разницу.

Результаты обсуждения уже доступны тут http://ivan.begtin.name/2010/08/25/idearesults/

И конкурс будет проходить по описанной там схеме:

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за их преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Если редактора ВебПланеты читают мой блог, поправьте, пожалуйста, у себя в статье.

Тем временем уже за короткий срок уже появилось 7 машиночитаемых массивов данных . Это очень круто, я не ожидал такого результата, если честно.


Авг 25 2010

Результаты обсуждений идеи

Итак, по идее которую я ранее озвучил тут что я хочу инициировать процесс по созданию открытых машиночитаемых данных усилиями сообщества появились первые результаты.

Во первых пошли обсуждений сразу в нескольких местах: здесь - http://ivan.begtin.name/2010/08/24/opendataidea/ , здесь – http://ivbeg.livejournal.com/313161.html и здесь http://groups.google.com/group/opengovdataru/browse_thread/thread/5ef181f1c9e19c72 и тут http://ff.im/pE9Ww. Что мне особенно нравится обсуждение идёт конструктивное – за что спасибо всем участникам.

Во вторых, стоило мне объявить о том что я собираюсь такой конкурс сделать, даже до его объявления мне уже прислали несколько скриптов и массивов данных преобразованных массивов.  Я собрал их все на странице Wiki под названием «Как помочь проекту«. Отдельное спасибо Артемию Трегубенко (arty.name) и Сергею Кожину (http://github.com/skojin) за эти скрипты. А Алекс Капранов взялся за реестр недобросовестных поставщиков. Во всех случаях если не указано иное авторами, я буду размещать такие скрипты и данные под лицензиями PDDL (Public Domain Data License) и Creative Commons Attribution 3.0 Unported License. Да, никто из авторов не спросил денег за работу, но если всё таки  сочтёте что она денег стоит – пишите сразу мне.

В третьих не единожды мне уже написали о том что надо мотивировать не деньгами, а общественным благом. То есть надо описывать ту пользу которую мы создаём преобразуя эти данные. Тут есть не проблема, но вопрос понимания. Сложно доказать прямую пользу от открытых данных поскольку польза не прямая, а на основе производных от них проектов – таких как OpenCongress.org, да и РосГосЗатраты весь и целиком основан на открытых данных как и другие проекты. Создавая открытые данные мы меняем реальность поскольку далее на их основе может быть создано нечто новое, интересное и полезное и далеко не всегда можно предсказать что именно.

В четвёртых я услышал гениальное предложение что надо предлагать компаниям нанимающим программистов предлагать написание парсеров в качестве тестового задания. Если Вы ищите программистов и даёте им тестовые задания, обращайтесь ко мне – я Вам предоставлю список никем пока ещё не преобразованных данных для которых парсеры нужны. Если потом ещё и результаты будут в открытом доступе под Creative Commons – так вообще прекрасно. Точно также, если Вы обучаете студентов, даёте им тестовые задания – я готов, по мере возможностей, помочь с тем какими эти задания могли бы быть. По написанию парсеров, очистке данных, их преобразованию и так далее. Здесь все задачи живые, результаты будут общедоступные, общественное благо будет несомненным.

В пятых, я отвечу на ряд возникших вопросов.

1. Почему только скриптовые языки?

Потому как в большинстве случаев с ними проще управляться, легче использовать в веб-проектах и так далее. Я лично ничего не имею против различных вендоро-специфичных платформ/языков вроде .NET и Java, но не вижу смысла без поддержки самих вендоров на этих платформах.

2. Откуда требования к выходным форматам?

На основе мирового опыта, удобства для пользователей и так далее. Например, данные в CSV сравнительно просто загрузить в MS Excel, OpenOffice или, даже, в GridWorks. XML данные также легко преобразуются и есть много инструментов для работы с ними. JSON очень удобен при веб-разработке и загрузке в NoSQL базы вроде MongoDB.  Плюс, конечно, ещё есть KML формат для геоданных, но я лично считаю его производным от других. То есть вначале хорошо бы получить данные в CSV, а преобразовывать их это уже следующая задача.

3.  Почему среди лицензий нет GPL?

Потому как, GPL, несмотря на все свои плюсы и распространённость довольно жёсткая лицензия. Я считаю что автор должен иметь возможность использовать этот код и для коммерческих целей, равно как и все остальные.

4. Как быть с описанием структур?

По хорошему, прежде чем преобразовывать плохие форматы в хорошие надо бы их описать в некой структурированной форме, например, XSD. на практике, лично я считаю, что этого можно избежать в некоторых случаях когда структура, условно, очевидна. То есть, если мы понимаем что все данные представлены в виде одной плоской таблицы, то последующую структуризацию можно провести постфактум. В случае сложных данных, согласен, имеет смысл моделировать ситуацию, до.

5. Зачем всё это нужно?

Основная цель – создать фундамент для последующих гражданских проектов поскольку сейчас мы находимся, в некотором смысле, тупиковой ситуации. Когда государство не раскрывает данные поскольку исходит из того что они никому не нужны и «общество не готово», а гражданские проекты не появляются поскольку данных нет. Сейчас мы готовим набор ингридиентов на основе которых потом каждый сможет творить собственные блюда.  И чем больше ингридиентов появится, тем больше шансов что будет больше гражданских проектов на их основе.

6. Можно ли эти данные использовать в своих проектах?

Да, несомненно можно и нужно. Как для некоммерческих так и для коммерческих проектов. Для некоммерческих проектов я думаю что и так понятно почему. Для коммерческих это нужно для формирования рынка сервисов основанных именно на открытости данных, а не на доступе к ним на эксклюзивной основе. В мире такие сервисы, в основном, сосредоточены на визуализации данных, подмешиванию их в результаты поисковой выдачи, алгоритмах по работе с информацией, проектов вроде InfoChimps и Factual предоставляющие удобные инструменты для работы с информацией.

——-

И в пятых. По результатам обсуждения я хочу немного трансформировать эту идею. Я вижу что на сравнительно простые массивы данных энтузиасты находятся и их преобразуют. Со сложными случаями, когда данные публикуются в форматах Excel’я, Word’а или PDF.  Или же когда используются сложные формы за которыми данные скрыты. Или же когда структура HTML неудобна для обработки.

Я предлагаю следующее. Я готов размещать в Wiki проекта, на сайте OpenGovData.ru и других ресурсах, на которых только дотянусь, статьи касающиеся преобразования данных различными инструментами. Особенно меня интересуют сложные случаи и статьи с примерами на основе данных OpenGovData.ru. Все статьи будут публиковаться с указанием автора под Creative Commons лицензией.

Соответственно, статья – это всё таки несколько большая работа чем просто преобразовать данные и я готов за такие статьи платить денежку. За обычную статью – 1000 рублей, за статью на особо интересные темы – 2000 рублей. С общим бюджетом в 10 тысяч рублей на месяц и оплатой через Яндекс.Деньги. А если кто-то готов написать, без денег – также милости прошу. Просто отметьтесь, скажите что готовы сделать это без денег.

Какие темы хотелось бы охватить: преобразование данных стандартными скриптовыми языками вроде Python, Ruby, PHP и так далее, обработка данных в общем случае, обзор форматов данных и другие связанные темы.

Темы которые особенно интересны лично мне:

- автоматическое извлечение данных из документов Word, Excel, PDF,

- сбор данных с веб-страниц закрытых за POSTBACK навигацией которая используется в сайтах на asp.net

- трюки, хитрости, сложные случаи

- обработка и очистка данных, в том числе автоматическая. например, интересен обзор работы с Freebase Gridworks;

- как визуализировать данные – строить графики на разных движках. Желательно opensource, но пойдут и другие

Если какие-то темы тут не упомянуты, но Вы считаете что они важны, прошу Вас, предлагайте.

С каждой статьей, соответственно, нужен пример открытых данных из OpenGovData.ru или какой-либо другой пример госданных который там не упомянут (заодно его туда добавим).

Соответственно если Вы захотите такую статью написать – пишите мне на ibegtin (собака) gmail.com или комментарием. Мне нужны тема и то какой массив данных вы в статье используете как пример.

А по преобразованию данных данных я предлагаю следующую схему.

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за его преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Комментарии и живое обсуждение всячески приветствуется.


Авг 24 2010

Проверка идеи по созданию открытых данных общественными силами

Есть одна идея которую лично я считаю что просто необходимо подтвердить или опровергнуть экспериментально.

Эта идея проста – не обязательно дожидаться когда госорганы начнут публиковать данные в машиночитаемом виде, многие массивы можно подготовить и опубликовать самостоятельно. Благо существует разнообразный инструментарий для создания парсеров.

При том что с волонтёрской деятельностью у нас, пока, прямо скажем – не очень. Поскольку если много других полезных занятий, а открытые данные пока ещё «проникают в умы людей», но не поселились там.

То о чём я пишу пока идея для обсуждения, которая, впрочем может стремительно воплотиться в жизнь.

Что я хочу сделать.

В качестве эксперимента я готов выделить из личных средств 5-10 тысяч рублей на 1 месяц на разработку парсеров. Сумма небольшая, но это именно что эксперимент, это проверка идеи.  А если всё получится, то суммы потом будут больше.

Однако я хочу не просто заказать работы  на стороне, а с соблюсти следующие условия:

1. Код парсера должен быть доступен всем желающим с открытым исходным кодом под лицензией допускающей коммерческое и некоммерческое использование. Предпочтительные лицензии – BSD, MPL, Apache License и т.д. Соответственно без проприетарного кода и без GPL. Код автор публикует в сети сам или присылает мне и я публикую на специальном сайте или OpenGovData.ru

2. Предпочтительные языки разработки по убыванию – Python, Ruby, PHP. Другие скриптовые возможны, но менее предпочтительны. Языки предусматривающие компиляцию кода вроде C, C++, Java  точно не рассматриваются.

3. Форматы выходных данных могут быть – CSV, XML, JSON. Соответственно CSV предпочтителен для всех плоских списков, для более сложных структур нужны данные в XML и JSON.

4. Код не должен подвергаться обфускации. А то есть он должен быть читаем, понимаем и, с возможностью, его править, при необходимости.

А также обработать надо не какой-попало источник данных, а один из некого первоочередного списка.  Этот список, предварительно, я составил из следующих массивов:

Простые массивы

Сложные массивы

  • Сведения о доходах сотрудников РосГраницы – http://www.rosgranitsa.ru/about/income . Несколько .DOC документов с таблицами.
  • Реестр недобросовестных поставщиков – http://rnp.fas.gov.ru/
  • Реестр лицензий на осуществление деятельности по организации и проведению азартных игр в букмекерских конторах – http://www.nalog.ru/html/docs/reestr_buk.doc . Файл MS Word со сложными, но унифицированными таблицами.
  • Сводная налоговая отчетность – http://www.nalog.ru/document.php?id=27443&topic=stat_otch. Очень много многостраничных XLS файлов.

Плюс, прошу Вас предлагать те что Вам интересны. Список можно найти тут – http://www.opengovdata.ru/sources/

В итоге для каждого массива должно быть:

– скрипт по его конвертации;

- данные в машиночитаемом формате

– короткое описание README с описанием зависимостей скрипта и полей данных

И вот тут, то мы приходим к главному вопросу КАК именно это всё это я хочу осуществить.

Вначале – мои цели:

1. Преобразовать как можно большее число массивов в машиночитаемый вид.

2. Обеспечить преобразованию максимальную публичность и простоту повторного использования результатов через открытый код.

3. Преобразовать в первую очередь наиболее востребованную гражданами информацию.
И вот теперь собственно мои вопросы по результатам размышлений о вышенаписанном.  Меня волнует следующее – в какой форме лучше всего организовать процесс.

Рассмотрим варианты:

  • Призовой конкурс. Для каждого массива данных устанавливается сумма за его преобразование в машиночитаемый вид. Первый кто прислал или опубликовал результат – получает эту сумму. Если больше одного человека пишут скрипт – второму идёт поощрительная сумма.
  • Редукцион. Указывается максимальная цена, сроки и ожидаемые результаты, от потенциальных исполнителей получаются предложения сделать за меньшие или эти деньги. Побеждает тот предлагает наименьшую цену. Но у нас же не госзаказ, нам нужна соревновательность.

При этом меня не покидает ощущение что есть и другие варианты. Или же эти варианты стоит описать чуть подробнее. В любом случае совершенно не хочется запускать процесс через заказы на Фриланс.Ру, по моему можно найти удачную альтернативу.

—-

Поэтому у меня есть следующие вопросы залу:

1. В какой форме лучше всего организовать процесс?

2. Какие существующие массивы данных Вам бы _очень_ хотелось увидеть машиночитаемыми и включить в список выше?

3. Если Вы разработчик, было бы Вам интересно в таком мероприятии поучаствовать?

Идеи, предложения, дискуссии и распространение всячески приветствуются.

UPDATE: Первые результаты обсуждения идеи тут – http://ivan.begtin.name/2010/08/25/idearesults/

Результаты преобразований тут – http://opengovdataru.pbworks.com/%D0%9A%D0%B0%D0%BA-%D0%BF%D0%BE%D0%BC%D0%BE%D1%87%D1%8C-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%83

UPDATE2: Для тех кто пришёл на пост со статьи в ВебПланете. Это ещё не конкурс, это только призыв к его обсуждению. Прочитайте вначале результаты обсуждения по ссылке выше.


Следующая страница »


Rambler's Top100