Авг 13 2010

Про основы стоимости государственных сайтов

Поскольку у нас тут много разных дискуссий завязалось по поводу того сколько может стоить государственный сайт, обоснована ли его цена, почему она такова, а не иная. Не «пилят ли бабло», есть ли коррупция и тому подобное.

Лично я считаю что важно понимать ту область которую подвергаешь критике.  И периодически выступаю в роли «адвоката дьявола». Вот и сейчас вопрос будет о том насколько всё непросто на самом деле в том сколько и почему стоит тот или иной веб-сайт. Текст я пишу на основе многих долгих разговоров как с чиновниками, так и с разработчиками так что видение не одностороннее.

Первый и основной тезис.

Все оценки основанные на цене контракта заключённого между госзаказчиков и поставщиком являются заниженными.

Почему? Потому как контракт предусматривает только проведение закреплённых в нём работ, в то время как при этом, может не учитываться и чаще всего не учитываются такие расходы как:

  • стоимость хостинга на период времени не менее 1 года;
  • расходы на технические сопровождение;
  • расходы на содержательное наполнение (по числу сотрудников органа власти вносящих информацию на данный сайт) в том числе и сотрудники задействованные на передаче материалов поставщику для публикации если сопровождение сайта осуществляет поставщик.
  • расходы на обновление лицензий закупленного ПО, хотя бы с оценкой в 2-3 года.

Итоговая стоимость будет выше. В зависимости от того какой сайт, всё может существенно отличаться. Но суммы на разработку госсайтов столь малы что не стоит ждать что у нас какое-то орган власти всерьёз займётся оценкой их стоимости.  Не того маштаба задача, хотя и, для большего популизма, Минсвязи или Минэкономразвития могли бы такие работы организовать.

Тезис второй.

Сайты бывают разные.

У разных органов власти разные функции, разная степень публичности, разные информационные потоки. Требования которые установлены в 8-ФЗ и последующих подзаконных актах – они минимальны. На практике, у госоргана могут быть свои реестры, к которым через сайт должен предоставляться доступ,

Рассмотрим, некоторые официальные сайты:

- Служба внешней разведки – http://www.svr.gov.ru/. Набор статических страниц и всё. Просто до безобразия.

- Росимущество – http://www.rosim.ru. Сайт вроде бы простой, но реально там на одном движке существуют все сайты территориальных управлений в субъектах федерации.

- Сайт АП России – http://www.kremlin.ru/. На самом деле там не один сайт, а группа сайтов, по видимому на одном движке.

Рассмотрим госсайты официальными не являющиеся:

- OpenClass.ru. Сетевые сообщества  -  http://www.openclass.ru/. На самом деле портал является частью большого контракта по созданию сообществ учителей и разработка и сопровождение портала – это только часть работы. А значительная часть шла, идёт, должна была идти в оффлайне.

- Русский век. Портал для соотечественников – http://www.ruvek.ru. Просто сайт, с просто публикациями, на просто CMS. Страниц там не так уж много, специфики минимум

- Портал ТрудВсем.Ру – http://www.trudvsem.ru/. Портал по поиску работы запущенный Рострудом и Минздравсоцразвития. Содержания наполняемого редакторами там мало, но за ним большая база резюме и вакансий и организационная работа по унификации и сведении данных из всех управлений Роструда на единый портал.

Смысл всех этих примеров в том чтобы показать что то что мы называем «Государственные сайты» бывает очень разным. И кроме описанных выше отличий, есть отличия по готовности инфраструктуры и того как именно производится развёртывание сайта – на существующей инфраструктуре заказчика, внешнем хостинге или разработка включает закупку оборудования.

Итого. Прежде чем оценивать обоснованность расходов на какой-либо госсайт необходима чёткая их типизация, если угодно, анкета которую надо заполнить и после чего сравнивать с другими веб-проектами на основе заполненных метрик.

Continue reading «Про основы стоимости государственных сайтов»


Июл 29 2010

Сервисы извлечения информации о веб-сайтах

Tag: web, алгоритмыivbeg @ 9:58 дп

В последнее время всё больше появляется сервисов по извлечению информации из веб-сайтов. Например, сравнительно давно существует BuiltWith и недавно появился W3Tech.com.

Оба позволяют увидеть о сайте много всего интересного типа какие счетчики используются, какие технологии используются и какая CMS применяется.

BuiltWith мне нравится чуть больше, но, если говорить начистоту, то оба эти сервиса устроены крайне просто. Есть ограниченный пополняемый список правил для идентификации и классификации тех или иных возможностей на сайтах заложенных.

Правда эти сервисы позволяют анализировать тренды в технологиях, их распространённость и так далее.

Однако, поскольку Рунет не так велик, по сравнению с не-русскоязычной частью Интернета, то оказывается что технологии применяемые тут там не отражаются.

Например, данные о сайте Российской Газеты в обоих сервисах – http://w3techs.com/sites/info/rg.ru и http://builtwith.com/rg.ru. BuiltWith подробнее, но вообще Российской специфики маловато.

Или вот посмотрим Roem.ru – http://builtwith.com/roem.ru и http://w3techs.com/sites/info/roem.ru. Тут информации побольше, но, опять же Российской специфики мало.

Я, честно говоря, в своё время тоже интересовался этой же темой. Однако у меня цели были несколько иные – набивка базы массой вспомогательных метрик для улучшения различных алгоритмов обработки веб-страниц. Но промежуточный результат примерно такой же как в сервисах выше – извлечение массы признаков по группе правил, всего этих правил около 500. Этот механизм уже 1.5 года существует как веб-сервис и этот сервис использовался в ГосСети (www.govweb.ru) для сбора технологий на сайтах.

Сейчас у него есть простенький веб-интерфейс, http://data.skyur.ru в котором можно посмотреть как это работает на практике. Тем кому интересно могут посмотреть там те же сайты http://data.skyur.ru/?host=www.rg.ru и http://data.skyur.ru/?host=www.roem.ru или вот http://data.skyur.ru/?host=www.opennet.ru.

Но, в общем-то, это демка. Так что визуально всё без изысков. А вот стоит ли делать доступным веб-сервис пока не решил.


Июл 19 2010

OpenStack: облако на открытом коде и открытых стандартах

Tag: opensource, webivbeg @ 7:07 пп

Сегодня увидел в ракспейсовской рассылке крайне интересную штуку – OpenStack http://www.openstack.org который продвигают NASA и Rackspace вместе. Кроме того весь софт открытый и под Apache License 2.0

Пишут что сделано всё на Python с Tornado и Twisted и AMPQ. Обещают первую версию к середине октября, а пока можно взять код на Лаунчпаде https://launchpad.net/openstack

Выглядит весьма интересно.


Июн 28 2010

Почувствуйте разницу

К вопросу об органах власти и их реакции на те вопросы перед которыми они сталкиваются. Может показаться что когда пишут что-то критическое о том или ином ведомстве, то важно именно то что пишут. Но на самом деле это не так, вернее, не совсем так.

Реакция на проблему куда важнее самой проблемы. Потому как эта реакция – это результат «теста на вменяемость». Кто-то его проходит, а кому-то это даётся с трудом.

Приведу Вам два противоположных примера – положительный и отрицательный.

Положительный пример

Это то о чём я писал ранее про бюллетени Счетной Палаты тут http://ivbeg.livejournal.com/296201.html и тут http://ivbeg.livejournal.com/296472.html

Они ответили на все мои письма, предельно корректно, признали проблему, пообещали исправить и даже назвали сроки исполнения.

Скажу честно, я не ожидал от них реакции, а в результате – респект их ИТ департаменту.

Отрицательный пример

А вот пример из другой реальности. В «Живой Кубани» написали про сайт Избиркома Краснодарского края ссылаясь на данные в проекте Госсеть – http://www.livekuban.ru/node/194397 и потом сделали второй пост – http://www.livekuban.ru/node/194466.

Почитайте тексты и реакцию представителей Избиркома на них, не пожалеете.

А я, в качестве дополнения, добавлю что домен izbirkom.ru зарегистрирован на Центральную избирательную комиссию (проверяем тут – https://www.nic.ru/whois/?query=izbirkom.ru), а домен krasnodar.info на JSC «Kuban internet company» (проверяем тут – https://www.nic.ru/whois/?query=krasnodar.info).

Думаю что требования 8-ФЗ про принадлежность домена органу власти все помнят.

Поэтому вопрос о том какой из сайтов избирательной комиссии является официальным www.krasnodar.izbirkom.ru или izbirkom.krasnodar.info лично для меня не стоит. По моему всё и так очевидно.

Итого два замечательных не-технических кейса которые так и просятся во всяческие выступления и презентации.

Кстати, всем желающим посоставлять рейтинги сайтов органов власти могу посоветовать один 100% мощный и точный рейтинг. Он особенно хорошо и правильно будет действовать в рамках субъекта федерации.

Всего то навсего составляете список региональных органов власти, и их официальных сайтов. А далее отправляете письмо в каждый из этих органов письмо или факс с вопросами:

- Приняты ли нормальные-правовые акты по приведению официального сайта в соответствие и адрес в сети Интернет где их можно увидеть?

- Может ли орган государственной власти подтвердить соответствие его официального сайта 8-ФЗ?

А дальше всё просто – рейтинг считается на основе двух показателей.

1-й показатель: дни между датой отправки письма и получением ответа

2-й показатель: содержание ответа. Если простая отписка – 100 баллов, если не подтверждают и нет документов – 50 баллов, если не подтверждают, но обещают исправиться – 20 баллов и если утверждают что соответствуют и дают ссылки, или же подтверждают несоответствие, но дают точные сроки приведения в соответвие – 0 баллов.

Конечно, соответствие значение показателей и баллов можно подобрать и точнее, а также сводную оценку на их основе.

Но тут ничего сложного, на самом деле. Для региональных СМИ это вообще может быть темой и весьма актуальной.


Июн 22 2010

Ссылки на 22.06.2010: 8-ФЗ и прочие документы

Подборка ссылок для любознательных:

Законодательные карты

CMS и 8-ФЗ


Июн 11 2010

Почему ВСЕ сайты органов власти должны быть в зоне .gov.ru

К статье в Полит.Ру на которую я ранее ссылался появилось важное дополнение касающееся официального и неофициального сайтов прокуратур Камчатского края которое можно прочитать там же – http://www.polit.ru/country/2010/06/11/govweb.html

А я его продублирую тут.

АПДЕЙТ: Об официальном и неофициальном сайтах Прокуратуры Камчатского края

Как показал последующий анализ сайт prokuratura-kamchatka.ruсравнительно недавно перестал быть официальным, официальным сайтом Прокуратуры Камчатского края теперь является сайт kamprok.ru.

Изменение произошло совсем недавно, в частности, в декабре 2009 года была опубликована новость на сайте Генпрокуратуры где указывался старый сайт прокуратуры Камчатского края -http://genproc.gov.ru/news/news-10953/

В кэше поисковой системы Google видно, что ещё недавно на сайте Генпрокуратуры был указан веб-сайт prokuratura-kamchatka.ru – http://www.google.com/search?hl=en&q=»prokuratura-kamchatka.ru»+site:gov.ru&aq=f&aqi=&aql=f&oq=&gs_rfai=

История домена http://1stat.ru/?domain=prokuratura-kamchatka.ruпоказывает, что он был разделегирован и потерян прокуратурой в конце мая 2010 года, а с первого июня оказался зарегистрированным на частное лицо.

В данном случае мы вживую столкнулись с примером, когда неурегулированность общих требований к доменным именам государственных сайтов РФ приводит к подобным невольным ошибкам и нашей ошибке в частности.

Единственный способ раз и навсегда таких ошибок избежать – обязать органы государственной власти регистрировать свои домены только в зоне .gov.ru

Итого возникла следующая ситуация – прокуратура потеряла или отказалась от домена prokuratura-kamchatka.ru. Причём, если заглянуть в историю домена тут http://1stat.ru/?domain=prokuratura-kamchatka.ru то можно обратить внимание что он и ранее был зарегистрирован на физ.лицо. Но, при этом когда появился новый сайт – старый никуда не делся и до сих пор содержит отклонированную информацию с официального сайта.

Вот потому-то и все госсайты должны быть в зоне .gov.ru без этого и с учётом числа сайтов на физ.лицах и коммерческих учреждений ошибок будет ещё немало.


Июн 11 2010

Техническое: Про NoSQL в ГосСети

Tag: semweb, web, информацияivbeg @ 12:49 пп

В сети идёт активное обсуждение нужен ли NoSQL или не нужен рекомендую почитать посты тут – http://zabivator.livejournal.com/412053.html и http://rainman-rocks.livejournal.com/120682.html.

Ещё один технический нюанс ГосСети (www.govweb.ru) в том что в проекте частично использует NoSQL, а точнее – базу MongoDB (www.mongodb.org).

К примеру, как устроен проект ГосСетью.

Есть публичный фронтэнд (www.govweb.ru) в котором публикуется информация о сайтах. Сам проект живёт на Django + MySQL. Это позволяет вести разработку предельно быстро и удобно, но и имеет ряд ограничений, например, в том что в подобной схеме неудобно хранить данные не имеющие четкой структуризации.

Поэтому были самые разные идеи – от использования Semantic MediaWiki, до адаптации или разработки движка аналогичного FreeBase (но это оказалось слишком дорогой задачей).  А Semantic MediaWiki хоть и выглядит соблазнительно, но вплане импорта/экспорта информации с ним нужно немало разбираться.

Однако вернёмся к NoSQL. Кроме, фронтэнда, отдельно от проектов и уже давно существует бэк-офисный непубличный движок и сервис который выдаёт для ГосСети следующие API методы:

  • извлечение данных из веб-страниц и сайтов: изображений, ссылок, объектов, метаданных и так далее
  • извлечение признаков из веб-страниц: определение CMS, технологий, счетчиков и так далее
  • получение, парсинг и классификация данных WHOIS
  • валидацию через W3C Validator
  • извлечение метаданных из веб-страниц
  • поиск RSS лент (для случаев когда RSS ленты не указываются в тэгах LINK)

и ещё несколько полезных инструментов.

Это такой SWISS Knife, но построенный на общем хранилище и на общих принципах. И хранилище это работает на том самом MongoDB. Почему именно так?

Причины в самом деле просты:

1. Удобство хранения

Практически все случаи когда из веб-страниц необходимо извлекать много разнородной информации приводят к тому что есть выбор. Либо сильно упрощать структуры, либо создавать множество таблиц по которым эти структуры распихивать.
Пример, из веб-страницы извлекаются: изображения, скрипты, метаданные, ссылки, формы. Для каждого из этих типов данных есть своё описание структур которые могут существенно отличаться. А в случае, например, форм – у них есть ещё и вложенные структуры в виде элементов форм которые, по хорошему, тоже надо хранить.
В случае если разносить все данные по отдельным таблицам, то, во-первых их наберётся не один десяток, а во вторых строить сложные запросы по таким таблицам означает заранее закладываться на планировщик СУБД.
Это как раз решается на уровне документо-ориентированных баз данных вроде MongoDB и CouchDB.
2. Легкость изменений структур
Второй плюс NoSQL в том что структуры данных легко меняются даже в тех случаях когда данных накоплено уже очень большое количество. Приведу конкретный пример. Прежде чем появился описанный мною выше сервис – где-то с полгода назад у меня работал небольшой краулер робот который собирал данные по Рунету и основным используемым в нём технологиям с сайтов. Всего в базе было и есть около сотни тысяч описаний сайтов.  Это миллионы скриптов, ссылок, метаданных и т.д.  и чтобы понять какие носители признаков пригодны для классификации, а какие нет необходимо многократно анализировать и менять структуры. Так вот делать это с использованием NoSQL гораздо проще.

3. Map/Reduce

Собственно, не упомянутое авторами – это Map/Reduce. Это одна из наиболее интересных, полезных и, в некотором смысле, удобных фишек многих NoSQL движков.

Я могу посоветовать почитать про Map/Reduce в Википедии http://en.wikipedia.org/wiki/MapReduce и добавлю что нужно это далеко не всем, а только тем кто работает со сравнительно большим объёмом данных.

Лично я использую Map/Reduce в MongoDB уже давно, просто-напросто мало времени чтобы писать о технологиях.

4.  SQL != фундамент разработки

Это вообще какое-то распространённое заблуждение что _способ работы с данными_ является неотъемлимой частью процесса разработки. Я могу лишь сказать, что у тех кто так действительно думает, по всей видимости, мало опыта в использовании других технологий. Например, такие движки как Metakit, BerkeleyDB, а также объектные и XML базы данных вполне себе давно существуют и активно используются. Я знаю несколько весьма серьёзных продуктов полностью построенных на BerkeleyDB.

Добавлю лишь что NoSQL совершенно определённо годится не для всех видов систем, продуктов и задач. Но вот то что сама идеология вызывает столь активные обсуждения и в российской блогосфере и в мировой – это плюс, а не минус подхода.


Июн 10 2010

Про то чего нет или мало в ГосСети

Продолжая тему Госсети (www.govweb.ru) я расскажу о том чего там нет или же пока очень мало.

Тут будут скорее технические и онтологические нюансы работы с подобного рода данными. «Жареных фактов» тут не будет, но некоторые особенности я опишу.

По информации о госструктурах и сайтах

  • Можно обратить внимание на небольшое число госструктур и их сайтов для МинОбороны (http://www.govweb.ru/govbody/60/) и ФСБ(http://www.govweb.ru/govbody/70/) . Причины этого банальны до невозможности – у их подведомственных учреждений и терр. управлений очень мало веб-ресурсов. Можно убедится в этом здесь – http://www.fsb.ru/fsb/regions.htm и здесь http://www.mil.ru/849/1051/index.shtml. Готов поспорить что из всех структур Вы увидете ссылки на сайты, в лучшем случае, 10%.  Причём если закрытость спецслужб я ещё как-то понять могу, то малая публичность _огромной_ структуры Минобороны поражает.
  • Пока ещё мало ФГУ (http://www.govweb.ru/gbtype/fgu/) и ФГУПов (http://www.govweb.ru/gbtype/fgup/), а также различных ФГУЗ’ов и других форм бюджетных учреждений. Проблема с ними также проста. Во у немногих из них есть свои веб-сайты, во вторых очень многие органы власти не соблюдают 8-ФЗ и не публикуют или же публикуют не полностью информацию о подведомственных учреждениях. Причём, в данном случае, в _разгильдяйство_ я верю больше чем в злой умысел.
  • Администрации муниципалитетов – это отдельная большая история. Во первых по той причине что если всё делать правильно, то необходимо держать у себя полные справочники ОКТМО и ОКАТО и привязывать муниципальные образования к ним, а это означает что необходимо обязательно эти справочники актуализировать хотя бы раз в месяц. Не говоря уже о том что муниципальных сайтов реально много, хотя и, конечно, меньше чем самих муниципальных образований. Поэтому муниципальные ресурсы – это даже не второй, а третий приоритет.

По данным

  • сейчас нет такой информации как:  рекламные блоки Яндекс.Директа и Бегуна,  выявленных SEO ссылок, разработчиков сайтов. Не все эти срезы могут быть быстро получены, но наработки есть. Не буду обещать и загадывать вперёд, но что-то наверняка появится.
  • нет данных о доступности веб-сайтов за счёт пингования или HTTP Ping время от времени. И вопрос вопрос – а надо ли? Нет, конечно, доступность веб-сайта – это важно, но вопрос насколько важно.
  • не все CMS распознаются поскольку их опознавание происходит в режиме «мягкой идентификации», а то есть только на основе данных главной страницы.  Это некое разумное ограничение для минимизации запросов к сайтом чтобы уложить обновление информации в адекватное время .
  • сейчас распознаются только самые популярные счетчики и виджеты. Постепенно будут появлятся и новые. Как я уже говорил – есть отдельный от сайта веб-сервис который, собственно, отвечает только за выявление признаков. Может быть он даже станет публичным, когда-нибудь.

Нюансы

  • есть один большой вопрос как привязывать госструктуры к регионам. Его особенность в том, что если строить полноценную онтологию то быстро выяснится что у большинства госструктур региональных привязок несколько. Это - территориальное местонахождение с точностью до региона или муниципального образования, область ответственности органа власти, местонахождение филиалов  если есть филиалы. Далее оказывается что не все территориальные подразделения привязаны к субъектам федерации. Например, у Минпромторговли России территориальные подразделения привязаны к экономическим округам и унаследованы от передачи функция от Минэкономразвития. А вот у Федерального медико-биологического агентства территориальные управления привязаны даже не к субъектам,  а к конкретным предприятиям. например, посмотрим 107 РУ ФМБА  - http://www.fmba-ru107.narod.ru. Схожая ситуация с ещё рядом ведомств и, в результате, используется некий компромисс привязки госструктуры к региону.

И, наконец, ГосСеть – это гибридный проект где каталог госструктур, госсайтов и различные рейтинги собраны вместе.

В то же время, в похожие проекты в мире есть. Например, германский http://www.bitvtest.eu/ проверяет государственные веб-сайты на доступность для людей с ограниченными возможностями и формирует оценки и рейтинги, а также CMS на которых сайты сделаны. Правда, они это делают вручную и сайтов там мало.

Так что по праву можно сказать что ГосСеть – это первый такой проект в мире.


Июн 08 2010

Ответы на вопросы по ГосСети

Вчера пришло очень много вопросов, писем и комментариев.

Некоторые повторяются так что я отвечу на часть из них тут и объясню как работает проект.

1. Ключевая особенность ГосСети от любых каталогов веб-сайтов. Мы вначале создаём карточку госструктуры к которой сайт относится и лишь потом добавляем сайт. И ни один из сайтов не добавляется без такой привязки. В свою очередь органы власти имеют привязку к региону, ветви власти, виду структуры и так далее.

2. Данные в Госсеть вносятся двумя способами – автоматически и вручную. Например, автоматически вносились территориальные подразделения ФАС, Казначейства, управления ГИБДД и многие другие. В то же время, например, данные о сайтах проектов органов власти, ФЦП, сайтов закупок и большая часть региональных сайтов вносятся вручную.

3. Конечно, в системе есть ошибки. Связаны они и с тем что информация на сайтах органов власти не всегда является достоверной или же просто с ошибками. А также с тем что информацию о сайтах вносится автоматически. Поэтому, например, в некоторых случаях названия сайтов могут выглядеть странно. Но лишь по той причине что в некоторых случаях название приходится извлекать из тэга TITLE с главной страницы сайта, а там оно может быть, скажем так, разным.

4. Информация о CMS, Счетчиках, хостингах, геолокации, данных валидации по W3C собирается полностью автоматически.  Собственно какое-то время назад я писал у себя в блоге что результатом всех моих исследований Рунета является сервис аналогичный BuiltWith.com с той лишь разницей что он непубличен, а работает в режиме веб-сервиса. Собственно ГосСеть – это его первая публичная апробация.

5. ГосСеть – это долгосрочный проект и, как я уже писал ранее, это фундамент на основе которого могут быть построены и другие проекты и сервисы нацеленные на общественное благо. Те из Вас кто знают про проекты по открытым данным от New York Times и британской Guardian поймут о чём речь. Конечно, тема открытых данных в России пока ещё вызревает, но тема открытости государства уже горячая

6. В этом проекте как и проекте ГосЛюди.Ру я выступаю в качестве создателя и руководителя, при этом оба проекта делаются в пользу Полит.Ру и благодаря их финансовой и медийной поддержке.  Собственно что это означает. То что у меня что у редакции Полит.Ру есть чёткое взаимное понимание что сейчас у нас в стране есть серьёзный дефицит технологических проектов по открытости государства и нацеленных на общественное благо.

7. Проект с самого начала нацелен на партнёрство со всеми заинтересованными сторонами. И если у Вас есть конкретные предложения, например, публикации своих рейтингов, исследований, лучших практик, получения данных, предоставления данных и так далее – пишите на ibegtin (собака) gmail.com .

И немного статистики.

На 08.06.2010 в Госсети есть:

  • 2453 госучреждения
  • 30 видов госучреждений
  • 1808 веб-сайтов
  • 11 видов веб-сайтов
  • 94 региона
  • 19 нормативно-правовых документов
  • 195 - видов признаков выявляемых с госсайтов: CMS, хостинг и т.д.
  • 19973 – выявленных признаков на госсайтах

Июн 07 2010

Всякие отдельные интересности в ГосСети

Теперь, когда проект Государственная сеть запущен, я могу приводить интересные факты по e-Gov уже с конкретными ссылками.

Следующая страница »


Rambler's Top100