Почему необходима обязательная архивация всех госсайтов

В качестве еще одного примера того почему необходима архивация всех государственных сайтов и публичные цифровые архивы.

В 2011 году Росстрахнадзор, такая федеральная служба, был присоединен к другой федеральной службе — ФСФР.

На момент присоединения у каждой из них было по собственному официальному сайту. У Росстрахнадзора — www.fssn.ru, у ФСФР — www.fcsm.ru

После присоединения, какое-то время, сайт Росстрахнадзора был доступен, одновременно с этим появился раздел посвященный регулированию страховой деятельности на сайте ФСФР. Однако сейчас в 2012 году сайт Росстрахнадзора исчез, он более недоступен.

Казалось бы,  в чем беда? Беда в том что на их сайте находились документы, отчеты и данные с 2004 года по 2011 включительно. Там немало отчетных данных по рынку страховых услуг за эти годы. На сайте ФСФР этих данных нет.

В 2011 году я предвидел эту ситуацию и в марте 2011 года был сделан слепок сайта Росстрахнадзора на тот период. Сейчас он как и все остальные данные загружены в хаб открытых данных — http://hub.opengovdata.ru/dataset/archivefssn_ru

В этом 150 мегабайтном архиве скрыто 1.1 гигабайта страниц и документов с сайта Росстрахнадзора. Даже если ФСФР не поднимут старый сайт и не перенесут данные — у нас есть их полная копия.

Но, конечно, не без проблем. Httrack с помощью которого я делаю копии сайтов довольно негибок и иногда портит ссылки. Вот и здесь — все документы были выкачаны, но, поскольку многие из них были с буквами на кириллице, то httrack испортил названия файлов тех что были на кириллице — их все надо перекодировать. Сами документы, конечно-же остались.

Поэтому это пример, одновременно, полезной архивации и проблем с «партизанскими архивами». Для того чтобы архивировать данные полноценно нужна соответствующая инфраструктура — сервера, развертывание Heritrix’а, веб-интерфейса над архивами и регулярная архивация в том числе живых сайтов. Задача, на сегодняшний день, упирающаяся лишь в финансы. Если их получится на такую задачу найти, то она обязательно будет осуществлена.

А для тех кто интересуется как устроена цифровая веб-архивация в других странах советую заглянуть в Википедию — в раздел списка проектов веб-аврхивов en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

Если у Вас есть какие-либо архивы старых государственных сайтов и вам не жалко их отдать — присылайте мне. Сгодятся также архивы сайтов предвыборных кампаний, депутатов прошлых созывов, сайты теперь уже несуществующих политических партий и тому подобные ресурсы. Все будут выложены в открытый доступ на хабе открытых данных.

About This Author

Яндекс.Метрика