Архивы «мёртвых и заброшенных» госсайтов в OpenGovData.ru

Год назад я писал о том что существует некое совсем ненулевое количество государственных сайтов которые были созданы очень давно и с тех пор совершенно не обновлялись.

Исчезающие сайты

Также, в Рунете немало новых сайтов госорганов при создании которых старые их версии какое-то время оставались (и остаются) доступными по поддоменам old.*.ru или archive.*.ru тем самым. А то есть при создании новых версий госсайтов старые какое-то все ещё доступны. Но если, к примеру, обновление проходит по второму-третьему разу, то архивные сайты неизбежно исчезают. Пример такого сайта — старый сайт Роспотребнадзора http://old.gsen.ru/ или архивный сайт Минрегиона http://archive.minregion.ru/

А есть случаи когда ведомства расформировывают и их сайт неизбежно должен, или исчезнуть совсем, или остаться в неком «мумифицированном виде» с пометкой что он бывший. Но чаще сайт совсем исчезает, а часть материалов перекачивается на сайт той госструктуры которая наследует функции расформированной. Например, это такие сайты как сайт Рособразования — http://www.ed.gov.ru/ или сайт Росохранкультуры — http://www.rosohrancult.ru/

Ещё пример — это тематические государственные сайты созданные под конкретные события или мероприятия которые прошли много лет назад, но сайты остаются доступными ещё какое-то время. Примеры — сайт по встрече министров финансов в 2006 году — http://www.g8finance.ru, проект Курская битва — http://www.kursk1943.mil.ru/ созданные неизвестно когда, но явно давно.

Таких сайтов довольно много, а ещё больше тех которые исчезли навсегда и уже совершенно недоступны. Например, это:

— старый сайт Правительства РФ (он, _как бы_, доступен здесь — http://www.government.ru/archive/, но на самом деле там все ссылки уже давно ведут на разделы нового сайта)

— бывший сайт Электронной России — http://www.e-rus.ru/ (пуст)

— сайт Росстроя — http://www.gosstroy.gov.ru/ (уже давно не существует)

— архив сайта Минфина, уже неизвестно где и как

— сайт Федеральной службы железнодорожный войск — http://www.fsgv.ru (недоступен)

И ещё десятки. Найти все уже исчезнувшие сайты очень сложно.

Столкнувшись с этой ситуацией ещё несколько лет назад, я понял что единственный вариант сохранить некоторые материалы — это делать полные копии ключевых сайтов, иначе они просто исчезают, без остатка.

Что собственно и было проделано и систематизировано сейчас. Например, как только анонсировали расформирование Росохранкультуры и Росстрахнадзора — это, не в последнюю очередь, означает что их сайты скоро, или исчезнут, а часть их материалов перейдёт в те структуры куда они вольются, или какое-то время побудут в сети, скорее всего на время действия договоров по хостингу и, опять же, исчезнут.

Однако, как, я уверен, вы догадываетесь — обязательных архивных копий госсайтов никто у нас не делает. Если что-то исчезло, то оно уж исчезло так исчезло. В лучшем случае ещё какое-то время информация будет в кеше Гугла и, если повезёт, в archive.org, но требования по обязательному электронному архивированию у нас в стране отсутствуют, хотя в других странах они не только существуют, но и систематизированы.

В мире

Например, цифровые архивы в Великобритании — http://www.nationalarchives.gov.uk/webarchive/default.htm, где в рамках Digital preservation (электронного архивирования) сохраняются копии государственных веб-сайтов. Не только старых, но и оперативное сохранение новых.

В Европе это всё существует в рамках инициатив European Archive http://europarchive.org и фонда Internet Memory Foundation — http://internetmemory.org/

Аналогичные архивы ведутся в США в библиотеке Конгресса — http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html, а также

В западных странах это вызвано несколькими причинами, основными из которых является несколько ключевых законов вроде Sarbanes-Oxley Act of 2002 в США регламентирующих требования к ведению архивов. Подробнее об этом можно прочитать на английском в этой заметке.

Однако в России, ничего системного в этой области нет. Я совсем не удивлюсь если даже электронная архивация внутреннего документооборота не регламентирована, а уж про то многие госслужащие пользуются бесплатной электронной почтой (gmail.com, mail.ru и др.) для служебной переписке и, соответственно, архивация этой переписки затруднена, и речи нет, чувствую тут изменения будут нескоро.

Однако если чего-то нет на государственном уровне, это совсем не значит что этого не может быть на негосударственном.

В России

Ровно по этой причине в проекте OpenGovData.ru я добавил ещё один специальный раздел — «Архивы госсайтов»  который можно открыть по ссылке — http://www.opengovdata.ru/archive/

В этом разделе собран каталог уже сохранённых и запланированных к сохранению сайтов.

Сейчас их всего описано 26, из них сделаны и доступны копии 12-ти, в основном тех сайтов архивные копии которых не превосходят 100MB. Остальные последовательно будут добавляться.

Все сайты разделены на несколько типов государственных сайтов в зоне риска:

— старые версии сайтов органов власти — http://www.opengovdata.ru/archive/?q=&type=4;

— сайты расформированных госструктур — http://www.opengovdata.ru/archive/?q=&type=2;

— тематические сайты созданные и заброшенные госструктурами — http://www.opengovdata.ru/archive/?q=&type=1;

плюс добавлен ещё один тип  «Малый, редкообновляемый сайт». Это статические сайты которые очень редко и очень мало обновляются, а также невелики сами по себе. Например, это www.gov.ru, и остальные можно посмотреть тут http://www.opengovdata.ru/archive/?q=&type=3

Также, поскольку лично я считаю что доступ к открытым данным, также должен быть открытым, то и полный список всех сайтов и файлов к ним доступен через API OpenGovData.ru вот здесь — http://www.opengovdata.ru/api/v1/get_all_archives/

Пока у API нет детального описания, но там всё сделано максимально самоочевидно и пытливые умы остановить не сможет.

Разумеется все архивы делаются исключительно для публичного общественного использования, на тех же принципах что поисковые системы индексируют веб-сайты.

И, конечно, эти архивы имеют непосредственное отношение к открытым данным поскольку во многих случаях архивная информация за прошлые годы остаётся только в старых версиях сайтов органов власти или же на сайтах расформируемых госструктур. Например, большие объёмы статистики страхования есть на сайте Росстрахнадзора, немало открытых данных в виде реестров есть на сайте Росохранкультуры и так далее.

Все архивы сделаны с помощью программы Httrack. У неё есть свои плюсы, и свои минусы (не сохраняются названия файлов при Content-Disposition и т.д) однако архивы получаются достаточно полными и точными для начала.

Ограничения

У всего этого, конечно, есть определённые ограничения.

В частности, это лишь ограниченное электронное архивирование поскольку для большей и более точной систематизации знаний требуется большей усилий и организации а ля Internet Memory Foundation. Имеющиеся усилия направлены лишь на то чтобы сделать первый шаг в этом направлении.

Другим ограничем является объём архивируемой информации. Например, архив сайта Росохранкультуры более 750 мегабайт (из которых 450 мегабайт это несколько отчетов в PDF’ах), архив старого сайта Минрегиона — это более 460 мегабайт, архив сайта контрактной службы Минобороны (contract.mil.ru) — это 830 мегабайт. И так далее.  Это большие файлы которые если выкладывать полными архивами, то они скушают потом весь трафик. И только по этой причине я их пока не выкладываю — не определился с наиболее верной формой.

Один вариант — это найти FTP хостинги готовые такие файлы у себя держать, но нужна уверенность что они не удалят их в будущем.

Другой вариант — отдавать их через торрент трекер.

Третий вариант — разделить архивы на внутренние и публичные и предоставлять к выгрузке только архивы без видео, архивных файлов (zip, rar, 7z и так далее) и PDF документов и презентаций более 20 мегабайт. Тогда можно существенно уменьшить размеры этих файлов. А оригинальные архивы сохранять на случай если понадобятся конкретные документы.

Четвертый вариант — более системный/библиотечный подход, обеспечить архивацию по аналогии с European Archive и коллекциями сайтов библиотеки конгресса, тем самым позволяя производить навигацию по копии сайта онлайн, но оставляя пометку что это архивная копия. Это более серьёзный подход требующий уже куда более серьёзных усилий.

Как можно помочь?

1. Если есть госсайты не попавшие в список — их можно присылать мне на ibegtin (собака) gmail.com, чем более старый сайт, тем интереснее и важнее его сохранить.

2. Если есть идеи как лучше организовать архивацию и доступ к архивам — это всегда можно и важно обсуждать.

И, в принципе, комментарии всячески приветствуются.

About This Author

Яндекс.Метрика