Полезные умные алгоритмы и каталоги веб-ресурсов

В  посте от 23 февраля я писал про каталог веб ресурсов в поискуне и, всё таки, удалось запустить его полуавтоматическое наполнение ресурсами по тематикам и из 1668 сайтов сейчас туда внесённых около 900 было внесено роботом, при этом, если сравнить время которое бы потребовалось на ручное внесение ресурсов или внесение их предоставив такую возможность посетителям, тем не менее краткое программирование робота плюс ручное исправление ошибок (около 12 на 900 ресурсов) показывает что такой подход вполне оправдан.

Теперь собственно о каталоге. Туда попали порядка 200 региональных сайтов министерств и ведомств, территориальные подразделения нескольких федеральных ведомств, администрации муниципальных образований, сайты региональных подразделений прокуратуры, территориальные подразделения казначейства и сайты торгово промышленных палат.

Конечно, помимо практической пользы, а каталог этих ресурсов собственно мне лично нужен для работы, есть польза экспериментальная в проверке работоспособности алгоритма автонаполнения. Вернее алгоритмов, поскольку есть несколько подходов разного уровня сложности — конкретно этот довольно прост. Пока это первый шаг, но далее можно будет собрать все необходимые данные.

В любом случае создать каталог ресурсов это, конечно, чем связанный массив данных с провязкой по всем ключевым справочникам и возможности рассмотрения тех или иных сущностей с разных срезов. Например, сейчас каталог ресурсов позволяет лишь найти те гос. учреждения у которых есть их сайты, в то время как есть и обратная ситуация в поиске тех учреждений у которых веб-сайты отсутствуют. Для такого анализа веб-сайт уже не является базовой сущностью, а анализ проистекает от иерархии госуправления, которая, в свою очередь, должна бы отражаться в таком справочнике ОКОГУ, но,  по моему глубокому убеждению, ОКОГУ давно уже морально устарел и не отражает и десятой части всех тех связей которые присутствуют между организациями. Построение же собственного справочника, завязанного на онтологию взаимосвязей — это большая задача, которую врядли государство когда-либо будет финансировать.

Впрочем и у каталога ресурсов есть практическое применение — оно заключается в том что, как я и писал ранее, гос-сайты могут выступать как доверенная зона для Trustrank, в виду того что 99% из них крайне консервативны и такие явления как продажа ссылок на них не распространяется.  

По общему числу гос. сайтов в России у меня оценки прежние — порядка 10 000 ресурсов. Сюда попадают и различные сайты таких типов организаций как ГУП, МУП, МУЗ, ОГУЗ, МИАЦ, ФГУ, ФГОУ и так далее.

Причём число их постоянно растёт, простейший пример, это когда регионы создают для своих муниципалитетов веб-сайты сразу пачками на поддоменах. 

Каталог ресурсов, по прежнему, по ссылке: http://enotpoiskun.ru/links/

About This Author

Яндекс.Метрика