Понимание структуры веб-сайтов

Оказывается в Microsoft Research есть проект Website Structure Understanding and It’s applications с весьма впечатляющей коллекцией материалов по этой теме.

Конечно, не они единственные занимаются этой темой — у меня довольно большая подборка материалов самых разных исследователей, но там их особенно много.

Правда явно делают акцент на анализе форумов и других дискуссионных площадок, что в свете популярности соц-сетей в которых уже есть структурированный контент уже не столь актуально, но всё равно интересно.

Вообще это одна из очень интересных тем. Я последний раз вплотную анализировал данную тему работая над алгоритмов по превращению новостных лент в HTML страницах в RSS автоматически. Алгоритм уже давно работает и активно используется на практике, однако же начинал я его именно с автоматического анализа веб-страниц для той самой цели фокусированого индексирования.

И, конечно, разница в подходе — они основываются на произвольных выборках веб-страниц, кластеризации ссылок, кластеризации структуры веб-страниц и последующих вероятностных предположениях.

Я же пытался зайти со стороны предварительной классификации сайта целиком, идентификации CMS, выявлению микро-признаков с «переупаковкой» структуры веб-страницы из DOM в специального рода таблицы.

Если бы я в последние годы не увлёкся проектами в области общественного блага (РосГосЗатраты, Открытые данные), то пожалуй самое интересное это было бы закончить исследования в этой области. Так что читаю такие материалы не без лёгкой белой зависти потому как очень увлекательно.

About This Author

Яндекс.Метрика