Продолжение по поводу анализа структуры сайтов

Хотя на сайте MS Research много интересных материалов, но, на самом деле отправной точкой во всём что касается извлечения информации из веб-сайтов, классификации, аннотирования и так далее — это страничка профессора Bing Liu http://www.cs.uic.edu/~liub/ из Института Иллинойса Чикаго.

Помимо того что он автор книги Web Data Mining http://www.cs.uic.edu/~liub/WebMiningBook.html где охватывает почти все темы, но у него же на сайте есть обучающий курс по Data Mining and Text Mining http://www.cs.uic.edu/~liub/teach/cs583-fall-10/cs583.html где как раз очень много материалов или ссылок на материалы других исследователей по структуре веб-сайтов.

При этом, как я пониманию, одно из направлений его исследований — это создание автоматических и полуавтоматических врапперов для извлечения данных из веб-сайтов с описанием технологий как автоматически на страницах выявляются значимые блоки, их расположение, классифицируются и кластеризуются ссылки и так далее.

Практических примеров, правда, не так много как хотелось бы. Мне понравилась идея с автоматическим анализом форм поиска билетов через сервисы бронирования для создания одной общей формы через которую идёт поиск по всем (более 5) сервисам.

Некоторые интересные и очевидные мысли которые я в его презентациях разглядел:

  • данные в Веб сильно зашумлены и алгоритмы по автоматическому анализу должны уметь от этого шума избавляться
  • большая часть данных в Веб представлена фиксированным набором способов её представления — шаблонами в виде HTML тэгов
  • для выявления повторяющихся объектов на странице нужна их топологизация, формирование шаблонов в виде последовательностей полей и меток
  • для определения структуры сайта можно использовать tree edit distance используя DOM как дерево
  • главные проблемы работы с врапперами в их сопровождении и повторном обучении. В ответах на вопросы: как определить что враппер не работает? как его автоматически починить? должно ли переобучение менять текущий враппер или создавать новый?

Плюс, там же интересные материалы по тому как именно производится тематическая классификация веб-сайтов/веб-страниц.

About This Author

  • http://www.facebook.com/people/Victor-Mireyev/100000042962778 Victor Mireyev

    Спасибо за ссылки!

Яндекс.Метрика