Метрики для анализа HTML

 

Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.

  Уровень тэга (tag level) — это характеристика тэга веб страницы определяющая глубину его нахождения в дереве тэгов начиная от корневого тэга html.

  Сдвиг тэга (tag shift) — это характеристика тэга веб страницы определяющая его позицию в списке потомков его родителя

  Уровень схожести пути тэгов (tags path similarity) — является характеристикой отношений двух тэгов когда в качестве оценки используется оценка числа тэгов находящихся от каждого из сравниваемых тэгов до общего родителя.

  Уровень схожести тэгов (tag similarity) — является характеристикой отношения двух тэгов основанной на сравнении их естественных  и назначенных атрибутов в соответствии с моделью сравнения.

  Глубина тэга (tag deepness) — определяет максимальную глубину тэга по совокупности всех его потомков

  Обратный путь (reversed path) — путь от тэга к его родителю в обратной нотации (или через xpath — parent)

  Путь сдвига (shift path) — путь от родительского тэга до выбранного основанный на сдвиге тэга потомка от родительского.    Путь сдвига записывается в виде массива цифр.   

  Число вхождений ключевых подтэгов  — это число вхождений в тэг таких тэгов как a, h1, strong и иных. Метрика может быть совокупной по всем типам ключевых тэго или быть преставленной в виде группы метрик.
  Положение тэга в тексте страницы (layout position) — это позиция тэга в тексте страницы при отображении его браузером. 
  Уникальность тэга —  это наличие id, наличие уникальных значений class, style или иных; наличие уникальных атрибутов у близлежащих тэгов. 
About This Author

  • Санитар

    Ммм… Все-таки представляется радикально неконструктивной идея любой предварииельной русной обработки, что в этой схеме неизбежно.

  • http://ivan.begtin.name ivbeg

    В Скиуре, к примеру, ручная обработка данных отсутствует, хотя и метрики выше используются.

  • http://nikelin.livejournal.com nikelin

    Ещё можно ввести параметр «семантического выделения данных тега», что часто бывает так же полезно, при анализе документа.

  • daedmen

    А как ты layout position считаешь ? Рендеришь в браузере страницу и смотришь где получилось или как-то по другому ?

    • http://ivan.begtin.name ivbeg

      Сейчас простейшим анализом CSS. Рендеринг в браузере сильно снижает производительность при массовой обработке страниц

Яндекс.Метрика