Метрики для анализа HTML
Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.
—
Уровень тэга (tag level) — это характеристика тэга веб страницы определяющая глубину его нахождения в дереве тэгов начиная от корневого тэга html.
Сдвиг тэга (tag shift) — это характеристика тэга веб страницы определяющая его позицию в списке потомков его родителя
Уровень схожести пути тэгов (tags path similarity) — является характеристикой отношений двух тэгов когда в качестве оценки используется оценка числа тэгов находящихся от каждого из сравниваемых тэгов до общего родителя.
Уровень схожести тэгов (tag similarity) — является характеристикой отношения двух тэгов основанной на сравнении их естественных и назначенных атрибутов в соответствии с моделью сравнения.
Глубина тэга (tag deepness) — определяет максимальную глубину тэга по совокупности всех его потомков
Обратный путь (reversed path) — путь от тэга к его родителю в обратной нотации (или через xpath — parent)
Путь сдвига (shift path) — путь от родительского тэга до выбранного основанный на сдвиге тэга потомка от родительского. Путь сдвига записывается в виде массива цифр.
Поделиться в соц. сетях
-
Санитар
-
http://ivan.begtin.name ivbeg
-
http://nikelin.livejournal.com nikelin
-
daedmen
-
http://ivan.begtin.name ivbeg
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






