Извлечение структурированных данных — чтение

Месяца два назад мне попалась на глаза диссертация Эрика Шляйтера (Erik Schlyter) «Structured Data Extraction«, она есть в сети по ссылке и довольно любопытна. Автор делает обзор нескольких алгоритмов по извлечению данных из HTML и применимости такого подхода для извлечения данных о продуктах в своей системе PIEME.

Из материалов по теме — хороший старт для понимания какие алгоритмы существуют и их недостатки.

Правда я, признаться, слегка разочаровался, не только этими материалами, но и остальными по теме в том что авторы идут путём наращивания «мышц алгоритмов» вместо систематизации рассматриваемой области.  В то же время описания логики работы с «Tag Mismatch» и рассмотрение процесса анализа структуры данных для последующей выработки правил извлечения в итоге отделение процессов выгрузки, анализа, формирования списка правил, тестирование правил; рассматриваются как различные модули.

About This Author

Яндекс.Метрика