Янв 26 2010
HTML в RSS: Google Reader vs Скиур.
Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы. Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com
И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.
Главное отличие в принципиальном подходе.
ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff – определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:
1. Найти отличия
2. Выделить из этих отличий значимые и преобразовать их в текст.
Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.
В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента – это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.
Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:
1. Опробация алгоритмов в действии на большом числе разных страниц – это удалось, сейчас поддерживается более 160 различных форматов новостных лент.
2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет – это также удалось решить.
Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.


