HTML в RSS: Google Reader vs Скиур.

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.

Главное отличие в принципиальном подходе.

ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff — определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:

1. Найти отличия

2. Выделить из этих отличий значимые и преобразовать их в текст.

Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.

В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента — это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.

Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:

1. Опробация алгоритмов в действии на большом числе разных страниц — это удалось, сейчас поддерживается более 160 различных форматов новостных лент.

2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет — это также удалось решить.

Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.

About This Author

  • suvit

    Скиур вот тут не смог распознать http://dlink.ru/ru/news/

  • kiyan

    Вот тут не распозналось: http://www.nkrz.gov.ua/uk/activities/ruling2/
    Раньше я Скиуром вот это получал: http://www.nkrz.gov.ua/uk/activities/ruling/, но потом наши НКРЗ-шники почему-то список решений стали приводить только в виде номеров решений и дат, без описания, видать это и не понравилось…

  • http://kiyan.dp.ua/ Vladimir Kiyan

    Вот тут не распозналось: http://www.nkrz.gov.ua/uk/activities/ruling2/
    Раньше я Скиуром вот это получал: http://www.nkrz.gov.ua/uk/activities/ruling/, но потом наши НКРЗ-шники почему-то список решений стали приводить только в виде номеров решений и дат, без описания, видать это и не понравилось…

  • Шевчук

    Любой из разделов форума http://forums.overclockers.ru — отлично распознаёт, но кодировку путает =(

    • http://ivan.begtin.name Ivan Begtin

      Кодировка в Скиуре распознаётся автоматически. Если не распозналась — значит что-то не так на сервере, где-то он возвращает её неверно

      • Шевчук

        Не мог ли Скиур ошибиться в определении кодировки? На странице указано UTF-8, отдаётся действительно в UTF-8, но похоже, что Скиур считает, что данные в cp1251 (если принудительно задать в браузере cp1251 — будут ровно такие же символы, что и у Скиура). На такой случай удобно было бы иметь ручное указание кодировки, чтобы даже такая ошибка не перечёркивала все остальные способности сервиса. И да, спасибо!

  • http://www.facebook.com/people/Ila-Sorokin/100001131688972 Илья Сорокин

    Не открывается http://www.skyur.ru — 502 Bad Gateway

Яндекс.Метрика