Некоторые результаты по Скиуру — превращению новостных страниц в RSS

Поскольку удалось поднять хотя бы часть информации с дисков,  удалось восстановить и часть результатов обновлённого алгорима Скиура.

Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов где было найдено 86 тысяч новостных сообщений. При этом анализировались только «морды сайтов», начальные страницы, а при использовании на них же новостных страниц результаты могут быть ещё лучше.

Всё это без предварительных проверок на язык сайта (русский ли), запаркованность домена, заведомое наличие у сайта RSS и так далее, ещё ряд проверок.

В итоге как я и обещал ориентировочно в начале октября Скиур будет доступен публично, поначалу в форме похожей на Page2RSS.

Для тех кто не читал моих предыдущих записей.

Скиур — это название сервиса и алгоритма по восстановлению структуры новостной ленты по её HTML представлению.

В качестве параметра ему передаётся ссылка на страницу и по этой ссылке из HTML страницы извлекаются новостные ленты и преобразуются в RSS или ATOM формат. В отличии от Page2RSS отслеживаются не все изменения, а именно новости причём восстановленные включая даты, заголовки и ссылки.

В отличии от Dapper’а и других подобных сервисов где подобное можно сделать вручную, Скиур работает полностью автоматически, никакой иной информации кроме собственно веб страницы ему ненужно.

About This Author

  • http://denis.fayruzov.ru Denis Fayruzov

    Иван, ждем-не-дождемся. )
    Кстати, а можно каким-нибудь образом попасть в бета-тестеры проекта? )

  • http://ivan.begtin.name ivbeg

    Можно, но там ещё меняется интерфейс и ждать осталось всего ничего:)

  • http://plane.com.ua/ Давид

    Интересная тема… буду ждать продолжения…

Яндекс.Метрика