Анонс: Преобразование новостных лент из HTML в RSS в закрытом тестировании

Введение

Часть из моих предыдущих исследований дошла до результата и сейчас, наконец-то, есть показать наглядно, а не только на уровне рассуждений.

Про сервис Page2RSS я упоминал в своём блоге уже неоднократно — это такой удобный сервис отслеживания изменений на веб страницах, но не без недостатков так как с его помощью можно отследить только страницу в целом и не более. Поэтому у меня и зародилась идея отслеживать не просто изменения, но превращать записи из новостной страницы в RSS напрямую.

Анонс

Пока в закрытом тестировании — сервис извлечения новостной ленты из любой веб страницы.

Вы передаёте в качестве параметра URL страницы, алгоритм, если находит там новости, то формирует RSS ленту и возвращает на неё ссылку, если не находит, то упоминает что лента не найдена.

Чтобы принять участие в тестировании необходимо мне отправить письмо на ibegtin (собачка) gmail.com, я пришлю ссылку на сервис. Настоятельная просьба никому эту ссылку не передавать — поскольку проживёт она относительно недолго, ориентировочно месяц и ресурсы оборудования не безграничны.

При использовании помним о том что у разных сайтов свои требования к допустимости использования информации и Вы на себя за это использование берёте полную ответственность, а сервис лишь предоставляет интерфейс.

Особенности и ограничения

Как и у каждого алгоритма есть ряд специфичных особенностей:

1. Алгоритм заточен под Рунет и русский язык. Возможно что он сможет распознать новости на других языках, но тут никаких гарантий нет поскольку это не проверялось.

2. Если на странице есть несколько новостных потоков, то каждый из них рассматривается как независимый RSS канал, но в целях упрощения сейчас эти потоки собираются в один и уже так отдаются пользователям. В будущем это можно будет изменить до выдачи пользователю несколько RSS каналов.

3. Сейчас для работы алгоритма необходимо чтобы у каждой новости на странице была написана дата (в любом формате) поскольку она необходима для указания даты в RSS канале. В будущем возможно формирование ленты по новостям и без даты, подставляя дату обработки страницы, но это требует куда большей осторожности с интерпретацией результатов.

4. Поскольку формирование RSS ленты довольно ресурсоёмко, то сейчас все каналы кешируются на период в 2 часа.

5. Поскольку бета, то ошибки были и должны быть. Прошу если такие выявятся — как то неправильное распознавание или нераспознавание новостей, то направлять их мне по e-mail выше.

6. Какая-либо автоматическая выгрузка и индексирование поисковиками сейчас ограничены и в случае обнаружения будут банится.

Технология

В текущей реализации я отступил от своего правила что больше информации — лучше алгоритмы и данный алгоритм довольно короток по реализации и сложен по логике. На сей раз алгоритм работает используя ряд универсальных правил.

Фактически этот алгоритм это «хвост от белки», но ещё не сама белка. Иначе говоря это лишь практический пример применимости глубокого анализа HTML на практике, есть и другие примеры, но они не столь наглядны.

Примеры

About This Author

Яндекс.Метрика