Из HTML в RSS и иные форматы

Продолжая тестировать свой алгоритм превращения новостных страниц в RSS каналы могу сказать что как я и ожидал в подавляющем большинстве случаев он работает.

Во всяком случае теперь новости с практически всех федеральных и ряда региональных сайтов я получаю только по подписке и это очень удобно, всего более 40 сайтов. Нехватает только фильтра по ключевым словам для полного счастья, может кто подскажет есть ли такие инструменты фильтрации RSS по ключевым словам?

А вот с различными форумами алгоритм пока не работает, причём в основном по той причине что там несколько иная логика построения списков. На форумах присутствует принцип «время вперёд» когда новые записи добавляются в конец видимых списков, а в новостях и блогах списки идут по принципу «время назад» и отправной точной является текущее время, а вектор направления идёт в прошлое.

Всё это в совокупности затрагивает те теоретические вопросы которые я поднимал в статьях «Мир как поток и совокупность информации». Форма представления и характер наполнения информационного потока оказывают непосредственное влияние на модель его потребления.

А стратегии структуризации, индексирования и наполнения информационных потоков непосредственно зависят от их характеристик, сравнительно ограниченного перечня метрик определяющих правила и принципы работы данными.

Например, построение поисковой системы по индексированию форумов выявлением блоков которые можно разобрать и представить в виде SIOC — вполне возможно. Вопрос лишь в востребованности такого сервиса.

Ну а технологиями и идеями будущего можно назвать подход по разбору любой веб страницы в совокупность структурных блоков, «объектной карты». Причём ближе всего к этой теме сейчас подходят поисковики, но судя по тенденциям они стараются не заморачиваться с автоматикой анализа, а пытаются продавить микроформаты, сайтмапы, экспорт данных в RSS, ATOM и других структурных форматах.

About This Author

  • Дядя Федор

    Не совсем понятна проблема со временем в обратном порядке. Во многих формумах есть опции просмотра всех сразу, в крайнем случае можно находить последнюю страницу и от нее «танцевать».

  • http://ivan.begtin.name ivbeg

    Если форум это позволяет — то алгоритм сработает, достаточно ему подсунуть правильную ссылку с сортировкой.
    А нахождение последней страницы это уже несколько иная задача, другой алгоритм и другие решения поскольку форумы все имеют отличия.

Яндекс.Метрика