Обновление алгоритма в Скиуре

В Скиуре, сервисе по извлечению новостей из HTML в формат RSS прошло очередное обновление.

Из-за проблем с нагрузкой, пришлось практически полностью переделать правила распознавания новостных лент, в частности отказаться и регулярных выражений преобразовав их в специальные парсеры и построив вокруг них ускоряющий индекс похожий на RETree, а ещё вернее его «симуляцию» тем не менее работающую как частное решение.

Плюс теперь алгоритм обучается и единожды распознав новостную ленту, далее разбор той же страницы проходит куда быстрее.

Ну вот теперь могу сказать что определение одной новостной ленты без выгрузки веб-страницы происходит не более 2 секунд, а алгоритм полностью production ready.

Остались лишь ограничения связанные не с алгоритмами, а оборудованием, хранением записей и так далее, но они решаются по другому.

About This Author

Яндекс.Метрика