Скиур — развитие и регулярные выражения

Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до 171, тем не менее без их реорганизации и построения индекса или фильтрующего алгоритма — расширять число выражений сложно ибо их использование начинает подтормаживать распознавание и преобразование да и сами выражения не из простых и тот же esmre к ним слабо пригоден. А ведь пока что охвачено  60-80% всех вариантов написания дат, причём в основном российские и английские, не охватывая ни азиатских, ни арабских, не других европейских.

Отказ от регулярных выражений задачу не упростит, но усложнит значительно, так как потребует обеспечить перенос правил распознавания в исходный код или в аналог RE, что не лучше по производительности и развитию распознающего движка который как раз и построен на автоматическую генерацию рег. выражений и последующее их распознавание.

Именно по этой причине я и размышлял на страницах своего блога о задачах по индексированию выражений и вариантах простых решений. Здесь, к сожалению, без исследовательской работы не обойтись, а она занимает какое-то время причём даже при том что направление исследований понятно, самостоятельное финансирование их замедляет.

Поэтому сервис будет существовать как proof-of-concept доказательство работы алгоритма, но развитие его будет после преодоления имеющегося ограничения.

About This Author

  • http://blogs.gotdotnet.ru/personal/sergun Sergey Zwezdin

    С удовольствием буду ждать новостей по поводу этого проекта. Очень интересно!

Яндекс.Метрика