Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до 171, тем не менее без их реорганизации и построения индекса или фильтрующего алгоритма — расширять число выражений сложно ибо их использование начинает подтормаживать распознавание и преобразование да и сами выражения не из простых и тот же esmre к ним слабо пригоден. А ведь пока что охвачено 60-80% всех вариантов написания дат, причём в основном российские и английские, не охватывая ни азиатских, ни арабских, не других европейских.
Отказ от регулярных выражений задачу не упростит, но усложнит значительно, так как потребует обеспечить перенос правил распознавания в исходный код или в аналог RE, что не лучше по производительности и развитию распознающего движка который как раз и построен на автоматическую генерацию рег. выражений и последующее их распознавание.
Именно по этой причине я и размышлял на страницах своего блога о задачах по индексированию выражений и вариантах простых решений. Здесь, к сожалению, без исследовательской работы не обойтись, а она занимает какое-то время причём даже при том что направление исследований понятно, самостоятельное финансирование их замедляет.
Поэтому сервис будет существовать как proof-of-concept доказательство работы алгоритма, но развитие его будет после преодоления имеющегося ограничения.
Поделиться в соц. сетях
-
http://blogs.gotdotnet.ru/personal/sergun Sergey Zwezdin
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






