Ещё о регулярных выражениях и их анализе
Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач.
Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования необходимо забыть про DFA и NFA и не вспоминать столь долго сколь это только возможно.
Для анализа должно быть достаточно развёртывания регулярных выражений как дерева в соответствии с их написанием и последовательное построение «шаблонов шаблонов», которые, как окажется, будут состоять из вполне измеримых «микроблоков правил». Причём каждый из этих микроблоков будет обладать собственным набором метрик. Итоговое дерево выражения будет состоять из ветвей непосредственно правил подвергнутых группировке и кластеризации и рассчитанных ветвей метрик для каждого. При этом несмотря на то что хранение этих метрик может оказаться накладным процессом, тем не менее эти объёмы будут несравнимо меньше чем объёмы «распакованных» NFA.
Конечно всё это далее должно подвергаться проверке. Потребуется масса экспериментов дабы подобрать правильные метрики. Потребуется анализ входящего потока данных.
При этом важно не забывать особенность отличия работы алгоритмов проверки по массиву регулярных выражений, от алгоритмов поиска регулярными выражениями. Во втором случае обеспечить фильтрацию куда проще поскольку нет ограничений на построение индексов, а вот в первом случае это не получится и ресурсоёмкость задачи другая.
На самом деле жаль что её так никто и не решил. В моём понимании моделирование алгоритмов анализа дерева HTML и прочих полуструктурированных данных куда увлекательнее чем моделирование алгоритмов анализа деревьев RE. Но пока получается что эта нерешённая задача, тормозит решение остальных.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






