Регулярные выражения — материалы
Спасибо, всем кто накидал ссылок и материалов по теме, в данной записи я опишу собранное.
Вот некоторые публикации:
- Wu, Manber «A Fast Algorithm For Multi-Pattern Searching» — описание алгоритма и его реализации в виде Agrep с построением NFA на базе регулярных выражений.
- Публикации Gonzalo Navaro и nrgrep — развитие алгоритма построения NFA на базе регулярных выражений, плюс учёт минимальной размерности строк подпадающих под шаблон.
- Parsing Techniques by Grune and Jacobs — описание алгоритма Томпсона на который ссылаются авторы выше.
Самые интересные — это публикации Navaro. Читая его я подтвердился в своих зарождающихся предположениях насчёт учёта минимальной длины строк подпадающей под данное регулярное выражение.
Но что не менее важно так это то как такие решения создаются. Например, минимальный размер подходящий под выражение строки — это метрика, характеристика данного выражения. Наличие символов начала и конца выражения ^ и $ — это также метрики влияющие на то какие строки могут через данные выражения проходить.
Обеспечив предварительную классификацию выражений можно обеспечить разбиение их в коллекции с последующей фильтрацией по данным метрикам на основе которых могут строиться индексы.
Это очень похоже на то что я описывал с построением индексов для исправления опечаток, но случай с регулярными выражениями значительно сложнее.
Ещё одна интересная тема — это оценка предсказуемости поступающих данных и выработка метрик оценки этой предсказуемости.
В любом можно говорить что решение у этой задачи есть, пусть даже и не самое простое.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






