Алгоритмы. Регулярные выражений. Пример графика индекса
Как пример, промежуточных результатов, для построения RE-индексов под катом график и краткое описание индекса.
Пример на графике это результаты распределения выражений в 3-х уровневом иерархическом индексе с использованием 3 групп метрик — двух по 5 метрик и одной из 2-х метрик.
Суммарно в индексе 53384 записи, каждой из которых соответствует не менее одного регулярного выражения. Суммарный объём индекса без оптимизаций, примерно, в 10 раз превышает объём хранения регулярных выражений.
График 1. Распределение записей индекса по числу связанных с ними выражений
В данном случае удаётся добиться фильтрации выражений в разы для большинства случаев, но всё будет зависеть от характеристик входного потока, поэтому этот график необходимо рассматривать вместе с графиком статистики попадания в определённые значения индекса.
Всё с оговорками что это matching индекс. Универсальное решение кроется в управляемой иерархии индексов адаптируемой под коллекцию выражений. Где-то будут эффективнее метрики, а где-то алгоритм Ахо-Карасика. Например, в задачах по анализу поисковых логов или распознавания микроблоков в Скиуре — метрики подходят лучше, а вот в задаче классификации объектов по кускам текста (в том числе и тематической классификации) — алгоритм Ахо-Карасика подходит лучше, так как там используются зацепки по статическому тексту, а большая часть регулярных выражений для классификации используют статические блоки.
Сложнее всего в случае IDS. Там далеко не всегда есть возможность ограничить размер блока для сравнения и очень часто используют наиболее «неприятные операторы» — «*», «.» и «?». Впрочем и тут постепенно можно прийти к правильному.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






