Алгоритмы. Регулярные выражения — Know how
Как резюме предыдущих рассуждений — ускорение matching для регулярных выражений в 8-10 раз достижимо и зависимость времени далека от O(mn) и сильно зависит от содержимого коллекции выражений и потока данных, впрочем, это я уже упоминал. Осталось только довести прототип до ума, но сам он уже работает именно с такой производительностью.
В любом случае производительность превышает esmre и hachoir значительно. Точно оценить пока сложно, так как те работают только с упрощённым рег. выражениями, а мой алгоритм с любыми, но у него нет автоматизированного парсера для построения метрик. Пока нет.
Также пока ещё этот подход не универсален — так как универсальный механизм должен включать возможность построения разного рода индексов, оценки worst case, сбор статистики и так далее. Займусь ли я этим — незнаю, ибо задача хотя и интересная, но уже вне моего основного интереса по развитию Скиура
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






