В поисках коллекций регулярных выражений

В поиске баз регулярных выражений для экспериментов единственное более-менее значительное по объёмам — это правила Snort’а и правила Adblock Plus’а, причём последних хоть и мало, но они весьма любопытны областью их применения.

Как будет время, Snort’овые правила я, скорее всего, опробую со своим алгоритмом благо есть несколько миллионов ссылок которые можно против них прогнать, но и у Snort’а большая часть сложны правил — это правила контентные по выявлению ActiveX объектов, а правил по url’ам не так много и там везде используется оптимизационный механизм указания uricontent и content, вопрос только это указание является нахождением просто метки или же метки позиционной. Впрочем использование этих меток это и есть аналог или один из шагов в применении алгоритма Ахо-Карасика для фильтрации.

В любом случае это будет не ранее чем станет понятно как сделать парсер чтобы не пришлось вручную проставлять метрики.

Если кому-нибудь попадались другие большие коллекции регулярных выражений которые можно прогонять против URL’ов, к примеру — буду благодарен.

About This Author

Яндекс.Метрика