Техническое: Про исправление опечаток продолжение

Вдогонку к предыдущему тексту, исправляю упущение отсутствия цифр.

Так вот задачка с использованием расстояния Левенштейна решается очень быстро фильтрами и созданием специальных индексов объём которых может достигать и превосходить объём выборки слов.

Например мои короткие тесты на базе в 100 000 русских слов из словаря Зализняка и расстояния Левенштейна равное 2 показали что при использовании базовых фильтров — поиск происходит не более 15 секунд, а при использовании специализированных индексов не более 1 секунды.

Всё это без какой-либо технологической оптимизации вроде реализации на C/C++/Asm, оптимизации загрузки в оперативную память, использования графических процессоров, оптимизации SQL выборок (сейчас SQL запросы вообще не используются) и так далее.

Я чувствую зря назвал эту задачу интересной, в отличии от аналогичных сравнений слов с базами регулярных выражений она слишком проста.

About This Author

Яндекс.Метрика