Посты в категории: %d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b

Мир как поток и совокупность информации. О аспектах и особенностях кодирования информации и отдельных кодов

Формы создания и обмена информацией

В своих рассуждениях о Формах представления информации я не раз касался темы того что практически вся производимая людьми информация соответствует ограниченному числу шаблонов. Эти шаблоны проистекают из множества причин и факторов как то ограничения человеческого организма на восприятие информации, его обучение определённым подходам к усвоению информации,

Читать больше

Техническое. Опечаточное

На днях уже не один раз отвечая на вопросы по алгоритмам выявления и исправления опечаток, я в очередной раз задумался о этой теме.

Собственно в последний раз я остановился на том что расчет расстояния Левенштейна можно значительно ускорить созданием специальных индексов основанных на разнице в расстоянии Левенштейна между словами в

Читать больше

Алгоритмы. Регулярные выражения — Know how

Как резюме предыдущих рассуждений — ускорение matching для регулярных выражений в 8-10 раз достижимо и зависимость времени далека от O(mn) и сильно зависит от содержимого коллекции выражений и потока данных, впрочем, это я уже упоминал. Осталось только довести прототип до ума, но сам он уже работает именно с такой производительностью.

В

Читать больше

О (не)возможности тотального контроля в Интернете

Люди рассуждающие о системах Большого Брата, тотальном контроле и прочих связанных с этим понятий, зачастую не отдают себе отчёта в технической осуществимости этой задачи.

Проекты вроде глобального австралийского файрвола технически являются задачами коллосальной сложности и эта сложность формируется из двух факторов:

  • огромные объёмы прокачиваемых через файервол данных;
  • необходимость в обработке этих данных

    Читать больше

Алгоритмы. Другие подходы к опечаткам

Углубившись в тему уже довольно глубоко и обнаружив пробелы в собственных знаниях ряда областей мат. статистики я, наконец-то, перечитал материалы последних исследований по теме.

Под катом ряд сугубо технических соображений.

(далее…)

Читать больше

Техническое. Опечаточное. Пост-окончательное

Замена алгоритма сравнения на оптимизированную (тоже не до упора, но значительно) версию на C скорость перебора увеличилать более чем в 20 раз.

Суммарно, как я сейчас вижу, либо интегрировав оптимизированный алгоритм расчета расстояния Левенштейна в SQL сервер, либо создав свой бинарный индекс для быстрых выборок можно довести исправление до 0,05-0,1 секунды

Читать больше

Систематизация и классификация опечаток

Чтобы понять какое-либо сложное явление вначале надо понять хотя бы часть этого явления, детализировать и систематизировать причины.

Например, ранее я несколько раз обращался к механизмам обработки опечаток, включая алгоритм Левенштейна и вопросы алфавита в общем случае. Сейчас я затрону тему которую не хочу называть ни «нано», ни «семантикой» — пусть это

Читать больше

Яндекс.Метрика