О (не)возможности тотального контроля в Интернете

Люди рассуждающие о системах Большого Брата, тотальном контроле и прочих связанных с этим понятий, зачастую не отдают себе отчёта в технической осуществимости этой задачи.

Проекты вроде глобального австралийского файрвола технически являются задачами коллосальной сложности и эта сложность формируется из двух факторов:

  • огромные объёмы прокачиваемых через файервол данных;
  • необходимость в обработке этих данных в реальном времени.

К примеру, мы не знаем подробностей того как работает глобальный фаервол Китая, как будет устроен австралийский и другие подобные системы, но фильтрация (и мониторинг) в реальном времени — это задачи которые решаются и во многих коммерческих системах, в IDS, в магистральных маршрутизаторах и в прокси серверах. Причём во всех этих решениях используются те или иные формы описания правил, чаще всего в виде регулярных выражений или собственного упрощённого синтаксиса и все они решают одну и ту же задачу — проверку на соответствие отдельных текстов и/или совокупности признаков в пакетах, почтовых сообщениях, HTTP запросах и тому подобному на соответствие этим правилам.

Нетрудно догадаться что чем больше централизации подобной системы, чем более правил растёт со временем, чем больше нарастает трафик и чем правила становятся сложнее — тем медленнее будет происходить фильтрация и мониторинг обращения к тем или иным ресурсам, тем сложнее обеспечить работу системы в реальном времени. Несколько тысяч регулярных выражений применяемых против террабайтов информации трафика в реальном времени — уже создают коллосальную нагрузку. А если эти правила надо активно пополнять, если в некоторых случаях недостаточно чтобы найти первое сработавшее и надо найти все справила под которые подпадает данный пакет/текст/участок потока данных, то нагрузка становится лишь больше.

Конечно, есть работы в которых затрагиваются решения этой задачи. Часть из них я приводил в своих рассуждениях о индексировании регулярных выражений, часть доступна по ссылкам ниже:

Плюс множество других не все из которых есть в открытом доступе, но универсального решения и легко маштабируемого решения нет и по сей день.  По большей части теория, предположения, эксперименты и немногие продукты заявляющие о сверхбыстром анализе пакетов.

И это, если не главная, то одно из весьма важных причин почему «тотальный контроль за Интернетом» что у нас в стране, что в большинстве других — это некая слабодостижимая иллюзия. Как у тех кто хочет это организовать вроде наших депутатов,  так и у тех кто считает что это уже есть или «уже вот-вот» появится. Проверка огромных потоков данных через цепочки правил, равно как и последующая организация элементов глобального файрвола это очень и очень нетривиальная задача, скорее всего неразрешимая ближайшие лет 10.

Правда, меня лично она практически не интересует — мне куда любопытнее иметь возможность быстрого сопоставления участков текста шаблонам для систематизации и аннотирования данных, чем применение к другим задачам. Тем не менее нередкие обсуждения того что Большой брат или уже есть или скоро появится — у меня всегда вызывают недоумение.

About This Author

  • http://blog.keysword.ru Сандер

    Задачи, возникающие при обесечении нац.безопасности все-таки отличаются от своих «корпоративных собратьев». При осуществлении контроля за своей внутренней информацией важно соблюсти прежде всего тайну и сохранность и в этом смысле режим коммерческой тайны какого-нибудь Газпрома вполне корректно сравнивать с защитой к примеру планов Пентагона. А вот когда речь идет о слежке тут вернее будет обратиться к опыту поисковиков и «глубокой индексации» с той только разницей, что в сферу поиска большого брата входит весь цифровой траффик и связи между его источниками. И если режим реального времени в принципе неосуществим, то сформулировать правила для фильтрации и сохранения данных для последующего анализа вполне реально. А если добавить к этому предположение о том, что спецслужбы используют мощности и базы данных тех самых поисковиков…

Яндекс.Метрика