Контроль подмены символов в системах борьбы с утечками конфиденциальных данных. Часть 2

В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных. Часть 2

Вениамин Левцов
Директор департамента развития LETA IT-company

В первой части статьи мы говорили о базовых возможностях DLP-систем и основных механизмах распознавания содержания, защищенного от перемещения вовне. В данной части разговор пойдет об общих подходах борьбы с примитивной подменой символов. Таких подходов несколько: это лингвистические методы, методы статистического контроля и методы контроля по шаблонам.

Лингвистические методы

Очевидно, что замена части букв на символы, не относящиеся к алфавиту языка документа, приведет к появлению лексем, не являющихся словами естественного языка. Для обнаружения таких лексем представляется резонным использовать словарь естественного языка.

Практическая реализация этой идеи - контентная фильтрация, которая проверяет каждое слово текста или случайную их выборку на вхождение в словарь. Если процентное отношение слов, обнаруженных и необнаруженных в словаре, превысит определенный порог, документ признается подозрительным и выделяется в общем потоке для дальнейшего исследования. С неизбежностью встает вопрос: как отслеживать словоформы? Для этой цели необходимо встроить в систему мощный "морфологический движок", который будет отвечать за нормализацию получаемых слов.

Между тем при промышленной реализации этого простого и интуитивно понятного механизма возникает довольно много вопросов. Так, если подключать минимальные словари, слишком многие слова могут признаваться подозрительными, а подключение расширенных словарей увеличит нагрузку на систему при поиске по словарям.

Определение порога срабатывания требует дополнительного исследования. В тексте может встречаться немало лексем, не относящихся к естественному языку, например: адреса электронной почты, отдельные термины на иностранных языках и т.д. Заранее определить процент их содержания непросто.

Не стоит забывать о рисках ложных срабатываний "морфологического движка" и о том, что качество встроенных словарей также может оказаться не самым высоким.

Поиск ответов на эти вопросы - непростое занятие. И сложно сказать, насколько оно оправдано. Особенно если вспомнить о цели - поиске надежной защиты от подмены символов, лишь одной из многочисленных проблем, с которой сталкиваются производители DLP-систем.

Заслуживает отдельного упоминания пример использования лингвистического подхода для поиска замены букв с сохранением читабельности текста.

Методы статистического контроля

Примитивная подмена букв окажется эффективной, только если будут затронуты буквы, достаточно часто встречающиеся по тексту, иначе цифровой отпечаток может не измениться достаточно сильно. При этом известно, что для всякого естественного языка существует некоторое частотное распределение, с которым в тексте встречаются отдельные буквы алфавита.

Достаточно вспомнить Артура Конан Дойля с его "пляшущими человечками", которые использовались для шифрования текста на английском языке. При дешифровке Шерлок Холмс опирался в том числе и на разницу в частоте встречаемости букв алфавита.

Таким образом, если анализ текста выявляет распределение частоты появления отдельных букв, существенно отличающееся от ожидаемого, - у нас повод для подозрений. Отметим, что примитивная обратимая замена символа предполагает снижение частоты его появления в тексте до нуля, что лишь упрощает задачу обнаружения подмен на практике.

Методы статистического контроля позволяют отследить и такой нехитрый, но также позволяющий обходить "цифровые отпечатки" трюк, как удвоение букв. Подобное преобразование (например, заменить все буквы "л" на "лл") также позволит обойти "цифровые отпечатки", но анализ частотного распределения букв легко выявит неожиданное увеличение количества одной или нескольких удвоенных букв.

В ряд DLP-систем встроены правила распознавания случаев манипуляций с текстом, логика работы которых основана на использовании статистического анализа. Увы, обычно эти правила являются закрытыми для каких-либо настроек или модификаций, и нам остается лишь догадываться о том, какую именно логику вложили в них разработчики. Кроме того, далеко не все DLP-системы обогащены набором подобных встроенных правил, а настройка существующих под нужды конкретного заказчика не представляется простой, а иногда и возможной.

Естественным ограничением этого подхода, как и любого метода статистического контроля, является то, что документ должен быть достаточно объемным.

Метод контроля по шаблонам

Третий подход, который представляется наиболее перспективным, использует поиск нетипичных сочетаний символов, характерных для случаев примитивной манипуляции с текстом. Поиск осуществляется при помощи определения шаблонов подмен. На практике проще всего отслеживать нетипичные для естественного языка пары символов, относящиеся к разным алфавитам.

Например, злоумышленник заменил в русском тексте, содержащем слово "банкротство", кириллический символ "а" на латинский "z". Что дадут нам представленные выше подходы в данном случае?

Рассмотренный выше лингвистический метод подскажет, что слово "бzнкротство" отсутствует в словаре русского языка. Статистический метод определит, что в тексте снижена (до нуля) частота символа "а". А метод шаблонов сообщит об обнаружении сочетаний символов "бz" и "zн", что однозначно подтвердит факт произведенных манипуляций с текстом.

Впервые автор столкнулся с идеей использования шаблонов для обнаружения манипуляции с текстом при обсуждении требований одного из заказчиков к системе противодействия утечкам конфиденциальной информации. Заказчик считал риск использования злоумышленниками такого механизма, как обратимые подмены символов, вполне вероятным и был готов рассматривать только те DLP-системы, которые обеспечивали надежное решение этой проблемы. В процессе поиска возможных вариантов рабочая группа предложила использовать для реализации метода шаблонов инструментарий регулярных выражений.

Действительно, при помощи регулярного выражения можно определить шаблон или "маску" сочетаний символов анализируемого текста. Простота создания, легкость модифицирования, надежность работы регулярных выражений не вызывает сомнений. Проверка на соответствие регулярным выражениям реализована в подавляющем большинстве DLP-систем, причем, как правило, различные решения поддерживают схожий синтаксис регулярных выражений и позволяют строить на их основе правила контроля.

В качестве примера можно привести несколько простых регулярных выражений в стандарте POSIX, призванных решать данную задачу:

([а-яА-Я][a-zA-Z]) - отслеживание пар, в которых кириллический символ предшествует латинскому;
([a-zA-Z][а-яА-Я]) - отслеживание пар, в которых кириллический символ следует за латинским;
([а-яА-Я][&#@^*])|([&#@^*][а-яА-Я]) - отслеживание пар, в которых кириллический символ заменен одним из указанных спецсимволов.

Кроме того, часть DLP-систем поддерживает такой механизм, как порог срабатывания правила. Таким образом, для избавления от ложных срабатываний в правиле контроля можно задать порог, скажем, в 10 обнаружений. Впрочем, примитивная замена, затрагивающая весь текст, вызывает обычно появление существенно большего числа подозрительных пар символов.

Немаловажно, что метод шаблонов:

не требует лицензирования словарей естественного языка или "морфологических движков";
не требует изучения частотного распределения букв алфавита в тексте;
позволяет провести настройку на любое множество символов;
для большинства продуктов позволяет гибко настраивать количественные показатели обнаружения подозрительных комбинаций символов;
обеспечивает прозрачную логику работы правил контроля.

К тонким моментам использования метода стоит отнести контроль символов, соответствующих знакам препинания. Если в каком-то конкретном тексте отсутствуют, скажем, кавычки или вопросительный знак, злоумышленник может попытаться использовать их для подмены букв. При этом включение в приведенное выше правило этих символов может существенно повысить уровень ложных срабатываний при проверке других документов, содержащих кавычки или знак вопроса.

Заключение

В заключение хотелось бы еще раз отметить, что все приведенные механизмы демонстрируют эффективность лишь в качестве дополнительных, а "цифровые отпечатки" - в качестве основного. В результате их совместного применения появляется действенный механизм борьбы с таким сценарием несанкционированной утечки информации, как манипуляция с текстом.

Разумеется, остается еще немало сценариев, позволяющих либо существенно снизить эффективность систем противодействия утечкам, либо вообще обойти их. Но можно не сомневаться, что производители DLP-систем и компании, вовлеченные в их внедрение, продолжат борьбу с различными способами утечек данных, постепенно блокируя их один за другим.

Примеры успешной борьбы появляются постоянно. Еще недавно непроходимой проблемой казался контроль защищенных соединений, использующих https, а сейчас на рынке представлено уже не одно решение, которое с успехом решает эту проблему. Когда-то фантастикой казался контроль при помощи "цифровых отпечатков" информации, локально сохраняемой на внешний носитель, - сегодня решение уже доступно на рынке. Примеры усовершенствований можно продолжать и продолжать.

Все это говорит о том, что область защиты конфиденциальной информации от перемещения вовне продолжает активно развиваться. Существуют все основания надеяться, что наряду с ростом числа успешных проектов с использованием DLP-систем будет развиваться и сообщество компаний, занимающихся обеспечением информационной безопасности, окрепнет обмен опытом и лучшими практиками в этой области.

Опубликовано: Журнал "Information Security/ Информационная безопасность" #6, 2009

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных. Часть 2