Контроль подмены символов в системах борьбы с утечками конфиденциальных данных

В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных

Вениамин Левцов, директор департамента развития LETA IT-company

СИСТЕМЫ предотвращения утечек конфиденциальной информации, или DLP-системы (от англ. Data Leak/Loss Prevention), перестают быть экзотикой для специалистов по информационной безопасности. Практически уже не осталось в России крупных компаний, в которых не поднимался бы вопрос построения системы противодействия утечкам данных. Разумеется, полностью завершенные системы с историей обнаружения попыток утечек встречаются еще не столь уж часто, но их количество растет. При этом большинство компаний пока находится на более ранней стадии: участвуют в запуске "пилотного" проекта или внимательно изучают возможности представленных на рынке DLP-систем, соизмеряя их со своими требованиями.

Между тем сами DLP-системы проходят стадию активного технического развития. Так, за последний год рынок стал свидетелем выхода существенно обновленных версий всех представленных в России лидирующих решений по борьбе с утечками. Системы постоянно обогащаются новым функционалом, благодаря запуску новых проектов вырабатываются новые практики борьбы. В результате остается все меньше сценариев, которыми потенциально может воспользоваться злоумышленник, пытающийся незаметно вывести конфиденциальные данные за пределы информационной системы.

Одним из таких сценариев, зачастую обсуждаемым на показах DLP-решений, является возможность обмана системы при помощи обратимых замен отдельных символов. К счастью, на настоящий момент сформировалась практика борьбы с этим злом, о чем будет рассказано ниже.

Но, прежде всего, обратимся к базовым возможностям DLP-систем и основным механизмам распознавания содержания, защищенного от перемещения вовне.

Что умеют DLP-системы?

Этот класс решений, как правило, называют продуктами по предотвращению "утечек" (leak) или "потерь" (loss) данных. Вместе с тем оба этих термина не являются вполне адекватными. Так, под "утечкой информации" принято понимать ситуацию, когда значимый факт утрачивает конфиденциальность. Довольно сложно определить основной функционал технического решения, используя термин "утечка" в подобном его толковании. "Потеря данных" - тоже не самый подходящий термин. DLP-системы препятствуют бесконтрольному распространению данных, при этом потери данных как таковой не происходит - доступность информации не страдает.

С учетом вышесказанного, а также того, что основная функция существующих DLP-систем заключается в распознавании попыток совершения запрещенных действий с конфиденциальной информацией, будем придерживаться следующего определения DLP-систем: технические решения, позволяющие автоматически отслеживать и предотвращать действия по перемещению данных за пределы информационной системы. Как правило, защите подлежат данные, имеющие ограниченное хождение, а контроль производится за действиями лиц, авторизованных на доступ к этим данным.

Общий принцип работы DLP-систем предельно прост и становится ясен при взгляде на приведенную схему (см. рисунок).

Ключевой момент в работе системы - получение вердикта анализатора данных в ответ на запрос: является ли перемещаемая информация защищаемой от подобных действий? Остановимся подробнее на механизмах, используемых в DLP-системах для анализа данных.

Их несколько: метки, контроль содержания (словари, ключевые слова), контроль контекста, регулярные выражения и "цифровые отпечатки". Не хотелось бы в рамках настоящей статьи детально рассматривать каждый из перечисленных механизмов. Отметим лишь выявленные практикой последних лет реальные ситуации, когда использование того или иного механизма приводит к наилучшему результату.

Так, метки файлов оказываются крайне эффективны для использования в "зрелых" системах с прозрачно организованным централизованным документооборотом, когда все защищаемые документы хранятся на сетевых ресурсах и их жизненный цикл четко определен.

Контроль содержания на практике оказался с трудом применим для защиты от утечек больших массивов документов. Дело в том, что словарная разметка каждого документа требует немалого времени и вовлечения квалифицированного специалиста. Причем это время возрастает едва ли не линейно по отношению к объему защищаемых документов.

Между тем именно контроль содержания на базе словарей и элементов морфологического анализа позволяет решать задачу автоматического оперативного контроля текущей служебной переписки. Представим ситуацию, когда необходимо отследить факт отправки (возможно, достаточно коротких) сообщений, содержащих актуальную на настоящий момент инсайдерскую информацию. Робот-фильтр с настройками в виде слов, определяющих содержание инсайдерского сообщения, поможет оперативно отследить утечку практически в он-лайне.

Контекстный контроль, при котором отслеживаются операции с файлами определенного формата, размера или локализации, хорошо подходит для защиты от перемещения нетипичных для обычного документооборота файлов, таких как CAD-файлы или закрытые паролем архивы. Кроме того, если к защищаемым файлам имеет доступ ограниченное число сотрудников, с успехом может применяться такой вид контекстного контроля, как отслеживание отправителей и получателей почтовых сообщений, содержащих конфиденциальную информацию.

Регулярные выражения уверенно доказывают свою незаменимость для обнаружения структурированных данных, таких как номера паспортов или кредитных карт. Ниже будет приведен пример успешного использования этого механизма и в других случаях.

И наконец, "цифровые отпечатки", базирующиеся на автоматическом создании экономных "хэш"- идентификаторов текстового содержания, по-прежнему лидируют как средство защиты массивных объемов документов и записей реляционных баз данных. Поскольку именно этот механизм стал де-факто основным ударным способом распознавания в DLP-системах, рассмотрим ситуацию, в которой даже такому совершенному оружию, как "цифровой отпечаток", необходим помощник.

Ахиллесова пята "цифровых отпечатков"

Алгоритмы, реализующие "цифровые отпечатки" в современных DLP-системах, порой вызывают восхищение при знакомстве с их возможностями. "Отпечатки" создаются автоматически, достаточно быстро, занимают относительно небольшой объем (порядка нескольких процентов от объема индексируемого документа) и позволяют при этом обнаруживать совсем незначительные фрагменты текста.

Но, как это нередко бывает, идеальное оружие, такое как "цифровые отпечатки" документов, оказывается совершенно беспомощным против довольно примитивного способа обмана. В данном случае речь идет об обратимой подмене отдельных символов.

Общая схема действий злоумышленника предельно проста и описывается в 4 шага:

Шаг 1. Определить один или несколько символов, которые НЕ встречаются в тексте. Например, для многих документов на русском языке такими символами могут быть буквы иноязычного алфавита или специальные символы вроде "@".

Шаг 2. Заменить во всем тексте хотя бы одну из букв на выбранный символ - обычная операция для большинства текстовых редакторов.

Шаг 3. Переместить модифицированный документ за пределы информационной системы с использованием обычной корпоративной почты или путем сохранения на USB-накопитель.

Шаг 4. Открыв документ за пределами компании, произвести обратные преобразования символов, приводящие текст в исходный вид.

Для злоумышленника совсем неважно, что модифицированный текст может потерять читабельность - она восстановится при обратной замене. А как отреагирует DLP-система на подобные действия? Увы, по опыту применения большого количества DLP-систем, использующих "цифровые отпечатки", можно утверждать, что обман не будет замечен. Это связано с тем, что примитивная подмена даже одного из символов "пронижет" весь текст, в результате получившийся "хэш"-идентификатор текста окажется существенно измененным.

Какие же общие подходы борьбы с примитивной подменой символов можно предложить? К счастью, таких подходов несколько: это лингвистические методы, методы статистического контроля и методы контроля по шаблонам.

Продолжение статьи читайте в следующем номере журнала или на сайте www.itsec.ru

Опубликовано: Журнал "Information Security/ Информационная безопасность" #5, 2009

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных