Контакты
Подписка
МЕНЮ
Контакты
Подписка

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных

В рубрику "Оборудование и технологии" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Контроль подмены символов в системах борьбы с утечками конфиденциальных данных

Вениамин Левцов, директор департамента развития LETA IT-company

СИСТЕМЫ предотвращения утечек конфиденциальной инфор­мации, или DLP-системы (от англ. Data Le­ak/Loss Prevention), пе­рестают быть экзотикой для специалистов по информационной безопасности. Практически уже не осталось в России крупных компаний, в которых не поднимался бы вопрос построения си­стемы противодействия утечкам данных. Разумеется, полностью завершенные системы с истори­ей обнаружения попыток уте­чек встречаются еще не столь уж часто, но их количество ра­стет. При этом большинство компаний пока находится на бо­лее ранней стадии: участвуют в запуске "пилотного" проекта или внимательно изучают воз­можности представленных на рынке DLP-систем, соизмеряя их со своими требованиями.

Между тем сами DLP-системы проходят стадию активного технического развития. Так, за последний год рынок стал свидетелем выхода существенно обновленных версий всех представленных в России лидирующих решений по борьбе с утечками. Системы постоянно обогащаются новым функционалом, благодаря запуску новых проектов вырабатыва­ются новые практики борьбы. В результате остается все меньше сценариев, которыми потенциально может воспользо­ваться злоумышленник, пытающийся незаметно вывести конфиденциальные данные за пределы информационной системы.

Одним из таких сценариев, зачастую обсуждаемым на по­казах DLP-решений, является возможность обмана системы при помощи обратимых замен отдельных символов. К счастью, на настоящий момент сформировалась практика борьбы с этим злом, о чем бу­дет рассказано ниже.

Но, прежде всего, обратимся к базовым возможностям DLP-систем и основным механизмам распознавания содержания, защищенного от переме­щения вовне.

Что умеют DLP-системы?

Этот класс решений, как пра­вило, называют продуктами по предотвращению "утечек" (leak) или "потерь" (loss) данных. Вме­сте с тем оба этих термина не являются вполне адекватными. Так, под "утечкой информации" принято  понимать  ситуацию, когда значимый факт утрачива­ет конфиденциальность. До­вольно сложно определить ос­новной функционал техниче­ского решения, используя тер­мин "утечка" в подобном его толковании. "Потеря данных" - тоже не самый подходящий термин. DLP-системы препят­ствуют бесконтрольному рас­пространению данных, при этом потери данных как тако­вой не происходит - доступ­ность информации не страдает.

С учетом вышесказанного, а также того, что основная функ­ция существующих DLP-систем заключается в распознавании попыток совершения запре­щенных действий с конфиденциальной информацией, будем придерживаться следующего определения DLP-систем: тех­нические решения, позволяю­щие автоматически отслежи­вать и предотвращать действия по перемещению данных за пределы информационной си­стемы. Как правило, защите подлежат данные, имеющие ограниченное хождение, а кон­троль производится за действи­ями лиц, авторизованных на доступ к этим данным.

Общий принцип работы DLP-систем предельно прост и стано­вится ясен при взгляде на приве­денную схему (см. рисунок).

Ключевой момент в работе системы - получение вердикта анализатора данных в ответ на запрос: является ли перемещаемая информация защища­емой от подобных действий? Остановимся подробнее на ме­ханизмах, используемых в DLP-системах для анализа данных.

Их несколько: метки, кон­троль содержания (словари, ключевые слова), контроль контекста, регулярные выражения и "цифровые отпечатки". Не хотелось бы в рамках на­стоящей статьи детально рас­сматривать каждый из перечи­сленных механизмов. Отметим лишь выявленные практикой последних лет реальные ситуа­ции, когда использование того или иного механизма приводит к наилучшему результату.

Так, метки файлов оказываются крайне эффективны для использования в "зрелых" системах с прозрачно организованным централизованным документооборотом, когда все защищаемые документы хранятся на сетевых ресурсах и их жизненный цикл четко определен.

Контроль содержания на практике оказался с трудом применим для защиты от утечек больших массивов документов. Дело в том, что словарная разметка каждого документа требует немалого времени и вовлечения квалифицированного специалиста. Причем это время возрастает едва ли не линейно по отношению к объему защищаемых документов.

Между тем именно контроль содержания на базе словарей и элементов морфологического анализа позволяет решать задачу автоматического оперативного контроля текущей служебной переписки. Представим ситуацию, когда необходимо отследить факт отправки (возможно, достаточно коротких) сообщений, содержащих актуальную на настоящий момент инсайдерскую информацию. Робот-фильтр с настройками в виде слов, определяющих содержание инсайдерского сообщения, поможет оперативно отследить утечку практически в он-лайне.

Контекстный контроль, при котором отслеживаются операции с файлами определенного формата, размера или локализации, хорошо подходит для защиты от перемещения нетипичных для обычного документооборота файлов, таких как CAD-файлы или закрытые паролем архивы. Кроме того, если к защищаемым файлам имеет доступ ограниченное число сотрудников, с успехом может применяться такой вид контекстного контроля, как отслеживание отправителей и получателей почтовых сообщений, содержащих конфиденциальную информацию.

Регулярные выражения уверенно доказывают свою незаменимость для обнаружения структурированных данных, таких как номера паспортов или кредитных карт. Ниже будет приведен пример успешного использования этого механизма и в других случаях.

И наконец, "цифровые отпечатки", базирующиеся на автоматическом создании экономных "хэш"- идентификаторов текстового содержания, по-прежнему лидируют как средство защиты массивных объемов документов и записей реляционных баз данных. Поскольку именно этот механизм стал де-факто основным ударным способом распознавания в DLP-системах, рассмотрим ситуацию, в которой даже такому совершенному оружию, как "цифровой отпечаток", необходим помощник.

Ахиллесова пята "цифровых отпечатков"

Алгоритмы, реализующие "цифровые отпечатки" в современных DLP-системах, порой вызывают восхищение при знакомстве с их возможностями. "Отпечатки" создаются автоматически, достаточно быстро, занимают относительно небольшой объем (порядка нескольких процентов от объема индексируемого документа) и позволяют при этом обнаруживать совсем незначительные фрагменты текста.

Но, как это нередко бывает, идеальное оружие, такое как "цифровые отпечатки" документов, оказывается совершенно беспомощным против довольно примитивного способа обмана. В данном случае речь идет об обратимой подмене отдельных символов.

Общая схема действий злоумышленника предельно проста и описывается в 4 шага:

Шаг 1. Определить один или несколько символов, которые НЕ встречаются в тексте. Например, для многих документов на русском языке такими символами могут быть буквы иноязычного алфавита или специальные символы вроде "@".

Шаг 2. Заменить во всем тексте хотя бы одну из букв на выбранный символ - обычная операция для большинства текстовых редакторов.

Шаг 3. Переместить модифицированный документ за пределы информационной системы с использованием обычной корпоративной почты или путем сохранения на USB-накопитель.

Шаг 4. Открыв документ за пределами компании, произвести обратные преобразования символов, приводящие текст в исходный вид.

Для злоумышленника совсем неважно, что модифицированный текст может потерять читабельность - она восстановится при обратной замене. А как отреагирует DLP-система на подобные действия? Увы, по опыту применения большого количества DLP-систем, использующих "цифровые отпечатки", можно утверждать, что обман не будет замечен. Это связано с тем, что примитивная подмена даже одного из символов "пронижет" весь текст, в результате получившийся "хэш"-идентификатор текста окажется существенно измененным.

Какие же общие подходы борьбы с примитивной подменой символов можно предложить? К счастью, таких подходов несколько: это лингвистические методы, методы статистического контроля и методы контроля по шаблонам.

Продолжение статьи читайте в следующем номере журнала или на сайте www.itsec.ru

Опубликовано: Журнал "Information Security/ Информационная безопасность" #5, 2009

Приобрести этот номер или подписаться

Статьи про теме