Беседа с Игорем Котенко

Содержание

ЭЛЕКТРОННАЯ КНИГА

Игорь Котенко

Главный научный сотрудник СПб ФИЦ РАН, д.т.н., профессор

Обнаружение вторжений

на основе новых гибридных моделей и методов глубокого обучения

КОГДА СХОДЯТСЯ ЗВЕЗДЫ

Прогноз на 1 год

Системы обнаружения вторжений (СОВ), в том числе атак и вредоносного программного обеспечения, уже давно используются для выявления вредоносных паттернов в сетевом трафике или поведении системы.

Традиционные механизмы обнаружения на основе сигнатур, которые сравнивают паттерны атак и текущего поведения, а также принимают решения на основе сходства, показывающие высокую точность обнаружения, к сожалению, не способны эффективно обнаруживать атаки нулевого дня и атаки, основанные на мутации вредоносного программного обеспечения.

“

Новые модели машинного обучения в данных случаях могут выполнять задачу обнаружения вторжений более эффективно и преодолевать технические трудности, связанные с традиционными СОВ

В настоящее время для анализа сетевого трафика и построения классификаторов для обнаружения атак начинают широко использоваться методы глубокого обучения (DL, Deep Learning), а также различные ансамблевые и гибридные подходы. Такие модели DL, как сверточная нейронная сеть (CNN, Convolutional Neural Network), рекуррентная нейронная сеть (RNN, Recurrent Neural Network), длинная краткосрочная память (LSTM, Long Short-term Memories), уже используются для анализа сетевого трафика и доказали свою способность автоматически выявлять атаки.

Несмотря на многочисленные различия в сетевых средах, основными функциональными требованиями к СОВ являются высокая точность, низкий или, по крайней мере, приемлемый уровень ложных тревог, свое временное реагирование и соответствие выделенным вычислительным ресурсам. Такие термины, как «точность», «высокий уровень ложных тревог», «производительность», «ресурсоемкость», отображают необходимые свойства и показатели, используемые для оценки эффективности СОВ.

Очевидно, что исследователи и разработчики уделяют первоочередное внимание эффективности обнаружения вторжений и практичности СОВ, включая обширное тестирование и проверку. Однако существенные вопросы, нарушающие требования к показателям эффективности СОВ, требуют дальнейших исследований, решений и их практической реализации.

Попробуем дать прогноз по применению методов обнаружения атак, основанных на новых подходах к обнаружению, и в первую очередь — новых гибридных моделях и моделях глубокого обучения в текущих исследованиях, разработках и реализациях СОВ.

Большинство исследований и разработок сосредоточено на конкретных проблемах и аспектах их решения в определенных областях, например Интернете вещей, облачных платформах, граничных вычислениях

Основное внимание уделяется практическому применению, исследованиям и разработкам на базе использования для моделей обучения конкретных наборов данных. Не претендуя на полноту, представим некоторые важные проблемы обнаружения вторжений, связанные с новыми моделями обнаружения вторжений, и прогноз их разрешения.

Несбалансированная классификация

Учитывая, что большая часть сетевого поведения исходит от обычных пользователей, а вторжения обычно редки, СОВ на основе машинного обучения постоянно сталкиваются с проблемой несбалансированной классификации. Когда в наборе данных доля примеров определенного класса слишком мала, такие классы называются миноритарными (это, как правило, данные об атаках), а когда набор данных имеет большое количество представителей — мажоритарными классами.

Использование методов сэмплирования (data sampling) данных поможет решить эти проблемы, и прогнозируется активное внедрение данных моделей

Традиционные методы решения этой проблемы включают в себя передискретизацию (upsampling) классов меньшинства или субдискретизацию (downsampling) классов большинства для достижения более сбалансированного распределения либо случайным образом, либо на основе правил. Популярные методы, основанные на правилах, включают SMOTE (синтетический метод передискретизации меньшинства), TOMEK и гибридные подходы, сочетающие указанные модели. Прогнозируется широкое использование этих методов.

Между тем, существует острая необходимость в дальнейшем исследовании методов передискретизации на основе глубокого обучения для СОВ. Один из способов, который стоит исследовать, включает в себя использование облегченных классификаторов на основе глубокого обучения для эффективной идентификации и отбора репрезентативных выборок. Кроме того, применение генеративно-состязательных сетей (GAN, Generative Adversarial Network) для создания синтетических образцов будет активно использоваться для устранения дисбаланса в наборах данных СОВ.

Выбор признаков

Выбор (извлечение) признаков или уменьшение размерности признакового пространства направлены на устранение избыточности, коллинеарности и нерелевантности признаков (с сохранением только самых важных).

Этот процесс имеет решающее значение, поскольку использование полного набора данных для обучения модели требует дополнительного хранилища и времени, а избыточная информация может затруднить способность СОВ к обобщению. Более того, избыток нерелевантных признаков может уменьшить влияние важных, что приведет к ухудшению эффективности классификатора.

Основные принципы выбора признаков включают в себя удаление признаков с низкой дисперсией, пропущенными значениями и коллинеарностью. Прогнозируется реализация трех основных подходов к выбору признаков: фильтры для корреляции между признаками и целями; оболочки (wrappers) для создания различных подмножеств признаков; встроенные средства для выбора соответствующих признаков с использованием алгоритмов машинного обучения, таких как регрессия LASSO и анализ главных компонентов (PCA, Principal Component Analysis).

Высокий уровень ложных тревог

СОВ склонны вызывать ложные срабатывания по разным причинам. В системах безопасности на основе машинного обучения неадекватное обучение модели может привести к низкой точности и высокому уровню ложных тревог (ложноположительных результатов).

Однако основная проблема часто возникает после развертывания СОВ: в модели отсутствует контекстная информация во время анализа безопасности, или она не учитывает новое нормальное поведение, которое может проявляться в виде выбросов. Для решения данной проблемы прогнозируется использование двух подходов:

использование нескольких настроек параметров или алгоритмов оптимизации для выбора окончательной модели, основанной не только на высокой точности, но и на минимизации уровня ложноположительных результатов;

построение гибких и распределенных структур для облегчения устранения ложных тревог без необходимости переобучения всей модели.

Отсутствие размеченных данных

Контролируемые модели, особенно нейронные сети, требуют обширных маркированных наборов данных для обучения. Однако в реальных сетевых данных маркируется только ограниченная часть, особенно в случае редких атак или наличия конфиденциальных данных. Этот дефицит размеченных данных при использовании моделей глубокого обучения может привести к переобучению, а маркировка вручную является трудоемкой.

Некоторые модели могут обойти эту проблему, и решение этой задачи будет востребовано. Неконтролируемые методы, от традиционных моделей кластеризации до глубоких автоэнкодеров, работают с неразмеченными и неструктурированными необработанными данными. Когда необходима точность, как при обучении с учителем, жизнеспособными решениями являются трансферное обучение (transfer learning) и обучение с самоконтролем (self-supervised learning).

Трансферное обучение использует знания исходной модели, предварительно обученной на размеченных данных, для целевой модели, и наоборот, обучение с самоконтролем, известное своими возможностями в приложениях классификации изображений и распознавания движений, превосходно справляется с задачами классификации, не полагаясь на трудоемкие процедуры разметки.

Пропуск (бездействие в отношении) новых атак

Одна из основных проблем в обнаружении атак заключается в том, что СОВ, полагаясь на заранее определенные знания (известные атаки), часто не справляются с распознаванием новых, не определенных ранее атак. Более того, многошаговые атаки представляют собой скрытую угрозу, поскольку образцы отдельных шагов могут выглядеть нормальными и классифицироваться СОВ как «безопасное поведение».

“

Необходимость распознавать новые атаки требует исследования неявных связей между соответствующими оповещениями и характеристиками обычных профилей

Для выявления корреляции между параметрами предполагается использование таких подходов, как многомерный анализ, матрица коэффициентов корреляции Пирсона и модели глубокого обучения, способные автоматически анализировать корреляционные зависимости. Применение таких традиционных подходов, как скрытые Марковские модели, обученные с использованием последовательных данных, также позволит определять, может ли отдельное оповещение быть частью многошаговой атаки.

Прогноз на 3 года

Долгосрочные тенденции

Не претендуя на полноту, представим некоторые существенные долгосрочные тенденции, связанные с исследованием и реализацией новых моделей обнаружения вторжений. В последние годы наблюдается непрерывный рост количества исследований и разработок, посвященных СОВ, на основе методов глубокого обучения. Эта тенденция отражает решимость разработчиков бороться с растущим числом сетевых вторжений и внедрять в эту область новые технологии обработки данных.

Использование методов обработки естественного языка

Недавние исследования показывают, что применение передовых методов, таких как обработка естественного языка (NLP, Natural Language Processing), является важнейшей задачей для построения перспективных систем обнаружения атак.

Методы NLP могут быть полезны для СОВ как для выбора признаков, так и для обнаружения аномалий. Согласно исследованиям, посвященным NLP, несколько методов уже используются и могут увеличить эффективность СОВ при решении задачи извлечения контекстуальных, статистических и поведенческих признаков: методы извлечения признаков, такие как методы интеллектуального анализа текста в скользящем окне и «мешок слов» (bag-of-word), методы встраивания слов, методы векторизации признаков, такие как TF/TF-IDF, и методы оцифровки признаков в строковом формате, такие как, например, «горячее кодирование» (hot-encoding).

Помимо этих методов, из-за различных характеристик нормального поведения и вторжений также предполагается использование методов семантического кодирования и перекодирования для анализа строк сетевого трафика.

Модели глубокого обучения, созданные для NLP, такие как рекуррентные нейронные сети (RNN, Recurrent Neural Network), сети глубокого доверия (DBN, Deep Belief Network) и генеративно-состязательные сети (GAN, Generative Adversarial Network), также будут широко использоваться при обнаружении вторжений.

Сети с длинной краткосрочной памятью (LSTM, Long Short-term Memories) уже широко используются с многообещающими экспериментальными результатами, тогда как два других (DBN и GAN) используются редко, но, как предполагается, будут иметь применение. Как уже подчеркивалось, несбалансированные данные сетевого трафика приводят к обманчиво высокой точности, но низкому уровню обнаружения (detection rate), тогда как GAN может гарантировать эффективность классификатора независимо от распределения, смещенного по большинству.

Как видно из существующих работ, достойный результат классификации на несбалансированных данных может быть получен путем оптимизации функции потерь GAN. В этом случае GAN применяется для сбора большего количества экземпляров класса меньшинства посредством процедуры выборки и использования полностью связанной классификационной сети.

Применение в области Интернета вещей

Недавние исследования безопасности Интернета вещей (IoT) подчеркивают переход к комплексному проектированию систем, охватывающему не только разработку моделей, но также архитектурные фреймворки и системную интеграцию.

“

Все чаще вместо традиционных наборов сетевых данных используются специализированные наборы данных, что указывает на индивидуальный подход к анализу сетей IoT

Модели, варьирующиеся от статистических методов до продвинутых ансамблевых моделей и комбинаций моделей глубокого обучения, таких как объединение сверточной нейронной сети (CNN) с автоэнкодерами (AE, Autoencoder), демонстрируют улучшенную эффективность и, вне сомнения, будут применяться на практике.

Кроме того, разработанные прикладные фреймворки подчеркивают полезность системной интеграции для реальных приложений. При обнаружении вредоносного программного обеспечения и ботнетов классификаторы глубокого обучения имеют преимущество по точности, в то время как гибридные модели, построенные на основе комбинации сверточной нейронной сети (CNN), сети с долговременной краткосрочной памятью (LSTM) и метода анализа главных компонентов (PCA), превосходят их как по точности, так и по другим показателям эффективности, поэтому предполагается их широкое использование.

“

Безопасность автомобильных сетей в значительной степени будет опираться на методы глубокого обучения, при этом лишь немногие будут использовать классические модели

Модели глубокого обучения, такие как комбинация сверточной нейронной сети и сети с долговременной краткосрочной памятью (CNN-LSTM), а также неконтролируемые автоэнкодеры (AE), наряду с инновационными подходами трансферного обучения, уже сейчас показывают многообещающие результаты для обнаружения новых атак, и предполагается их использование в реализуемых продуктах.

Хотя методы, основанные на традиционном машинном обучении, будут встречаться реже в промышленных сетях, гибридные системы, например, на основе комбинации машин опорных векторов (SVM, Support Vector Machine), ближайших соседей (KNN, K Nearest Neighbours) и модели случайного леса (RF, Random Forest), уже продемонстрировали эффективность, а модели полуконтролируемого обучения предвещают появление современных приложений машинного обучения для своевременного прогнозирования вторжений в промышленные сети.

Применение в программно-определяемых сетях

В средах программно-определяемых сетей (SDN, Software-Defined Networking) СОВ сталкиваются с особенностями учета динамического и централизованного характера архитектур SDN.

В таких средах обычно наблюдаются сложные потоки трафика, что требует эффективных механизмов обнаружения и реагирования. Учитывая, что SDN работают по принципам переадресации на основе потоков, СОВ также должны эффективно проводить анализ трафика на основе потоков. Более того, динамические изменения топологии сети посредством программного управления (конфигурирования) и крупномасштабного развертывания SDN требуют адаптации и масштабируемости СОВ.

Предполагается использование ориентированных на SDN методов, основанных на моделях глубоких нейронных сетей (DNN, Deep Neural Network), сетей с долговременной краткосрочной памятью (LSTM) и случайного леса (RF), которые были исследованы и разработаны для достижения высокой точности обнаружения различных типов атак, включая DDoS-атаки и другие сетевые вторжения.

В этих системах будут использоваться такие методы, как увеличение (аугментация) данных, извлечение признаков и состязательное обучение, чтобы повысить надежность и эффективность обнаружения вторжений в средах SDN. Еще одной областью особого внимания является смягчение последствий состязательных атак. GAN и методы состязательного обучения будут использоваться для генерации искаженных образцов атак, которые могут обойти традиционные детекторы атак. Эта стратегия, делая СОВ менее чувствительными к злонамеренным атакам, повышает их устойчивость в средах SDN. Наконец, предполагаются исследования и реализация гибридных моделей и адаптивных структур.

Решение практических проблем

Хотя эффективные методы предлагаются постоянно, остаются проблемы с их практическим применением. Самая серьезная проблема возникает из-за ограничений на вычислительные ресурсы. Из-за высоких вычислительных требований СОВ на основе аномалий играют решающую роль в сетях IoT с ограниченными ресурсами.

Таким образом, выбор стратегии размещения СОВ становится важным как для мониторинга сетевого трафика, так и для маршрутизации трафика между физическими устройствами и Интернетом.

Другая проблема связана с расширением сетей для обнаружения как известных, так и неизвестных атак, включая DoS, атаки типа «человек посередине» и атаки на протоколы маршрутизации. Чтобы решить эту проблему, будут разработаны и реализованы СОВ для идентификации различных категорий атак, специфичных для приложений IoT, например таких, как здравоохранение и умные дома.

“

СОВ на основе глубокого обучения сталкиваются с несколькими серьезными проблемами реализации, которые влияют на их эффективность в реальных условиях

Масштабируемость становится критической проблемой, учитывая необходимость того, чтобы СОВ эффективно обрабатывали большие объемы сетевых данных и адаптировались к динамическому поведению сети без ущерба для эффективности системы.

Более того, значительные ограничения вычислительных ресурсов представляют собой серьезное препятствие, поскольку СОВ на основе глубокого обучения требуют развитых функциональных возможностей по анализу данных и выявлению угроз в реальном времени, что влечет за собой потенциальные затраты и технические сложности.

Кроме того, интеграция СОВ на основе глубокого обучения в существующие сети и инфраструктуры безопасности требует тщательного подхода для предотвращения сбоев в работе и обеспечения оптимальной функциональности СОВ в различных и непредвиденных сценариях эксплуатации. Решение этих проблем имеет важное значение для повышения практической значимости внедрения СОВ и предоставления исследователям и практикам ценной информации, которая повышает надежность и эффективность мер кибербезопасности.

Пробел в объяснимой безопасности

Хотя методы обнаружения вторжений на основе глубокого обучения, несомненно, достигли больших успехов, они создают множество проблем, в первую очередь связанных с интерпретируемостью моделей.

“

Модели глубокого обучения обычно состоят из множества слоев и параметров, что делает их по своей сути непрозрачными

Традиционные модели машинного обучения, такие как деревья решений и линейная регрессия, часто по своей сути поддаются интерпретации благодаря простым, линейным связям между функциями и прогнозами; важность каждой функции может быть непосредственно выведена из параметров модели. И наоборот, модели глубокого обучения не обладают этим преимуществом из-за сложных нелинейных взаимодействий, которые нелегко объяснить отдельными входными особенностями. Помимо сложности самой модели, многомерный характер данных о кибербезопасности и постоянно меняющийся ландшафт киберугроз создают для пользователей серьезные проблемы с визуализацией и интерпретацией.

Предполагается использование нескольких методов для повышения объяснимости моделей машинного обучения

Первый подход основывается на интерпретируемых традиционных моделях машинного обучения, дополненных визуализацией структуры модели и важности признаков. При использовании моделей глубокого обучения будут использоваться методы визуализации, такие как распределение весов в нейронных сетях, распространение слоев и максимизация активации, чтобы проиллюстрировать направленность модели во время принятия решений.

Второй подход основан на реализации постфактум-интерпретаций после обучения модели. Он базируется на использовании метода локальных интерпретируемых модельно-агностических объяснений (LIME), который обеспечивает генерацию объяснений отдельных предсказаний путем локальной аппроксимации модели черного ящика более простой моделью, и метода аддитивных объяснений Шепли (SHAP) для объяснения предсказаний с использованием теории игр.

К содержанию диджитал книги