руководитель отдела информационной безопасности, ООО "Дубликат", РФ, г. Красноярск
РОЛЬ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ИДЕНТИФИКАЦИИ КИБЕРУГРОЗ НА ОСНОВЕ ТЕКСТОВЫХ ДАННЫХ
АННОТАЦИЯ
В данной статье рассматривается роль методов машинного обучения в идентификации киберугроз на основе анализа текстовых данных. Современная цифровизация сопровождается экспоненциальным ростом неструктурированных текстовых данных, таких как электронная переписка, сообщения в социальных сетях, форумы и специализированные отчёты о киберинцидентах, что обуславливает необходимость разработки эффективных систем анализа для обеспечения информационной безопасности. Статья включает обзор теоретических основ применения как традиционных алгоритмов (например, наивного байеса, метода опорных векторов (SVM), так и современных моделей глубокого обучения (сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN), трансформеры) для обработки естественного языка.
Описываются этапы подготовки текстовых данных, включая очистку, нормализацию и векторизацию, а также приводятся практические примеры использования разработанных методов для обнаружения фишинговых сообщений, спама и иных аномалий в текстовом потоке. Рассмотрены основные вызовы интеграции систем машинного обучения (ML) в архитектуру кибербезопасности, включая проблемы качества данных, адаптацию к новым угрозам, вопросы интерпретируемости и соблюдения нормативных требований. Рассмотренная интегрированная методология, сочетающая преимущества традиционных и современных подходов, позволяет повысить точность и оперативность обнаружения угроз, открывая перспективы для дальнейших исследований в данной области. Сведения, отраженные в рамках работы, будут интересны исследователям и практикам в области кибербезопасности, аналитикам данных и разработчикам алгоритмов машинного обучения, стремящимся усовершенствовать методы идентификации киберугроз посредством продвинутого анализа текстовой информации. Кроме того, материал представляет ценность для академиков, занимающихся междисциплинарными исследованиями на стыке лингвистики, статистического моделирования и искусственного интеллекта, способствуя разработке интегративных подходов к обнаружению и нейтрализации киберугроз.
ABSTRACT
This article examines the role of machine learning methods in identifying cyber threats based on text data analysis. Modern digitalization is accompanied by an exponential growth of unstructured textual data, such as electronic correspondence, social media posts, forums and specialized reports on cyber incidents, which necessitates the development of effective analysis systems to ensure information security. The article includes an overview of the theoretical foundations of the application of both traditional algorithms (for example, naive Bayes, support vector machine SVM) and modern deep learning models (convolutional neural network (CNN), recurrent neural network (RNN), transformers) for natural language processing. The stages of text data preparation, including cleaning, normalization, and vectorization, are described, as well as practical examples of using the developed methods to detect phishing messages, spam, and other anomalies in the text stream. The main challenges of integrating machine learning systems (ML) into the cybersecurity architecture are considered, including data quality issues, adaptation to new threats, issues of interpretability and compliance with regulatory requirements. The considered integrated methodology, combining the advantages of traditional and modern approaches, makes it possible to increase the accuracy and efficiency of threat detection, opening up prospects for further research in this area. The information reflected in the work will be of interest to researchers and practitioners in the field of cybersecurity, data analysts and developers of machine learning algorithms seeking to improve methods for identifying cyber threats through advanced text information analysis. In addition, the material is valuable for academics engaged in interdisciplinary research at the intersection of linguistics, statistical modeling and artificial intelligence, contributing to the development of integrative approaches to detecting and neutralizing cyber threats.
Ключевые слова: машинное обучение, кибербезопасность, идентификация киберугроз, анализ текстовых данных, обработка естественного языка, глубокое обучение
Keywords: machine learning, cybersecurity, cyber threat identification, text data analysis, natural language processing, deep learning
Введение
В условиях цифровизации современного общества объем текстовых данных, получаемых в результате электронной переписки, публикаций в социальных сетях, логов систем и специализированных отчетов о киберинцидентах, постоянно растет. Согласно статистическим данным, к 2025 году объём данных должен составить около 175 зеттабайт. Google, Microsoft, Amazon и Facebook хранят 1200 петабайт информации. Другими словами, почти 60% всех людей на планете вовлечены в цифровые технологии. Уровень проникновения интернета в Северной Америке и Европе составлял около 90%. Но самая большая группа пользователей Интернета была из Азии, на её долю приходилось чуть более 50% общего трафика.
Это приводит к тому, что обеспечение информационной безопасности требует новых, эффективных методов анализа и обработки информации, способных оперативно выявлять потенциальные угрозы. Применение методов машинного обучения (ML) в идентификации киберугроз на основе текстовых данных является одной из перспективных областей исследований, поскольку позволяет автоматизировать процесс обнаружения аномалий и снизить вероятность человеческой ошибки [1].
Целью работы является определение роли методов машинного обучения в обнаружении киберугроз, за счет использования текстовых данных.
Научная новизна заключается в объединении современных алгоритмов машинного обучения с современными техниками обработки естественного языка для анализа больших объемов неструктурированных текстовых данных в реальном времени.
1. Материалы и методы
В науке наблюдается активное внедрение методов машинного обучения в системы кибербезопасности, что обусловлено необходимостью оперативного выявления и предотвращения киберугроз. Обзор литературы показывает, что исследователи подходят к проблеме с разных сторон, что позволяет выделить несколько тематических направлений. Так, в первой группе работ акцент сделан на традиционных алгоритмах прогнозирования и обнаружения угроз с использованием классических методов анализа больших данных. В частности, Лощилин А. В., Яриков В. Г., Никишова А. В. [1] предлагают модели, основанные на статистическом анализе и методах регрессионного прогнозирования, позволяющих выявлять потенциальные кибератаки на ранних этапах. Обширный обзор, представленный Ozkan-Okay M. et al. [2], демонстрирует эффективность как классических, так и современных алгоритмов машинного обучения, подчёркивая универсальность применяемых методик в условиях постоянно изменяющейся киберсреды. Теоретические и методологические аспекты данной проблематики изложены в монографическом труде Петрова А. А. [3], где рассматриваются возможности интеграции методов искусственного интеллекта в комплексные системы обнаружения угроз. Аналогичные прикладные исследования реализованы Романовым Д. В. Карповым А. С. [4], а также Черновым А. А. и Горбуновым B. В. [5], где особое внимание уделяется методам классификации и кластеризации для анализа информационных систем и сетей. В работе Штейнберг Б. Я., Штейнберг О. Б. [6] дополнительно подчёркивается роль гибридных моделей, сочетающих традиционные алгоритмы и элементы глубокого обучения, что позволяет повысить чувствительность систем к выявлению аномалий.
Вторая группа исследований посвящена применению методов глубокого обучения с подкреплением для разработки динамических политик предотвращения киберугроз. Щербаков А. Е. [7] проводят комплексный анализ использования алгоритмов с подкреплением в среде интернета вещей, где адаптивные модели способствуют быстрому реагированию на изменяющиеся условия угроз. Подобный подход реализован в исследовании Rawat D. B. [8], где глубокое обучение с подкреплением применяется для обнаружения аномальных потоков в промышленных системах управления. Wang W., Guo J., Wang Z., Wang H., Cheng J., Wang C., Yuan M., Kurths J., Luo X., Gao Y. [9] предлагают методику оптимального останова, которая позволяет формировать политики предотвращения вторжений, демонстрируя потенциал динамических моделей в условиях высокой изменчивости атакующих векторов.
Также в рамках работы стоит уделить внимание и источнику [10], размещенному на сайте seedscientific, информация с которого использовалась для того, чтобы продемонстрировать изменения в количестве текстовых данных.
Таким образом, литература демонстрирует разнообразие подходов к использованию методов машинного обучения в идентификации киберугроз. С одной стороны, традиционные методы и гибридные модели обеспечивают высокий уровень обнаружения угроз за счет интеграции статистических и алгоритмических решений, а с другой – подходы, основанные на глубоких методах обучения с подкреплением, показывают перспективы адаптивного реагирования в динамичных условиях. Противоречия в литературе проявляются в оценке эффективности представленных методов: одни исследования акцентируют внимание на высокой точности классических алгоритмов, в то время как другие указывают на преимущество динамических моделей, способных быстро адаптироваться к новым типам атак.
Методологией работы является проведенный сравнительный анализ других публикаций.
2. Результаты и обсуждения
2.1 Теоретические основы методов машинного обучения для анализа текстовых данных
Методы машинного обучения (ML) приобретают особую значимость в контексте кибербезопасности, поскольку позволяют автоматизировать анализ больших объёмов неструктурированных текстовых данных, таких как электронная переписка, системные логи, публикации в социальных сетях и отчёты о киберинцидентах. Основные концепции ML, включая обучение с учителем, обучение без учителя и методы глубокого обучения, позволяют выявлять скрытые закономерности и аномалии в информационных потоках, что особенно важно для раннего обнаружения киберугроз [1].
Классические алгоритмы, такие как байесовский классификатор и метод опорных векторов (SVM), применялись для классификации текстовых данных. При этом векторизация текстов с использованием метода TF-IDF позволяет преобразовать неструктурированные данные в числовой формат, пригодный для последующего анализа [2,3]. Однако данные методы обладают ограничениями - они зачастую не способны адекватно учитывать контекстуальные и семантические особенности языка, что снижает их эффективность при решении сложных задач кибербезопасности.
Современные подходы, основанные на глубоких нейронных сетях, таких как сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и модели трансформерной архитектуры (например, BERT), позволяют не только анализировать поверхностные статистические характеристики текста, но и извлекать глубокие семантические связи. Эти модели обучаются на обширных корпусах текстовой информации, что обеспечивает им высокую способность к распознаванию сложных паттернов, фишинговые сообщения, спам и вредоносные инструкции [5,7].
Методы обработки естественного языка (NLP) являются важным звеном в подготовке текстовых данных для последующего анализа с помощью ML. Процесс обработки включает несколько этапов:
- Предварительная обработка данных: токенизация, нормализация, стемминг/лемматизация и удаление стоп-слов. Эти шаги позволяют очистить текст от лишней информации и привести его к унифицированному виду [6].
- Векторизация текстов: преобразование текстовой информации в числовое представление посредством моделей Bag-of-Words, TF-IDF, а также современных методов эмбеддинга, таких как Word2Vec и BERT. Данные подходы способствуют выделению информативных признаков, важных для обнаружения аномалий и киберугроз [9].
Для лучшего понимания ниже представлена таблица 1, обобщающая основные методы анализа текстовых данных в контексте кибербезопасности:
Таблица 1.
Основные методы анализа текстовых данных в контексте кибербезопасности [1, 2]
|
Метод / Подход |
Описание |
Преимущества |
Ограничения |
|
Классические алгоритмы (Наивный Байес, SVM) |
Статистические методы классификации, основанные на векторизации текстовых данных (например, с использованием TF-IDF) |
Простота реализации, интерпретируемость, быстрые вычисления |
Ограниченная способность учитывать контекстуальные и семантические связи; чувствительность к шуму |
|
TF-IDF векторизация |
Преобразование текстов в числовые векторы на основе частоты терминов |
Эффективна для базовой классификации, простота интерпретации |
Не учитывает порядок слов и глубокие семантические связи |
|
Нейронные сети (CNN, RNN, Трансформеры) |
Глубокие модели, обучаемые на больших корпусах, способные извлекать сложные зависимости и семантические связи |
Высокая точность, способность учитывать контекст и сложные зависимости |
Высокие вычислительные затраты, необходимость больших объемов обучающих данных |
Таким образом, теоретическая база методов машинного обучения для анализа текстовых данных в кибербезопасности опирается на сочетание стандартных статистических подходов и современных нейросетевых моделей, что позволяет обеспечить более глубокое и точное распознавание угроз в быстро изменяющейся информационной среде.
2.2 Применение методов машинного обучения для идентификации киберугроз на основе текстовых данных
Методы машинного обучения (ML) позволяют автоматически выявлять аномалии, фишинговые атаки, спам и иные вредоносные коммуникации, что способствует раннему обнаружению угроз и минимизации потенциального ущерба [4,9]. Ниже на рисунке 1 будут отражены этапы идентификации киберугроз.
/Bykov.files/image001.png)
Рисунок 1. Этапы идентификации киберугроз
Как видно из рисунка 1 на первом этапе реализации системы идентификации киберугроз особое внимание уделяется сбору текстовых данных из разнообразных источников. К числу таких источников относятся:
- Электронная почта – сообщения, содержащие подозрительные ссылки или запросы личной информации, характерные для фишинга.
- Социальные сети и форумы – публикации и комментарии, в которых могут содержаться манипулятивные или вредоносные инструкции.
- Отчеты о киберинцидентах – аналитические материалы и новости, описывающие новые типы атак [1,8].
После сбора данные проходят этап предварительной обработки, который включает:
- Очистку текста от HTML-тегов, спецсимволов и шумовой информации.
- Нормализацию – приведение к единому регистру, лемматизацию или стемминг для унификации лексических форм.
- Векторизацию – преобразование текста в числовые представления с использованием методов Bag-of-Words, TF-IDF, Word2Vec, а также современных моделей эмбеддинга, таких как BERT.
Такая подготовка данных позволяет создать репрезентативную обучающую выборку, пригодную для дальнейшей классификации и кластеризации с целью идентификации потенциальных угроз.
Далее если же говорить о практических примерах, использования машинного обучения в обнаружении киберугроз, то следует выделить следующие возможности:
- Обнаружение фишинговых сообщений или спама. В данном случае применение моделей классификации, таких как: байесовский классификатор или SVM, позволяет обнаруживать аномальные паттерны в тексте, характерные для фишинговых атак.
- Выявление вредоносных файлов, либо аномалий в контенте. Применение нейронных сетей, позволяет учитывать связи в сообщениях, выявляя не только типичные паттерны, но и ранее не встречавшиеся аномалии, связанные с новыми типами атак. Например, анализ сообщений на форумах позволяет составлять отчеты об инцидентах, где система выделяет признаки, присущие атакам, для дальнейшего выявления угроз.
- Внедрение в системы мониторинга. Обученные модели следует интегрировать в системы кибербезопасности для постоянного анализа текстовых потоков. Это позволяет осуществлять мониторинг в реальном времени, обеспечивая оперативное реагирование на инциденты и минимизируя время обнаружения угроз [1,3].
В свою очередь, говоря об оценивании эффективности моделей, то данное действие производится с использованием традиционных метрик, таких как:
- Точность, то есть доля правильно классифицированных угроз среди всех, выявленных системой;
- Полнота, способность модели обнаружить все киберугрозы;
- F1-мера, представляет собой гармоническое среднее между точностью и полнотой, позволяющее сбалансировать оба показателя [2].
Для сравнения различных алгоритмов, ниже приведена таблица 2, обобщающая методы и их применение для анализа текстовых данных в контексте идентификации киберугроз:
Таблица 2.
Методы и их применение для анализа текстовых данных в контексте идентификации киберугроз [1, 2, 3]
|
Метод машинного обучения |
Пример применения |
Преимущества |
Ограничения |
|
Наивный байесовский классификатор |
Обнаружение фишинговых писем, спама |
Простота реализации, низкая вычислительная сложность |
Ограниченная способность учитывать контекст; чувствительность к шуму |
|
Метод опорных векторов (SVM) |
Классификация текстовых сообщений по категориям угроз |
Высокая точность, стабильность работы |
Требует тщательной настройки параметров, может быть чувствителен к выбору признаков |
|
Рекуррентные нейронные сети (RNN) |
Анализ временных последовательностей сообщений для обнаружения аномалий |
Учет контекстуальных зависимостей, возможность обработки последовательностей |
Высокие вычислительные затраты, необходимость больших обучающих выборок |
|
Трансформерные модели (например, BERT) |
Детальное семантическое анализирование текстов для выявления сложных угроз |
Глубокое понимание контекста, адаптивность к новым паттернам |
Требуют значительных вычислительных ресурсов и объемов данных |
На основании сравнительного анализа, представленного в рамках таблицы 2 можно сделать вывод, что за счет гибридного использования простых алгоритмов и современных моделей машинного обучения возможно достичь оптимального баланса между точностью и вычислительной эффективностью. Ниже на рисунке 2 будет продемонстрирована эффективность методов машинного обучения.
/Bykov.files/image002.png)
Рисунок 2. Эффективность методов машинного обучения [1, 2, 3].
То есть, использование методов машинного обучения в осуществлении анализа текстовых данных представляет собой перспективное направление в области кибербезопасности, позволяющее автоматизировать процессы обнаружения угроз.
2.3 Вызовы, ограничения и перспективы развития интеграции ML в системы кибербезопасности
Применение ML в процессе выявления киберугроз на основе текстовых данных сопровождается рядом ограничений, которые необходимо учитывать при разработке и интеграции таких систем в общую архитектуру кибербезопасности.
Так одной из проблем является высокая изменчивость, неструктурированность и шумность текстовых данных, получаемых из различных источников (электронная почта, соцсети, форумы, специализированные отчеты).
Такие данные зачастую содержат множество ошибок, опечаток, специальных символов, а также избыточную информацию, которая снижает качество обучающих выборок [2,7]. Сложности аннотирования и предварительной обработки приводят к необходимости разработки специализированных алгоритмов для очистки, нормализации и автоматизированной разметки данных.
Киберугрозы постоянно эволюционируют, и модели, обученные на первоначальных данных, могут оказаться неэффективными для обнаружения новых типов атак.
Проблема обнаружения zero-day атак и иных ранее не встречавшихся угроз требует всесторонних решений.
Современные подходы, такие как обучение с подкреплением и трансферное обучение, представляют перспективное направление для непрерывного обновления и адаптации моделей к меняющимся условиям [3].
Интеграция ML-систем в существующие инфраструктуры кибербезопасности сопряжена с рядом трудностей. Во-первых, существует проблема «черного ящика» – многие современные модели, особенно глубокие нейронные сети, обладают низкой интерпретируемостью, что затрудняет анализ и объяснение принятых решений для конечных пользователей и специалистов по безопасности.
Во-вторых, интеграция таких систем должна учитывать имеющиеся архитектурные решения, требуя введения интерфейсов и протоколов обмена данными. Кроме того, обработка больших объемов персональных данных поднимает вопросы этики, конфиденциальности и соблюдения нормативных требований, таких как GDPR [1,9].
Для преодоления указанных ограничений перспективными направлениями являются:
- Разработка гибридных моделей, сочетающих традиционные статистические методы с современными глубокими алгоритмами для более точного учета контекста и семантики текстовых данных;
- Применение методов трансферного обучения и обучения с подкреплением, позволяющих адаптировать модели к новым угрозам без полной переобучаемости;
- Улучшение методов Explainable AI для повышения интерпретируемости сложных моделей и доверия к их результатам;
- Внедрение комплексных подходов к обработке и анонимизации данных, что позволит решать вопросы конфиденциальности и соответствия нормативным требованиям.
Таким образом, несмотря на значительный потенциал методов машинного обучения в области кибербезопасности, успешная их интеграция требует решения ряда важных задач, связанных с качеством данных, адаптацией к новым угрозам, интерпретируемостью моделей и соблюдением этических норм. Преодоление этих вызовов позволит создать более надежные и эффективные системы защиты информации.
Заключение
Методы машинного обучения являются незаменимым инструментом для повышения уровня кибербезопасности за счёт анализа неструктурированных текстовых данных. Проведённый обзор теоретических основ и практических кейсов показал, что стандартные алгоритмы, такие как наивный байесовский классификатор и SVM, обладают высокой вычислительной эффективностью, однако ограничены в способности учитывать глубокие семантические связи. Современные модели глубокого обучения, такие как RNN, CNN и трансформеры, обеспечивают более высокую точность и адаптивность в выявлении сложных угроз, хотя требуют больших объёмов данных и вычислительных ресурсов.
Анализ выявил основные вызовы интеграции ML-систем в существующие инфраструктуры кибербезопасности, включая проблемы качества входных данных, применению моделей к меняющемуся ландшафту угроз, низкую интерпретируемость современных нейросетевых архитектур и необходимость соблюдения этических и юридических норм. В качестве перспектив дальнейших исследований предложены разработка гибридных моделей, использование методов трансферного обучения и обучения с подкреплением, а также совершенствование подходов Explainable AI для повышения прозрачности работы систем.
Таким образом, применение методов машинного обучения для анализа текстовых данных открывает новые возможности в борьбе с киберугрозами. Реализация предложенных решений позволит создать более надежные, гибкие и интерпретируемые системы защиты, способные оперативно реагировать на постоянно эволюционирующие угрозы в цифровом пространстве.
Список литературы:
- Лощилин А. В., Яриков В. Г., Никишова А. В. Методы машинного обучения в прогнозировании и предотвращении кибератак //NBI-technologies. – 2024. – Т. 18. – №. 2. – С. 33-39.
- Ozkan-Okay M. et al. A comprehensive survey: Evaluating the efficiency of artificial intelligence and machine learning techniques on cyber security solutions //IEEe Access. – 2024. – Т. 12. – С. 12229-12256.
- Петров А. А. Искусственный интеллект и машинное обучение в кибербезопасности: технологии и применение / А. А. Петров. - М. : Техносфера, 2019. - 256 с.
- Романов Д. В. Применение методов машинного обучения для обнаружения угроз в информационных системах / Д. В. Романов, А. С. Карпов // Компьютерные инструменты в образовании. - 2020. - Т. 13, № 4. - С. 153-165.
- Чернов А. А. Анализ и предотвращение угроз в компьютерных сетях с использованием алгоритмов машинного обучения / А. А. Чернов, B. В. Горбунов // Компьютерные исследования и моделирование. - 2021. - Т. 13. - № 1. - С. 63-72.
- Штейнберг Б. Я., Штейнберг О. Б. Преобразования программ-фундаментальная основа создания оптимизирующих распараллеливающих компиляторов //Программные системы: теория и приложения. – 2021. – Т. 12. – №. 1 (48). – С. 21-113.
- Щербаков А. Е. Исследование применения искусственного интеллекта и машинного обучения в области кибербезопасности: техники обнаружения аномалий и предотвращения угроз / А. Е. Щербаков // Вестник науки. - 2023. - Т. 1. - № 7 (64). - C. 151-156.
- Rawat D. B. Reinforcement learning for IoT security: A comprehensive survey // IEEE Internet Things J. – 2021. - Vol. 8 (11). - pp. 8693–8706.
- Wang W., Guo J., Wang Z., Wang H., Cheng J., Wang C., Yuan M., Kurths J., Luo X., Gao Y. ‘Abnormal flow detection in industrial control network based on deep reinforcement learning // Appl. Math. Comput. – 2021. - Vol. 409. – pp. 1-10.
- How Much Data Is Created Every Day? +27 Staggering Stats . [Электронный ресурс] Режим доступа: https://seedscientific.com/how-much-data-is-created-every-day/ (дата обращения: 05.04.2025).