преподаватель кафедры МОЭВМ, Воронежский государственный университет, РФ, г. Воронеж
РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ ДЛЯ ВЫЯВЛЕНИЯ ПОДДЕЛЬНЫХ ПОДПИСЧИКОВ В СОЦИАЛЬНЫХ СЕТЯХ С ПРИМЕНЕНИЕМ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
АННОТАЦИЯ
В данной статье представлен подход к автоматизированному выявлению недостоверных учетных записей в социальных сетях с использованием методов машинного обучения и интеллектуального анализа данных. Представленное решение включает в себя анализ методов, процесс обучения модели и оценку качества классификации, что позволяет автоматизировать разделение поддельных и действительных учетных записей. Разработано веб-приложение для классификации недостоверных учетных записей, визуализации результатов анализа и оценки эффективности моделей. Результаты исследования демонстрируют эффективность классификации предлагаемых методов и их использование в условиях борьбы с недостоверными учетными записями. Полученные данные могут стать инструментом для специалистов, занимающихся анализом социальных сетей и разработкой систем для автоматизированного выявления фальсифицированных профилей.
ABSTRACT
This paper presents an approach to automated detection of invalid social media accounts using machine learning and data mining techniques. The presented solution includes method analysis, model learning process and classification quality assessment to automate the separation of fake and valid accounts. A web application is developed to classify invalid credentials, visualize analysis results and evaluate model performance. Machine learning techniques such as logistic regression, random forests, gradient bousting and others are considered in this paper to select the most effective classification method. The findings can become a tool for professionals involved in social network analysis and the development of systems for automated detection of falsified profiles.
Ключевые слова: машинное обучение, интеллектуальный анализ данных, социальные сети, веб-приложение, классификация.
Keywords: machine learning, data mining, social networks, web application, classification.
Введение. В современном мире социальные сети играют важную роль в жизни общества. Компании используют социальные сети для продвижения своих товаров и услуг, а также для взаимодействия с существующими и потенциальными клиентами, поскольку социальные сети являются одним из наиболее распространенных и популярных средств коммуникации. Важным показателем в социальных сетях является количество подписчиков, которое может быть использовано для оценки уровня известности и популярности. С ростом числа пользователей социальных сетей заметно возрастает и интерес злоумышленников к данной сфере. Недостоверные учетные записи (поддельные аккаунты) могут использоваться для социально-инженерных атак, направленных на получение доступа к конфиденциальной информации, отправки вредоносных сообщений, а также для распространения ложной информации, способной инициировать дестабилизацию или снизить уровень доверия к организациям, их продуктам и услугам. Кроме того, поддельные аккаунты часто применяются для распространения нежелательных сообщений (спама), что ухудшает пользовательский опыт и снижает эффективность платформы, тем самым приводя к уменьшению пользователей и снижению доверия к социальной сети.
Поддельные аккаунты представляют собой значительную угрозу информационной безопасности, поэтому необходимо иметь инструменты для их выявления и классификации. В связи с этим разработка стратегий, направленных на предотвращение их использования, является актуальной [5]. Интеллектуальный анализ данных и алгоритмы машинного обучения предлагают инструменты с широким набором функций для решения задачи классификации поддельных аккаунтов [9]. В связи с представленной проблемой, были исследованы различные алгоритмы машинного обучения для классификации поддельных подписчиков в социальных сетях, что позволило выявить наиболее эффективные методы для решения данной задачи. Для более глубокого анализа и взаимодействия с полученными результатами необходимо разработать веб-приложение [2], которое будет предоставлять специалистам возможность автоматизированной классификации с удобным и интуитивно понятным интерфейсом для исследования.
1. Обзор существующих решений и исследований
В настоящее время проблема выявления поддельных аккаунтов социальных сетей является актуальной и активно исследуется учеными. Одним из основных подходов, применяемых в данной области, является машинное обучение. В ряде исследований рассматриваются методы классификации, основанные на анализе активности пользователей, временных паттернах публикаций и метриках поведения [7]. Такие алгоритмы как AdaBoost и XGBoost, требуют значительных вычислительных ресурсов и сложны в интерпретации, что ограничивает их применение в условиях реального времени [3]. Также активно развивается направление, связанное с использованием сетевых графов для анализа социальных связей и выявления подозрительных паттернов взаимодействия. Методы подобного рода позволяют учитывать сетевые характеристики пользователей, такие как степень связности, центральность и плотность их социальной сети [8]. Кроме того, одним из перспективных направлений является применение методов глубокого обучения, таких как рекуррентные и сверточные нейронные сети, для анализа временных рядов и изображений профилей пользователей [6]. Несмотря на разнообразие методов, многие исследования подчеркивают важность гибридных подходов, которые объединяют несколько моделей для достижения оптимального результата [1]. Данная работа развивает указанные подходы, предлагая метод, который интегрирует существующие решения с детализированной визуализацией результатов и оценкой производительности моделей.
2. Обзор и принципы метрик и методов машинного обучения
Метрики оценки производительности моделей машинного обучения играют ключевую роль в задаче классификации поддельных аккаунтов. В данной работе основное внимание уделено метрикам ROC-AUC, Precision, Recall и F1-мера, которые используются для анализа эффективности классификации [4]. В задаче классификации поддельных аккаунтов метрика ROC-AUC является приоритетной, поскольку она позволяет оценить способность модели различать классы. Высокое значение ROC-AUC указывает на то, что модель эффективно отделяет поддельные аккаунты от настоящих. Метрики Precision и Recall имеют особое значение для этой задачи. Precision минимизирует количество ложных срабатываний (ошибочное отнесение настоящих аккаунтов к поддельным), а Recall показывает, насколько точно модель выявляет поддельные аккаунты. F1-мера используется как баланс между точностью и полнотой. Основные метрики и их значения будут подробно проанализированы в четвертом разделе данной статьи. Для того чтобы вручную определить, поддельный аккаунт или нет, необходимо обратить внимание на следующие признаки: количество публикаций, подписчиков и друзей, сохраненные записи, группы, часовой пояс и местоположение, оформление профиля. Анализируя эти атрибуты в совокупности, можно сделать вывод о том, насколько аккаунт вероятно поддельный.
В связи с этим требуется разработать алгоритм для выявления поддельных подписчиков в социальных сетях с применением интеллектуального анализа данных.
3. Исходные данные и методология
Для проведения исследования были использованы два набора данных о реальных аккаунтах и о поддельных аналогах.
Оба набора данных представлены в формате CSV и содержат разнообразные атрибуты и характеристики, которые могут быть использованы для классификации аккаунтов. Наборы включают профильные данные, такие как имя пользователя, описание, фотографии профиля, количество подписчиков, количество подписок и число публикаций.
Первый набор данных содержит информацию о реальных аккаунтах пользователей в социальной сети в количестве 3474 строк и 40 столбцов, а второй содержит информацию о поддельных аккаунтах в количестве 3251 строк и 38 столбцов.
Этап 1. Предобработка данных
Пусть даны два набора данных: один с действительными пользователями, а другой с фальшивыми. Эти два набора данных объединяются в одну матрицу
, в которой каждый элемент
представляет собой значение атрибута
пользователя и
признака. К этой матрице данных добавляется вектор меток классов
, где
обозначает метку
пользователя:
для действительных пользователей и
для фальшивых. Здесь
— номер пользователя, а
– общее количество признаков.
Математически это можно выразить как вертикальное объединение матриц данных
(действительные пользователи) и
(поддельные пользователи)
и вектор меток
, где
– количество действительных пользователей,
– количество поддельных пользователей,
и
– вектора из
нулей (для действительных пользователей) и
единиц (для поддельных пользователей) соответственно.
Проводится предварительная обработка данных [4]. Далее по формуле 1 проводится нормализация данных, чтобы привести их к единому масштабу, так как числовые признаки могут иметь существенно различающиеся диапазоны значений.
(1)
где
— исходное значение признака
для пользователя
, а
и
– минимальное и максимальное значения признака
соответственно. Нормализированная матрица будет иметь значения в диапазоне от 0 до 1 для всех признаков.
В результате итоговая матрица данных
, дополненная столбцом меток классов
, содержит нормализированные и закодированные признаки.
Этап 2. Разделение данных на обучающую и тестовую выборки
Объединенные данные делятся на обучающую
и тестовую
выборки в соотношении 1/4. Это необходимо для оценки точности работы модели на тестовых данных.
Этап 3. Выбор и обучение модели машинного обучения
После предварительной обработки данных на основе матрицы признаков
и целевого вектора
, модель машинного обучения тренируется на обучающей выборке. В процессе обучения модель нацелена на выявление зависимостей между признаками и целевой переменной.
Модель получает на вход матрицу
, где
– количество пользователей,
– количество признаков после обработки. Также модель принимает целевой вектор меток классов
, где каждый элемент
соответствует классу пользователя:
для настоящего аккаунта и
для поддельного аккаунта.
Необходимо найти функцию
, с помощью которой предсказывается вероятность того, что пользователь принадлежит к классу поддельных аккаунтов, то есть
.
Этап 4. Оценка качества модели
Для оценки качества модели, например логистической регрессии, рассчитываются метрики классификации.
Имеется модель, которая обучена на матрице
, и целевой вектор
. Для выбранного пользователя с индексом
предсказывается вероятность, которая равна значению
. Это выше порогового значения 0.5, значит, пользователь классифицируется как поддельный.
В таблице 1 представлены результаты вычислений метрик производительности для тестовых данных на примере модели логистической регрессии.
Таблица 1.
Метрики производительности
|
ROC-AUC |
Precision |
Recall |
F1-мера |
Accuracy |
|
0.9908 |
0.9545 |
0.9904 |
0.9721 |
0.9718 |
Значение ROC-AUC, близкое к 1 (0.9908), указывает на высокую точность разделения классов, что свидетельствует о том, что модель успешно различает поддельные аккаунты и реальные. Значение точности Precision в 0.9545 указывает на то, что большинство поддельных аккаунтов, выявленных моделью, действительно являются таковыми. Высокое значение полноты Recall в 0.9904 указывает на то, что модель практически не пропустила ни одного поддельного аккаунта. F1-мера, объединяющая точность и полноту, также близка к 1 (0.9721), что подтверждает сбалансированность модели. Показатель Accuracy 0.9718 свидетельствует о том, что более 97 % всех классификаций выполнены верно. Логистическая регрессия продемонстрировала высокие показатели по всем метрикам, что свидетельствует о ее точности и эффективности в классификации поддельных аккаунтов.
Этап 5. Прогнозирование на тестовых данных
После того как модель обучена и проверена на кросс-валидации (перекрестная проверка), она используется для классификации тестовых пользователей. Для каждого пользователя из тестового набора данных
модель предсказывает вероятность принадлежности к классу поддельных аккаунтов и принимает решение на основе порога вероятности 0.5.
Этап 6. Визуализация полученных результатов
Для более точного понимания работы модели осуществляется визуализация следующих элементов: ROC-кривая, Precision-Recall, матрица корреляции признаков для выявления взаимосвязи между различными параметрами пользователей, гистограмма распределения подписок, подписчиков и избранных.
На основе алгоритма было разработано веб-приложение для расчета и визуализации рассмотренных метрик по каждому из методов машинного обучения, а также вывода других результатов вычислений для дальнейшего анализа.
4. Результаты и программная реализация веб-приложения
Веб-приложение разработано на языке программирования Python с использованием платформы (среды) Dash. Платформа Dash предоставляет компоненты для формирования макетов страницы и интерактивных элементов. Dash включает поддержку HTML-элементов, графиков Plotly, а также обратных вызовов, которые связывают пользовательский ввод с динамическим обновлением контента.
Веб-приложение формирует следующие компоненты:
– ROC-кривая, представленная сверху на рисунке 2, иллюстрирует точность модели в различении классов.
– Precision-Recall кривая, представленная в нижней части рисунка 2, демонстрирует соотношение точности (Precision) и полноты (Recall).
– Матрица корреляции, представленная на рисунке 3, отображает взаимосвязи между атрибутами данных.
– Гистограммы и графики, которые отображают распределение различных характеристик, таких как число подписчиков, подписок и избранных.
Интерфейс веб-приложения позволяет выбирать метрики и графики для визуализации, что облегчает анализ результатов работы моделей. Веб-приложение отображает:
– ROC и Precision-Recall кривые представлены на рисунке 2.
– Метрики классификации: ключевые показатели, такие как точность (Accuracy), полнота (Recall), F1-мера и ROC-AUC, выводятся в текстовом формате;
– Матрица корреляции, представленная на рисунке 3, отображает взаимосвязи между различными признаками набора данных.
– Гистограмма корреляции представлена на рисунке 4, которая дополнительно отображает распределение коэффициентов корреляции между признаками.
/Reznikov.files/image042.png)
Рисунок 2. ROC и Precision-Recall кривые
/Reznikov.files/image043.png)
Рисунок 3. Матрица корреляции
/Reznikov.files/image044.png)
Рисунок 4. Гистограмма корреляции
Например, корреляция в ~0.52 между атрибутом time_zone и целевой переменной (is_fake) означает, что существует средняя положительная связь между временной зоной пользователя и тем, является ли его аккаунт поддельным. Временная зона оказывает значительное, но не доминирующее влияние на результат. Графики распределения подписчиков и подписок демонстрируют, как распределяются подписчики и подписки среди реальных и поддельных аккаунтов. Поддельные аккаунты могут иметь аномально высокое или низкое количество подписок в зависимости от их целей, тогда как у реальных пользователей распределение подписок обычно демонстрирует более естественное, вариативное поведение. Графики распределения по часовым поясам и распределения избранных отображают географические данные и активность пользователей. В таблице 2 представлены результаты вычислений метрик производительности для тестовых данных. Был проведен анализ результатов вычисления метрик производительности на исследуемых моделях.
Таблица 2.
Оценка метрик производительности тестовых данных
/Reznikov.files/1.png)
Логистическая регрессия, случайные леса, дерево решений, градиентный бустинг, экстремальный градиентный бустинг, адаптивный бустинг показали высокую производительность по всем метрикам на обучающем наборе данных и выявили эффективные результаты на тестовом наборе данных. Значения ROC-AUC близкие к 1 (например, 0.9995 для модели случайных лесов) показывают, что такие образцы отлично разделяют классы. Precision и Recall также высокие, что указывает на точность и полноту предсказаний, а F1-мера, объединяющая эти показатели, подтверждает сбалансированность модели. Таким образом, платформа Dash упрощает создание веб-интерфейса для анализа данных и машинного обучения. С ее помощью можно разработать веб-приложение, которое предоставляет пользователям удобный и интуитивно понятный интерфейс для выбора модели из выпадающего списка, а также обновления графиков и метрик на основе выбранного образца.
Заключение. Проблема поддельных аккаунтов остается значимой, поскольку их наличие снижает доверие пользователей и уровень безопасности социальной сети. Поэтому разработка эффективных алгоритмов классификации поддельных учетных записей в социальных сетях имеет ключевое практическое значение. В статье представлены методы машинного обучения, а также выявлены наиболее эффективные из них для решения задачи классификации поддельных подписчиков в социальных сетях с применением интеллектуального анализа данных. Таким образом, был описан и разработан алгоритм для обнаружения поддельных аккаунтов, а также продемонстрирован и описан принцип работы динамического обновления графиков и метрик в зависимости от выбранной модели машинного обучения. Веб-приложение на базе платформы Dash значительно улучшило восприятие и интерпретацию результатов анализа. Веб-приложение предоставляет пользователям удобный и интуитивно понятный интерфейс с возможностью взаимодействия с результатами для более глубокого анализа и практическому применению полученных данных. Результаты исследования могут быть полезными для разработки систем защиты от поддельных аккаунтов и повышения общей безопасности пользователей в социальной сети.
Список литературы:
- Вьюгин В. Математические основы теории машинного обучения и прогнозирования. – М.: МЦМНО, 2020. – 390 с.
- Резников К.Г., Медведев С.Н. Разработка веб-приложения для визуализации кинематических поверхностей с использованием трассировки лучей // Вестник факультета прикладной математики, информатики и механики: cб. ст. – Вып. 15. – Воронеж: Издательский дом ВГУ, 2021. – С. 142–161.
- Резников К.Г., Подвальный С.Л. Разработка микросервисной архитектуры клиентской части веб-приложения // Цифровые системы и модели: теория и практика проектирования, разработки и применения. – ФГБОУ «Казанский государственный энергетический университет». – Воронеж: Центр публикационной активности КГЭУ, 2024. – С. 433–438.
- Савченко В.В. Процесс обработки и анализа экспериментального набора данных. Отбор атрибутов для классификации поддельных подписчиков в социальных сетях // Математика, информационные технологии, приложения: cб. трудов межвузовской науч. конф. – 2024. – С. 791–800.
- Cresci S., Pietro R. D., Petrocchi M., Spognardi A., Tesconi M. Fame for Sale: Efficient Detection of Fake Followers // Computer Communications. – 2015. – 76. – Pp. 43–51.
- Goodfellow I., Bengio Y., Courville A. Deep Learning. – MIT Press, 2016. – 775 с.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. – New York: Springer, 2017. – 768 с.
- Newman M. Networks: An Introduction. – Oxford University Press, 2018. – 800 с.
- Wang G., Mohanlal M., Wilson C., Wang X., Metzger M., Zheng H., Zhao B. Y. (2013). Fame for Sale: Efficient Detection of Fake Followers // Proceedings of the 2013 IEEE International Conference on Communications (ICC). – Pp. 1–6.