технический директор, Оскелли Групп, РФ, г. Москва
АРХИТЕКТУРА И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЯ ДЛЯ СБОРА ПОЛЬЗОВАТЕЛЬСКИХ СОБЫТИЙ (CLICKSTREAM) И ИХ ПОСЛЕДУЮЩЕГО АНАЛИЗА
АННОТАЦИЯ
В этой статье исследуется роль данных clickstream в цифровой аналитике, подчеркивается их полезность для понимания и улучшения взаимодействия пользователей на веб-платформах. Данные Clickstream, представляющие пути навигации пользователей по веб-сайтам, дают критическую информацию о поведении пользователей, предпочтениях и моделях вовлеченности. В этом исследовании исследуются методы сбора и анализа таких данных, освещается их применение в различных цифровых интерфейсах, таких как веб-сайты и мобильные приложения. В исследовании также рассматриваются технические аспекты обработки данных clickstream, включая отслеживание и анализ в режиме реального времени с использованием передовых облачных технологий, таких как AWS Kinesis и Amazon Timestream. В документе обсуждается интеграция этих систем для эффективной обработки данных и обнаружения аномалий, подчеркивается их важность для оптимизации взаимодействия с пользователями и эффективности цифровых сервисов. Полученные результаты демонстрируют значимость данных clickstream в цифровой аналитике, предлагая всесторонний взгляд на их потенциал в улучшении взаимодействия пользователей онлайн и качества обслуживания.
ABSTRACT
This paper explores the role of clickstream data in digital analytics, emphasizing its utility in understanding and improving user interactions on web platforms. Clickstream data, representing users' website navigation paths, provides critical insights into user behavior, preferences, and engagement patterns. This study investigates the methods of collecting and analyzing such data, highlighting its application across various digital interfaces like websites and mobile applications. The research also delves into the technical aspects of clickstream data processing, including real-time tracking and analysis, utilizing advanced cloud-based technologies like AWS Kinesis and Amazon Timestream. The paper discusses the integration of these systems for efficient data handling and anomaly detection, underscoring their importance in optimizing user experience and digital service efficacy. The findings demonstrate the significance of clickstream data in digital analytics, offering a comprehensive perspective on its potential in enhancing online user experiences and service quality.
Ключевые слова: данные clickstream, цифровая аналитика, поведение пользователей, веб-навигация, сбор данных, анализ в реальном времени, облачные вычисления, обнаружение аномалий, пользовательский опыт, обработка данных
Keywords: clickstream data, digital analytics, user behavior, web navigation, data collection, real-time analysis, cloud computing, anomaly detection, user experience, data processing
Введение
В сфере цифровой аналитики значение данных clickstream (последовательность действий пользователя на веб-сайте) имеет первостепенное значение для расшифровки сложных моделей поведения пользователей. Эти данные дают детальное представление о том, как пользователи взаимодействуют с цифровыми интерфейсами, будь то веб-сайты, мобильные приложения или онлайн-платформы. Выводы, полученные на основе этих данных, имеют решающее значение для понимания предпочтений пользователей, моделей навигации и общей вовлеченности, которые являются ключевыми для адаптации пользовательского опыта и улучшения цифровых сервисов [4].
Яркий пример полезности данных clickstream проиллюстрирован в исследовании Дж. Боллена [2]. В этом исследовании использовались крупномасштабные данные clickstream, чтобы дать современный взгляд на научную деятельность, устраняя недопредставленность социальных и гуманитарных наук, часто встречающуюся в традиционных данных о цитировании. Это приложение подчеркивает универсальность данных clickstream, расширяя их использование за пределы коммерческих контекстов в академических и исследовательских средах.
Данные Clickstream о потоках кликов и аналитика потоков кликов - это процессы, связанные со сбором, анализом и отчетностью агрегированных данных о том, какие страницы посещает посетитель веб-сайта - и в каком порядке. Путь, который посетитель проходит через веб-сайт, называется потоком кликов.
Потоки кликов подпадают под данные о потоках и аналитике потоков кликов, которые также называются анализами потоков кликов. Данные о кликах - это информация, собранная о пользователе во время просмотра веб-сайта или использования веб-браузера. Аналитика кликов - это процесс отслеживания, анализа и отчетности о данных на страницах, которые посещает пользователь, и о поведении пользователя, находясь на веб-странице (рис. 1) [3].
Рисунок 1. Как генерируются и используются данные clickstream
Веб-сайты используют данные о кликах, чтобы показать, как пользователь прошел от первоначального поиска или целевой страницы до покупки товара или услуги. Поисковые системы используют наборы данных clickstream, чтобы показать, где пользователь искал термин, когда он нажал на него и возвращаются ли они к поиску после этого. Интернет-провайдеры, рекламные сети, а также ИТ- и телекоммуникационные организации также собирают данные о потоке кликов.
Данные Clickstream включают в себя следующие типы информации веб-аналитики:
- является ли человек уникальным или постоянным посетителем веб-сайта;
- термины, которые человек подключает к поисковой системе;
- на какую страницу человек заходит изначально;
- количество времени, которое пользователь проводит на странице;
- функции на странице, на которую пользователь нажимает и с которой взаимодействует;
- когда и где товар добавляется или удаляется из корзины;
- куда пользователь идет дальше;
- когда используется кнопка "Назад".
Однако данные о кликах, собранные из одного сеанса пользователя, взаимодействующего с веб-сайтом, могут быть бесполезными. Тем не менее, организация может использовать совокупные данные, собранные от многих посетителей, для улучшения своего веб-сайта или сервиса.
Например, если много посетителей покидают сайт после посадки на страницу со слишком небольшим количеством информации, организации, возможно, придется улучшить страницу более ценной информацией. Аналогичным образом, если посетители часто попадают на страницу, которая не является домашней страницей веб-сайта, то организация может захотеть переделать эту страницу, чтобы она была более привлекательной и информативной для пользователей.
Данные Clickstream не включают личные данные о пользователе и обычно хранятся на сервере, поддерживающем веб-сайт. Данные о потоке кликов являются полезным дополнением к данным из Google Analytics.
По итогу организации используют аналитику кликов, чтобы выявить тенденции и сделать выводы из различных показателей своих веб-сайтов. Этот процесс обычно использует файл журнала веб-сервера для мониторинга активности пользователей на веб-сайте.
Используя анализ потока кликов, организация может собирать данные о количестве посещений страниц, просмотров, а также об уникальных и повторных посетителях. Эти данные дают представление о том, как работает веб-сайт организации, и могут помочь приблизиться к типичному пользовательскому опыту (UX). Затем владелец веб-сайта может настроить сайт, чтобы сделать его более удобным для пользователя и увеличить вероятность того, что посетители останутся дольше, сделают покупку или иным образом взаимодействовать с веб-сайтом и организацией, стоящей за ним.
Материалы и методы
Рассмотрим систему предназначенную для отслеживания запросов скриптов на многочисленных веб-сайтах, уделяя особое внимание производительности и доступу к данным в режиме реального времени. Это достигается благодаря оптимизированному процессу.
Данные Clickstream в этом контексте могут быть любой точкой данных, которую можно придумать, исходя из задачи. Как правило, это просмотр страницы, клик по рекламе или какое-то другое взаимодействие, которое совершает пользователь. Эти точки данных обычно поступают в виде непрерывного потока данных [5].
На рисунке 2 приведен вариант того, как собираются и сохраняются данные о кликах.
Рисунок 2. Сбор и хранение данных о кликах
Далее на рисунке 3 приведена техническая диаграмма, показывающая поток данных от пользователя в базу данных.
Рисунок 3. Поток данных от пользователя в базу данных
Далее на веб-сайты внедряется облегченный скрипт, запрашивающий разрешение 1x1 пиксель через CloudFront distribution:
Этот метод запускает событие в AWS Kinesis и Lambda с минимальным воздействием на клиентскую сторону [1].
Обработка данных с помощью сервисов AWS:
Kinesis: Функционирует как основной приемник журналов из CloudFront с конфигурацией сегмента, адаптированной к потребностям в пропускной способности.
Amazon Timestream: База данных временных рядов от AWS, обеспечивающая скорость, масштабируемость и экономическую эффективность. Она оптимизирована для обработки больших объемов данных временных рядов и облегчает выполнение сложных запросов с детализацией по времени.
Обработка данных:
- Гибкость запросов: Система поддерживает разнообразные запросы, например отслеживание загрузки скриптов на определенный сайт в течение различных временных интервалов (например, ежечасно или поминутно).
- Обнаружение аномалий: Реализовано для автоматического выявления и оповещения о нарушениях данных. Это включает в себя установку правил для пороговых значений оповещений на основе выбранной степени детализации данных.
В данной работе рассмотрим конкретный пример результатов отчета: получить количество данных за последние 7 дней:
Результаты
После запуска данного алгоритма производится детальный анализ данных: В системе есть возможность разбивать данные на различные интервалы (ежедневно, ежечасно, 2 минуты) обеспечивает детальное понимание закономерностей загрузки скриптов (рис. 4 - 6).
Рисунок 4. Данные за последние 7 дней, разделенные на интервалы в 1 день
Рисунок 5. Данные за последние 7 дней, разделенные на интервалы в 1 час
Рисунок 6. Данные за последние 7 дней, разделенные на интервалы в 2 минуты
Следующим важным моментом является обнаружение аномалий и оповещение. Azure Data Explorer предлагает сквозную архитектуру для анализа данных clickstream. Это предполагает интеграцию Azure Data Explorer с Adobe Analytics для сбора данных. Набор данных Adobe Analytics, богатый данными о взаимодействии с пользователем, передается в Azure Data Explorer, сервис, оптимизированный для крупномасштабного анализа данных. Эта архитектура подчеркивает плавную интеграцию внешних аналитических служб с возможностями обработки данных Azure, обеспечивая надежную среду для анализа данных clickstream [6].
Так, благодаря обнаружению аномалий Azure, интегрированному в задание cron, система проактивно выявляет нарушения, повышая надежность цифровых сервисов.
Допустим, при получении данных из AWS Timestream за последние 12 месяцев, разделенные на группы по 1 неделя (52 точки данных) и в попытке обнаружить некоторые аномалии, есть высокая доля вероятности пропустить целый день без каких-либо данных, что может в конечном итоге стоить дорого. Поэтому текущим решением является задание cron, которое выполняется каждый час и выполняет обнаружение аномалий с помощью Azure, чтобы выводить для пользователей экран, продемонстрированный на рисунке 7.
Рисунок 7. База обнаружения аномалий на основе данных за 90 дней с интервалом в 1 день
Такая система способна эффективно обрабатывает более миллиарда событий ежемесячно, демонстрируя масштабируемость и экономическую эффективность архитектуры.
Эта методология и результаты демонстрируют эффективность системы в обработке данных в режиме реального времени и обнаружении аномалий, предлагая модель для аналогичных крупномасштабных проектов анализа данных.
Заключение
Данная статья продемонстрировала критическую важность данных clickstream в области цифровой аналитики. Благодаря всестороннему анализу было показано, что эти данные неоценимы для понимания поведения пользователей на цифровых платформах. Отслеживая действия пользователей на веб-сайтах, можно получить важную информацию о пользовательских предпочтениях и моделях навигации, которые необходимы для адаптации пользовательского опыта и улучшения предложений цифровых услуг.
Исследование методов сбора и анализа данных clickstream подчеркивает полезность этих методов в различных цифровых контекстах. Применение передовых облачных технологий, таких как AWS Kinesis и Amazon Timestream, показало свою эффективность для обработки данных в режиме реального времени и обнаружения аномалий. Такая технологическая интеграция облегчает эффективную обработку крупномасштабных данных и поддерживает сложные аналитические задачи.
В заключение, исследование подчеркивает ключевую роль данных clickstream в предоставлении подробной информации о взаимодействии пользователей с цифровыми интерфейсами. Результаты этого исследования имеют важное значение для предприятий и организаций, стремящихся оптимизировать свое цифровое присутствие и вовлечение пользователей. Эта работа не только подчеркивает текущую актуальность анализа данных clickstream, но и закладывает основу для будущих достижений в области цифровой аналитики.
Список литературы:
- AWS. Architecture overview. - URL: https://docs.aws.amazon.com/solutions/latest/clickstream-analytics-on-aws/architecture-overview.html#
- Bollen J. et al. Clickstream data yields high-resolution maps of science //PloS one. – 2009. – Т. 4. – №. 3. – С. 4803.
- Gillis A. S., Clickstream data (clickstream analytics) // Techtarget. - URL: https://www.techtarget.com/searchcustomerexperience/definition/clickstream-analysis-clickstream-analytics
- Hanamanthrao R., Thejaswini S. Real-time clickstream data analytics and visualization //2017 2nd IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology (RTEICT). – IEEE, 2017. – С. 2139-2144.
- Hein E., Clickstreams: Collection and analysis // Medium. - URL: https://medium.com/ad-tech/clickstreams-collection-and-analysis-815e9e11bb4b
- Khan S. S., Clickstream analytics in Azure Data Explorer // Microsoft. - URL: https://techcommunity.microsoft.com/t5/azure-data-explorer-blog/clickstream-analytics-in-azure-data-explorer/ba-p/1835942#:~:text=,Data%20feed%20functionality%20which