ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ МЕТОДА РАСПРЕДЕЛЕННОГО АНАЛИЗА ДАННЫХ

INCREASING THE EFFICIENCY OF PROCESSING LARGE VOLUMES OF INFORMATION USING DISTRIBUTED DATA ANALYSIS METHOD

Сайфутдинов А.В.

07.11.2023 187

10(115)

10. Информатика, вычислительная техника и управление

Цитировать:

Сайфутдинов А.В. ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ МЕТОДА РАСПРЕДЕЛЕННОГО АНАЛИЗА ДАННЫХ // Universum: технические науки : электрон. научн. журн. 2023. 10(115). URL: https://7universum.com/ru/tech/archive/item/16126 (дата обращения: 05.05.2024).

Прочитать статью:

DOI - 10.32743/UniTech.2023.115.10.16126

АННОТАЦИЯ

Информация сегодня становится ценностью. Различные методы обработки информации постоянно совершенствуются по мере роста объемов обрабатываемой информации, в рамках которой данные характеризуются не только высоким объемом, но и низкой структурированностью, что требует высоких производительных мощностей для их обработки. Именно это стало причиной активного внедрения технологии параллельной обработки данных, способствующей более гибкой настройке процесса обработки информации. Актуальность исследования заключается в популярности технологии распределенной обработки больших объемов информации.

ABSTRACT

Information today is becoming valuable. Various methods of information processing, which are constantly being improved as the volume of processed information grows, are characterized not only by a high volume of data, but also by low structure, which requires high productivity capacities for their processing. This is precisely the reason for the active implementation of parallel data processing technology, which promotes more flexible configuration of the information processing process. The relevance of the study lies in the popularity of technology for distributed processing of large volumes of information.

Ключевые слова: анализ данных, распределенные вычисления, распределенный анализ данных, распределенная обработка информации

Keywords: data analysis, distributed computing, distributed data analysis, distributed information processing

Большие данные применяются в самых различных областях жизнедеятельности. Первоначально подобного рода данные были представлены обычными базами данных с большим количеством записей. Сегодня они стали включать в свой состав различные виды данных по причине появления сложного инструментария и методик выполнения их анализа, которые при этом были дополнены большим числом источников [5]. Обработка больших объемов информации всегда проводится с применением специальных инструментов и методик. Одной из эффективных методик является разделение информации на малые сегменты, обработка каждого сегмента на отдельном компьютере и дальнейшее объединение результатов обработки в едином узле. Данная методика называется распределенной обработкой данных [6]. Формирование подмножеств данных для распределенной обработки происходит на основании схожих признаков, которые позволяют не только объединить классифицируемые данные, но и упростить процесс параллельной обработки.

Предмет исследования – процесс обработки больших объемов информации.

Объект исследования – метод распределенной обработки и анализа больших объемов информации.

Цель исследования – выполнить основные возможности повышения эффективности обработки больших объемов информации с использованием метода распределенного анализа данных.

Методология исследования включает в себя анализ научных источников, публикаций в сети интернет, исследовательских работ и иных источников, посвященных вопросам анализа и обработки больших данных в целом и с использованием распределенной обработки информации, в частности.

Рабочий процесс, связанный с анализом больших объемов данных, можно описать в виде пяти последовательных этапов [8]. На первом этапе происходит сбор данных, определяется их объем и структура. На втором – происходит формирование архитектуры данных и их фильтрация с целью устранения ошибочных и нерелевантных данных. Третий этап подразумевает использование специальных математических моделей в совокупности с методами машинного обучения для обработки больших данных. Четвертый этап – осуществление поиска закономерностей с использованием инструментов интеллектуального анализа данных. Последним шагом формируется итоговая документация, в которой описываются результаты выполненного анализа. В рамках процедуры распределенного анализа происходит использование нескольких компьютеров, либо, если речь идет об одном компьютере, несколько процессоров, что позволяет реализовать одновременную обработку блоков, на которые были разбиты данные, за счет чего уменьшается время выполнения обработки информации. Современные технологии позволяют выполнять распределенный анализ в рамках одного сервера, получив при этом существенное снижение времени обработки информации. В работе А. В. Сенькова, В. С. Ерша [9] исследователи описывают взаимосвязь между распределенной обработкой информации и задачами обработки больших объемов данных на примере телеметрической информации. Согласно данному исследованию, оптимальный метод организации распределенной обработки данных может быть подобран только на основании анализа состава обрабатываемой информации, а также возможностей вычислительных систем. В работе Е.В. Пальчевского, О.И. Христодуло, С.В. Павлова [8] авторы приводят похожую аналогию, что говорит о возможности применения распределенной обработки информации с обязательным подбором оптимального метода ее организации. Реализация разделения данных для выполнения анализа удобна тем, что предоставляется возможность выполнения обработки данных с применением различных моделей для каждого подмножества, то есть помимо параллельных вычислений происходит применение наиболее подходящих механизмов и правил обработки данных для каждого выделенного подмножества информации [2]. За счет данного подхода достигается не только снижение времени обработки, но и формируется более высокое качество обрабатываемой информации. В различных исследованиях [1; 3; 4] приводятся варианты организации распределенной обработки информации. На их основании было сформировано единое представление процесса распределенной обработки информации. На рисунке 1 представлена блок- схема выполнения данного вида обработки данных.

Рисунок 1. Пример процесса распределенной обработки информации

В рамках распределенной обработки с использованием различных моделей обработки информации достигается преимущество, связанное с упрощением процесса создания и поддержания работы моделей. Это можно объяснить тем фактом, что для анализа потребуется реализация набора простых моделей, а не одной модели, которая будет сложной в реализации [4]. Анализ может быть начат еще до того, как будут реализованы все модели, то есть первые результаты могут быть получены уже на основании имеющихся наборов (множеств) данных, обработанных с применением созданных моделей, и параллельно вестись работа над созданием оставшихся моделей [6]. Распределенная обработка данных в своей основе содержит принципы реализации распределенных вычислений – объединяется набор компьютеров или вычислительных устройств с целью упрощения решения поставленных задач. Помимо перечисленных ранее положительных качеств, данный подход обладает следующими преимуществами:

гибкое конфигурирование числа узлов в распределенной систем обработки и анализа данных, в том числе и простота добавления новых узлов для повышения мощности и ускорения процесса обработки информации;

бесперебойная обработка информации даже в случае выхода из строя одного из узлов, выполняющих данную обработку; в подобной ситуации происходит передача обрабатываемого подмножества данных на иной узел, который производит его обработку;
при реализации распределенной обработки данных, несмотря на тот факт, что обработка будет производиться на различных устройствах, всегда производится проверка целостности обрабатываемой информации, что является одним из гарантов обеспечения согласованности обрабатываемых данных;
в рамках реализации распределенной обработки информации происходит логическое разделение пользователя и физических вычислительных устройств [7].

Иными словами, для конечного пользователя вся система, выполняющая распределенную обработку данных, будет представлена как единое целое несмотря на то, что в её составе использовано самое различное оборудование и программное обеспечение [10]. Сегодня программное обеспечение, работающее с параллельной обработкой данных, в автоматическом режиме производит процедуры распараллеливания обрабатываемой информации, и передачи полученных блоков на отдельные элементы распределенной системы, при это решая задачи взаимодействия между элементами распределенной системы, производя обработку сбоев и т.д. Это позволяет упростить работу специалистов, выполняющих обработку информации [10]. Одними из новых и активно развивающихся технологий распределенной обработки данных являются кластерные вычисления и грид-вычисления. Первая технология подразумевает задействование в работе нескольких взаимосвязанных компьютеров с целью их функционирования в формате единого вычислительного комплекса. Подобного рода объединение выполняется в рамках единой сети, расположенной в едином помещении или здании. Грид-технологии отличаются тем, что объединяют географически распределенные компьютеры. В данном случае вычисления могут выполняться на любой машине, которая будет подключена к вычислительной сети. В любом случае, в рамках обработки больших объемов данных, обе технологии могут быть использованы с целью ускорения подобного рода процессов [8]. Кроме того, совершенствование процедур распределенной обработки больших объемов данных сегодня реализуется с применением двух методов. Суть первого метода основана на применении механизма репрезентативных выборок – для обработки данных будут подобраны несколько различных моделей. Далее из набора данных будет произведена выборка некоторого объема, которые будут проанализированы с точки зрения их состава, а также наиболее оптимальной модели обработки данных, после чего выбранная модель будет применена ко всей выборке. Схема реализации данного метода организации распределенной обработки больших объемов данных представлена на рисунке 2.

Рисунок 2. Методика распределенной обработки данных на основании репрезентативных выборок

Второй метод подразумевает организацию процесса анализа данных в несколько этапов. На первом этапе ряд узлов будет выполнять процедуру сортировки данных с целью формирования выборок на основании идентичных типов данных. Сформированные выборки однотипных данных будут передаваться другим узлам, задействованным в распределенной обработке. Схема реализации данного метода представлена на рисунке 3.

Рисунок 3. Схема распределенной обработки больших объемов данных с предварительной типизацией данных

Обработка данных одного типа происходит быстрее, чем разрозненные. По этой причине весь процесс обработки, несмотря на дополнительную организацию процедуры сортировки, будет происходить быстрее. Кроме того, качество выполненного анализа также возрастет, ведь для конкретного типа данных будет использована максимально подходящая модель обработки, что положительно скажется на итоговых результатах.

На основании вышесказанного следует вывод, что технология распределенной обработки информации применяется для решения задач различного характера, при этом может быть как поиск необходимой информации или ее сортировка, так и ее статическая обработка, кластеризация, машинное обучение, вычисление индексации текста, обработка изображений и многие другие задачи, в рамках которых происходит работа с данными. Применение параллельной обработки связано с более простым и быстрым восстановлением системы в ситуациях, когда возникает частичный сбой, связанный с неисправностью на одном из узлов. В такой ситуации обрабатываемый набор данных может быть передан другому рабочему узлу, что позволит не прерывать процесс обработки информации. Тем самым система автоматически реагирует на возникающие сбои, выполняя распределение обрабатываемых данных и реализуя баланс по нагрузке между машинами. Данное свойство особенно полезно для систем, где обработка информации выполняется в режиме реального времени, когда подобного рода процедуры являются критичными и требуют оперативной реакции на возникающие ситуации внутри системы.

Список литературы:

Брекоткина Е.С., Павлов А.С., Павлов С.В., Христодуло О.И. Интеллектуальный анализ и обработка больших разнородных данных для парирования угроз в сложных распределенных системах // Программные продукты и системы. – 2022. – №1. – С. 5-13.
Гумеров Э. А., Алексеева Т. В. Киберфизические системы промышленного Интернета вещей // Прикладная Информатика. – 2021. – №2. – С. 72-81.
Егорычев A.В., Беляев И.М., Овсянникова Т.А. Распараллеливание в задачах анализа физических данных эксперимента LHCB // Программные продукты и системы. – 2021. – №1. – С. 189-194.
Еремеев А.П., Варшавский П.Р., Поляков С.А. Программная реализация модуля анализа данных на основе прецедентов для распределенных интеллектуальных систем // Программные продукты и системы. – 2021. – №3. – С. 381-389.
Ефимова М.С. Интеллектуальный сбор информации из распределенных источников // Программные продукты и системы. – 2019. – №4. – С. 565-572.
Косяков М. С. Введение в распределенные вычисления: учебное пособие / М. С. Косяков. – СПб: НИУ ИТМО, 2014. – 155 с.
Наумов Р. К., Железков Н. Э. Сравнительный анализ форматов хранения текстовых данных для дальнейшей обработки методами машинного обучения // Научный результат. Информационные технологии. – 2021. – №1. – С. 40-47.
Пальчевский Е.В., Христодуло О.И., Павлов С.В. Прогнозирование угроз в сложных распределенных системах на основе интеллектуального анализа больших данных автоматизированных средств мониторинга // Программные продукты и системы. – 2021. – №2. – С. 230-236.
Сеньков А. В., Ерш В. С. Средства потоковой обработки данных для интеллектуального управления рисками в условиях неопределенности // Прикладная Информатика. – 2021. – №5. – С. 5-15.
Холод И.И. Метод определения возможностей параллельного выполнения функций алгоритмов анализа данных // Программные продукты и системы. – 2018. – №2. – С. 268-274.