ПРИНЦИПЫ ПОСТРОЕНИЯ РАСПРЕДЕЛЕННЫХ ГЛОБАЛЬНЫХ ФАЙЛОВЫХ ХРАНИЛИЩ С ОБЕСПЕЧЕНИЕМ РЕЗЕРВИРОВАНИЯ ДАННЫХ ДЛЯ ЧТЕНИЯ И ВЫСОКОЙ ДОСТУПНОСТИ ХРАНЕНИЯ

PRINCIPLES OF BUILDING DISTRIBUTED GLOBAL FILE STORAGES WITH PROVISION OF DATA BACKUP FOR READING AND HIGH AVAILABILITY OF STORAGE
Голенев А.В.
Цитировать:
Голенев А.В. ПРИНЦИПЫ ПОСТРОЕНИЯ РАСПРЕДЕЛЕННЫХ ГЛОБАЛЬНЫХ ФАЙЛОВЫХ ХРАНИЛИЩ С ОБЕСПЕЧЕНИЕМ РЕЗЕРВИРОВАНИЯ ДАННЫХ ДЛЯ ЧТЕНИЯ И ВЫСОКОЙ ДОСТУПНОСТИ ХРАНЕНИЯ // Universum: технические науки : электрон. научн. журн. 2025. 1(130). URL: https://7universum.com/ru/tech/archive/item/19131 (дата обращения: 16.03.2025).
Прочитать статью:

 

АННОТАЦИЯ

В статье рассматривается архитектура распределённых глобальных файловых хранилищ, аналогичная Distributed File System (DFS). Данные разбиваются на блоки (chunks), в последующем размещаются на серверах с учётом близости к пользователям, что снижает задержки доступа, оптимизирует маршруты передачи информации.

Внедрение многократной репликации повышает надёжность сведений. В дополнение к традиционной трёхкратной репликации предлагаются инновационные методы распределённого кодирования, такие как например: эквидистантное хэширование, алгоритмы контролируемой избыточности, позволяющие оптимально распределять копии на серверах. 

Для восстановления данных после сбоев серверов предлагается использовать гибридные схемы кодирования, такие как Erasure Coding с динамическим обновлением сведений, которые сохраняют баланс между производительностью, а также потребностями в резервировании. Контрольные суммы помогают оперативно находить поврежденные данные, а алгоритмы восстановления позволяют восстанавливать даже при многократных сбоях. 

В статье также обсуждается оптимизация размеров блоков с учётом пропускной способности сети, допустимых задержек. Это включает адаптивные алгоритмы для изменения размера блоков в зависимости от сетевой нагрузки, условий хранения. 

Отдельное внимание уделяется синхронизации блоков данных, алгоритмам детекции сбоев, корректирующим действиям: применению контрольных сумм минимального размера и специальным алгоритмам снижения вероятности коллизий. Кроме того, предлагается использовать методы машинного обучения для предсказания потенциальных сбоев переноса данных до их возникновения. 

Информация, отраженная в данной работе, будет полезна для программистов, компаний в области IT, а также для любых организаций, которые стремятся к внедрению современных технологических решений, с целью увеличения прибыли.

ABSTRACT

The article discusses the architecture of distributed global file storage, similar to the Distributed File System (DFS). The data is divided into chunks, and subsequently placed on servers taking into account proximity to users, which reduces access delays and optimizes information transmission routes.

The introduction of multiple replication increases the reliability of information. In addition to traditional triple replication, innovative distributed coding methods are offered, such as, for example: equidistant hashing, controlled redundancy algorithms that allow optimal distribution of copies on servers.

To restore data after server failures, it is proposed to use hybrid encoding schemes, such as Erasure Coding with dynamic updating of information, which maintain a balance between performance and backup needs. Checksums help to quickly find corrupted data, and recovery algorithms allow you to recover even in case of multiple failures.

The article also discusses the optimization of block sizes, taking into account network bandwidth and acceptable delays. This includes adaptive algorithms to change the block size depending on network load and storage conditions.

Special attention is paid to the synchronization of data blocks, fault detection algorithms, corrective actions: the use of minimum checksums and special algorithms to reduce the likelihood of collisions. In addition, it is proposed to use machine learning methods to predict potential data transfer failures before they occur.

The information reflected in this work will be useful for programmers, IT companies, as well as for any organizations that seek to implement modern technological solutions in order to increase profits.

 

Ключевые слова: распределенные файловые системы , distributed file system, блоки, резервирование данных, доступность хранения.

Keywords: distributed file systems, distributed file system, blocks, data backup, storage availability.

 

Введение

Рост объёмов данных и потребность пользователей в постоянном доступе к информации сделали разработку распределённых глобальных файловых хранилищ одной из ключевых задач. Эти системы ориентированы на обеспечение отказоустойчивости, устранение задержек при обработке данных, повышение надёжности их хранения. Традиционные методы репликации и хранения данных, используемые в локальных сетях, часто оказываются недостаточно эффективными для глобально распределённых систем. Новые технологии распределённого кодирования и управления избыточностью позволяют создавать системы, соответствующие современным требованиям. Что в свою очередь делает обслуживание распределенных файловых хранилищ (RGFX) актуальным, особенно с целью минимизации задержек доступа, а также  высокой надежности хранения данных.

Данная архитектура основывается на принципах распределенных файловых систем, таких как распределенная файловая система (DFS), но с учетом переменных факторов: географического размещения серверов, оптимизации маршрутов передачи данных и управления резервностью. Введение методов репликации данных, таких как Erasure Coding, адаптивные алгоритмы распределения блоков, позволяет повысить надежность, эффективность хранения. Необходимым аспектом, который следует учитывать - является разработка технологий, обеспечивающих оперативное восстановление данных после сбоев, минимизацию затрат на резервирование.

Современные подходы, включая использование гибридных кодирующих схем, алгоритмов прогнозирования на основе машинного обучения, выделяют инновационность автоматизации, адаптивность систем. Кроме того, вопросы оптимизации размера блоков данных, синхронизации, управления требуют внимания для повышения производительности с использованием файловых систем.

Целью работы является рассмотрение непрерывного построения распределенных файловых хранилищ с упором на обеспечение резервирования данных для чтения и высокой доступности хранения. Работа направлена на анализ современной архитектуры, кодовых методов, резервирования, а также предложения по их совершенствованию для соответствия современным требованиям надежности, производительности и масштабируемости.

Обзор литературы

Для рассмотрения данной темы используются теоретические и эмпирические методы. В рамках теоретического анализа изучаются современные научные публикации, в которых описываются технологии, включая методы стирающего кодирования, гибридные методы резервирования, адаптивные стратегии распределения данных. Эмпирический подход моделирования архитектурных систем хранения, анализа их производительности при различных схемах отказов. Также применялись методы системного анализа для оценки распределения серверов при задержке доступа, машинное обучение использовалось для прогнозирования рисков, оптимизации восстановления данных. Такой подход принимает обоснованность выводов, предложений, направленных на повышение надежности, а также эффективности работы за счет хранилищ ресурсов.

Одним из подходов который описывается в научной статье, авторов Shin D. J., Kim J. J. [1] является улучшение процессов является использование матриц. Предложенная технология оптимизирует время записи, восстановления путем кэширования, создаваемых с использованием стирающего кодирования. Что в последующем позволяет ускорить операции в данных системах.

Другим подходом, предложенным авторами Song Y., Zhang Q., Wang B. [2] является использование гибридных стратегий. В данном случае описывается система FACHS, которая сочетает в себе случайные копии, локальное восстановление кода, что позволяет повысить скорость чтения, а также записи. Дополнительно она снижает избыточность хранения данных на 12%, что эффективно для файлов, использующихся редко. Что позволяет экономить ресурсы, уменьшить нагрузку на хранилище, обеспечивая при этом доступность, а также восстановление данных.

Kim J. J. в статье [3] предложил методы буферизации для повышения производительности системы хранения при сбоях узлов, что необходимо для эксаскейл-расчетов, где нагрузка на ввод/вывод. Эти методы эффективны при стирающем кодировании, обеспечивая устойчивость в условиях высоких нагрузок, многозадачности.

Для повышения производительности в системах параллельных обновлений данных, Tu Y. et al. [4] предложили систему DDUC. Описывая данную систему, авторы размышляют о способах решения проблем, связанных с параллельной записью, актуализацией данных, что снижает время, необходимое для восстановления, данных, увеличивает эффективность работы системы в целом.

Наконец, для оптимизации передачи данных в распределенных сетях был предложен подход к размещению данных с учетом топологии сети, о котором рассказывают Xia J. et al. [5]. Эта стратегия улучшает эффективность передачи данных в многокопийных хранилищах, что актуально для глобальных распределенных систем, где топология сети играет важную роль в скорости и надежности передачи.

В качестве источника, в котором описывался практический опыт компаний выступили сведения находящиеся на сайте arenadata.tech [6]. В рамках данного литературного источника приводились практики построения хранилищ данных на базе программных продуктов Arenadata. Представленные данные позволили рассмотреть с практической точки зрения принципы построения распределенных глобальных файловых хранилищ с обеспечением резервирования данных для чтения и высокой доступности хранения.

Все эти работы подчеркивают важность использования новых методов стирающего кодирования и адаптивных стратегий для повышения производительности и надежности распределенных систем хранения данных.

Результаты и обсуждения

Проектирование основывается на принципах распределённых файловых систем, но учитывает задачи, связанные с глобальной масштабируемостью и управлением маршрутами передачи данных. Важным элементом таких систем становится разбиение информации на блоки, которые размещаются на серверах, расположенных с учётом оптимизации доступа пользователей. Такой подход ускоряет взаимодействие с данными, снижает время их обработки [5].

Разделение информации на отдельные фрагменты упрощает управление данными. Каждый блок является завершённым фрагментом, подходящим для хранения, передачи и обработки. Оптимальное распределение таких блоков между серверами учитывает географическое положение пользователей, что способствует снижению времени отклика системы.

Надёжность распределённых систем достигается с использованием репликации и алгоритмов избыточного кодирования. Репликация подразумевает создание нескольких копий одного блока, размещённых на независимых серверах. Вместо традиционных схем, применяющих одинаковое число копий, используются алгоритмы, которые позволяют адаптировать количество реплик к особенностям данных. Это уменьшает издержки на хранение, сохраняя устойчивость системы.

Гибридные методы кодирования, такие как Erasure Coding, повышают эффективность работы распределённых систем. Этот подход позволяет восстанавливать утраченные данные без необходимости их полного дублирования. Контрольные суммы помогают своевременно выявлять повреждения, устранять их до появления критических последствий [2]. Данные системы обеспечивают целостность информации даже при сбоях. Специализированные алгоритмы, минимизирующие ресурсы на обработку контрольных сумм, помогают своевременно устранять повреждения в блоках. Они способны предотвращать распространение ошибок, поддерживая стабильность работы.

Если же говорить о внедрение гибридных методов кодирования, то это является необходимым решением, в силу того, что размер блоков важен в эффективности работы системы. Корректировка этого параметра на основе текущей нагрузки сети позволяет сбалансировать затраты на хранение данных, скорость их обработки. Это актуально для систем, взаимодействующих с сегментами сети, имеющими разные пропускные способности.

В свою очередь системы анализа данных с использованием машинного обучения позволяют выявлять потенциальные сбои. Такой подход помогает заранее перенаправлять запросы пользователей, создавать резервные копии информации, расположенной в зоне риска. Это минимизирует вероятность ошибок в работе всей системы [4].

Далее в таблице 1 будут описаны основные преимущества, которыми обладают распределённые глобальные хранилища.

Таблица 1.

Преимущества распределённых глобальных хранилищ [4-6]

Наименование

Описание

Сохранение доступа к данным

 

Серверы, расположенные в различных регионах, обеспечивают доступность информации при сбоях отдельных узлов. Репликация данных поддерживает стабильность работы системы

Управление задержками и пропускной способностью

 

Географическая близость серверов к пользователям помогает ускорить обработку запросов. Это важно для задач, где требуется оперативная обработка данных.

Корректное управление размером блоков способствует рациональному использованию сетевых ресурсов, что уменьшает нагрузку на каналы связи.

Надёжность хранения

Методы кодирования, включая Erasure Coding, сохраняют данные даже при отказе нескольких узлов. Это снижает объём избыточных данных.

Механизмы проверки целостности выявляют повреждения информации.

Предупреждение отказов

 

Прогнозирование, основанное на алгоритмах машинного обучения, позволяет предотвратить сбои на стадии их формирования

 

Далее в таблице 2 будут представлены недостатки, которыми обладают данные хранилища.

Таблица 2.

Недостатки распределённых глобальных хранилищ [4-6]

Наименование недостатка

Описание

Высокие затраты на создание и поддержку

 

Организация серверов в разных регионах требует значительных ресурсов. Это касается финансов, времени, технического оснащения;

Увеличение инфраструктуры из-за репликации данных требует дополнительных вложений.

Сложность эксплуатации

 

Управление распределёнными системами требует специализированных инструментов. Это усложняет обслуживание и администрирование;

Для эксплуатации таких систем необходимы квалифицированные специалисты.

Чувствительность к сетевым условиям

 

Производительность системы зависит от качества соединения между узлами. Сетевые проблемы могут привести к задержкам обработки запросов;

Настройка алгоритмов, учитывающих изменения сети, должна выполняться с высокой точностью.

Проблемы с безопасностью данных

 

Размещение информации в разных странах требует соблюдения законодательных норм в области защиты данных. Это создаёт дополнительные сложности;

Контроль доступа и поддержание целостности информации требуют использования надёжных механизмов защиты.

 

В свою очередь если говорить о практическом примере компаний, то далее будет рассмотрен опыт некоторых российских компаний.

О модернизации корпоративного хранилища данных «Комус» задумалась в 2020 году в связи с нарастающими проблемами с веб-аналитикой [6]. На тот момент в компании работало хранилище SAP, а для веб-аналитики использовалось достаточное простое решение: содержимое виртуального журнала ClickStream.

К тому времени, когда удалось получить бюджет на модернизацию, начались проблемы с поставками ИТ-оборудования, и тогда «Комус» взяла за основу облачный вариант Arenadata DB в VK Cloud. Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над  ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Принятие  завершенного проекта заключалась в сверке готовых витрин. Ниже на рисунке 1 для наглядности будет продемонстрирована разработанная распределенная система файловых хранилищ.

 

Рисунок 1. Архитектура модернизированной аналитической системы компании «Комус» [6].

 

В результате компания получила новые возможности для развития продвинутой веб-аналитики в АХД на базе Arenadata DB. Витрины этого хранилища также предоставляют данные для команды аналитиков (80 дата-специалистов), использующих Jupyterhub. За счёт сжатия и поколоночного хранения в Arenadata DB удалось достичь существенной экономии в объёме хранилища: вместо 9 Тб, хранившихся ранее в Oracle, теперь 1,5 Тб.

Для X5 Group проект модернизации корпоративного хранилища данных также окрашен алармистскими красками. Большая часть аналитической нагрузки приходилась на хранилище SAP BW [6]. «Хранилище строилось достаточно давно и играло ключевую роль в подготовке регуляторной отчётности, закрытии финансового периода». Несколько лет назад была запущена целевая платформа по работе с данными, состоящая из озера данных на  Hadoop, хранилища данных на Arenadata DB и набора BI-инструментов для доставки данных пользователям.

Таким образом, в X5 Group были созданы 54 новые витрины данных в EDW (ключевое требование — «как в BW»), обеспечена выгрузка данных в Qlik Sense для управленческой аналитики и в Hadoop — для продуктов Big Data. Была запущена новая система рассылок по технологии nPrinting и внедрены инструменты self-service-аналитики. Был внедрён кластер ClickHouse. Это повысило для пользователей уровень доступности данных на платформе, что помогло взять стратегический курс на освоение новых технологий.

На основе представленных данных, в таблице 3 будут представлены рекомендации по управлению распределёнными глобальными файловыми хранилищами.

Таблица 3.

Рекомендации по управлению распределёнными глобальными файловыми хранилищами [6]

Оптимизация параметров хранения данных

Для настройки размеров блоков следует применять адаптивные алгоритмы, которые учитывают особенности текущей нагрузки системы и пропускную способность сети. В условиях высокой загруженности серверов целесообразно использовать более крупные блоки. Это позволяет уменьшить частоту запросов, снижая задержки передачи данных.

Применение смешанных методов кодирования

Методы, такие как Erasure Coding с обновлением контрольных сумм, помогают экономить ресурсы. Эти подходы позволяют поддерживать стабильность системы. Эффективность кодирования следует регулярно анализировать, корректируя параметры в зависимости от текущей нагрузки или изменений в профиле отказов.

Организация репликации и избыточности

Эквидистантное распределение копий данных по серверам снижает риск потери информации при локальных авариях. Управление количеством дублированных блоков должно учитывать важность данных. Это обеспечивает оптимальное соотношение между надёжностью и затратами.

Управление сбоями и предотвращение отказов

Для прогнозирования сбоев используются алгоритмы анализа данных. Они позволяют выявить проблемы на ранних этапах. Резервные копии и автоматизированные механизмы переноса данных обеспечивают бесперебойную работу даже при неисправностях отдельных узлов

Контроль производительности

Мониторинговые инструменты помогают оценивать состояние вычислительных и сетевых ресурсов, определяя узкие места в системе. Постоянный анализ параметров позволяет настроить систему для обеспечения её стабильной работы без избыточных затрат.

 

Таким образом распределённые глобальные файловые хранилища развиваются на основе современных технологий. Такие системы объединяют адаптивные алгоритмы, методы прогнозирования и эффективные механизмы кодирования. Это позволяет достигать стабильности, безопасности и высокого уровня производительности при работе с большими объёмами информации.

Заключение

В условиях быстрого роста объемов данных и ужесточения требований к их доступности и надежности распределенные глобальные хранилища файлов (RGFX) становятся каскадной частью современного цифрового внедрения. Приведенные в работе исследования подтверждают, что создание эффективной системы хранения данных требует комплексных подходов, включая адаптивные методы кодирования, оптимизацию размеров блоков, продвинутые механизмы резервирования и алгоритмы, предотвращающие сбоев.

Анализ структуры RGFX продемонстрировал, что для обеспечения отказоустойчивости играет сочетание традиционной репликации с современными методами, такими как Erasure Coding, а также гибридные алгоритмы распределенного кодирования. Данные подходы минимизируют объем резервных данных, сохраняя при этом должный уровень надежности, тем самым обеспечивая восстановление информации даже при наличии проблем.

Одним из принципов развития данной структуры является использование адаптивных алгоритмов, позволяющих изменять размеры блоков, количество реплик в зависимости от текущей сетевой нагрузки, а также географического расположения пользователей. Что позволяет обеспечить баланс между затратами на складирование, производительностью системы.

Применение методов машинного обучения для прогнозирования опасных ситуаций и автоматизированного переноса данных в безопасные зоны обеспечивает минимизацию времени простоя системы и повышение ее устойчивости. Алгоритмы обнаружения ошибок и контрольные суммы предотвращают обнаружение повреждений данных, что особенно важно для систем с высокой активацией операций.

В целом, представленные в работе подходы подчеркивают важность ведущих технологий кодирования, прогнозирования и управления ресурсностью для создания масштабируемых и надежных RGFX. Реализация предложенных решений позволяет соблюсти баланс между эффективностью, надежностью и экономичностью хранения данных, что делает эти системы ключевым элементом цифровой экосистемы.

 

Список литературы:

  1. Shin D. J., Kim J. J. Cache-based matrix technology for efficient write and recovery in erasure coding distributed file systems //Symmetry. – 2023. – Т. 15. – №. 4. – С. 872.
  2. Song Y., Zhang Q., Wang B. Fachs: Adaptive hybrid storage strategy based on file access characteristics //IEEE Access. – 2023. – Т. 11. – С. 16855-16862.
  3. Kim J. J. Erasure-coding-based storage and recovery for distributed exascale storage systems //Applied Sciences. – 2021. – Т. 11. – №. 8. – С. 3298.
  4. Tu Y. et al. DDUC: an erasure-coded system with decoupled data updating and coding //Frontiers of Information Technology & Electronic Engineering. – 2023. – Т. 24. – №. 5. – С. 716-730.
  5. Xia J. et al. Topology-aware data placement strategy for fault-tolerant storage systems //IEEE Systems Journal. – 2020. – Т. 14. – №. 3. – С. 4296-4307.
  6. Лучшие практики построения хранилищ данных на базе программных продуктов Arenadata. [Электронный ресурс] Режим доступа: https://arenadata.tech/about/blog/luchshie-praktiki-postroeniya-hranilishh-dannyh-na-baze-programmnyh-produktov-arenadata/ (дата обращения 12.11.2024).
Информация об авторах

технический директор ИИ стартапа Grow with AI, Армения, г. Ереван

CTO of AI startup Grow with AI, Armenia, Yerevan

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Звездина Марина Юрьевна.
Top