бакалавр технических наук, Белорусский государственный университет информатики и радиоэлектроники, Республика Беларусь, г. Минск
РАЗРАБОТКА СТРУКТУРЫ WEB-СИСТЕМЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ
АННОТАЦИЯ
За последние 5 лет произошло активное развитие автоматизированных информационных систем, в частности сетевых технологий Интернет, методов развития искусственного интеллекта, способах хранения данных и знаний и т.д. Основной проблемой данных инструментариев является направленность на решение частных задач, а также выполнены для определенного класса систем. Однако уровень их автоматизации открывает возможность создания технических решений, содержащих в себе все наиболее развитые инструменты для интеллектуального анализа больших данных, базирующегося на технологиях облачных ресурсов и WEB-систем, включающие в себя структуру, функции и способы организации.
Итогом данной статьи является создание концепции интегрированной Интернет-системы интеллектуального хранилища знаний с автоматизированным процессом информационной поддержки принятия управленческих решений. Определяются основные пути по созданию программной системы, предназначенной для улучшения результатов обработки массивов больших данных для таких задач интеллектуального анализа как: классификация, обучение, прогнозирование.
ABSTRACT
Over the past 5 years, there has been an active development of automated information systems, in particular Internet network technologies, methods of artificial intelligence development, methods of storing data and knowledge, etc. The main problem of these tools is the focus on solving particular problems, and they are also designed for a certain class of systems. However, the level of their automation opens up the possibility of creating technical solutions containing all the most advanced tools for big data mining based on cloud resources and WEB systems technologies, including the structure, functions and methods of organization.
The result of this article is the creation of the concept of an integrated Internet system of an intelligent knowledge repository with an automated process of information support for managerial decision-making. The main ways to create a software system designed to improve the results of processing big data arrays for such intellectual analysis tasks as classification, training, forecasting.
Ключевые слова: искусственный интеллект, web-система, интернет, алгоритмы, базы данных и знаний, большие данные, обработка больших данных, систематизация, автоматизация, интеллектуальный анализ.
Keywords: artificial intelligence, web system, Internet, algorithms, databases and knowledge, big data, big data processing, systematization, automation, intelligent analysis.
Введение
Автоматизированные информационные системы в последнее время стремительно развиваются в методах искусственного интеллекта, сетевых технологиях Internet, способах хранения и представления знаний, языках и инструментариях программирования, и т.п. [3, с. 56].
В свою очередь, развитие искусственного интеллекта оказало значительное влияние как на создание новых, так и на преобразование старых классов информационных систем, таких как [1, с. 29]:
- Системы поддержки принятия решений
- Экспертные системы,
- Системы интеллектуального анализа данных
- Интеллектуальные информационные системы и др.
Большая часть современных инструментариев предназначается для того, чтобы решать различные частные задачи, или же, изначально приспособлены под конкретный класс систем. При этом, с существующим уровнем автоматизации инструментариев можно разработать «над-систему», которая бы интегрировала в себе самые прогрессивные инструментарии (в частности: технологии, алгоритмы, модели, методы, подходы) посредством некоего интеллектуального хранилища знаний с автоматизированным процессом информационной поддержки принятия управленческих решений.
Интернет-технологии, базирующиеся на методах интеллектуального анализа данных, получили развитие благодаря необходимости повысить эффективность применения собранной информации в электронном виде (баз знаний, репозиториев, банков данных и пр.) при помощи унификации и интеграции форматов хранений и процедур обработки [2, с. 204].
Описание концепции интегрированной Интернет-системы
Концепция разработки интегрированной Интернет-системы интеллектуального хранилища знаний с автоматизированным процессом информационной поддержки принятия управленческих решений становится всё более востребованной и актуальной. Для выявления главных идей, технологий и рекомендаций, необходимых для разработки подобной системы, сфокусируемся на системе интеллектуальной обработки больших данных (СИОБД) – программно-аппаратной составляющей.
Характерные особенности СИОБД оказывают влияние как на технологию, так и на методологию её разработки. И так как технология создания СИОБД обладает специфическими особенностями, то она значительно отличается от процесса проектирования и разработки иных программных и информационных систем. В немалой степени, такие отличие связаны с тем, что СИОБД это интеллектуальная информационная система (ИИС), которая базируется на концепциях, методах и искусственном интеллекте.
Платформа интеллектуального анализа данных
Создаваемую платформу можно отнести к типу AaaS – Analysys as a Service или к SaaS Business Intelegence (BI).
Система предполагает наличие клиентского расширения функциональности, а также некоторых функций платформы как услуги (PaaS).
Возможности создаваемой системы (SaaS BI):
- Визуализация результатов анализа.
- Импорт/экспорт начальных данных и результатов обучения.
- Средства анализа эффективности обучения на основе данных.
- Средства построения автоматического коллективного решения на основании алгоритмов.
- Библиотека готовых подсистем анализа и алгоритмов, а также: кластеризация и классификация, нейронные сети, построение правил и деревьев решений, статистические и генетические алгоритмы и т.п.
- Как сервис предоставляется рабочее пространство (аутентификация и авторизация, средства загрузки и редактирования файлов).
Стратегический план разработки. СИОБД — это программно-аппаратный комплекс, который настраивается на применение разных классов распознавания, форматов и языков представления знаний и данных, аппарата анализа и синтеза модельных представлений, в том числе направленный на предоставление услуг для решения прикладных и научных задач обработки каких-либо данных.
К стратегическим планам можно отнести возможность расширения функций пользователя по созданию и редактированию индивидуальных разделов библиотеки алгоритмов (PaaS), а также:
- Автоматический ввод данных в СИОБД (работа с сервером через API).
- Интеграция с бизнес-процессами заказчиков/пользователей (по завершении обучения либо анализа сервер автоматически будет отправлять специально сконфигурированные данные на сервер заказчика, в результате чего в систему заказчика будет автоматический вывод данных).
- Возможность выстроить сценарии с применением алгоритмов анализа.
- Возможность выкладывать в публичный доступ алгоритмы.
- На основе метаязыка редактор для создания новых алгоритмов.
СИОБД можно описать так:
- В плане поддерживаемых функций СИОБД будет расширяема, и значит, её можно адаптировать под разные классы задач. СИОБД будет иметь в своём составе программные интерфейсы (API) и инструменты, которые позволят не только добавлять новые модули и функции, но делать их доступными для других пользователей.
- При помощи сети Интернет будет обеспечиваться доступ к системе. Через веб-интерфейс браузера будет осуществляться большая часть функций системы. Если необходимо работать с конфиденциальной информацией в системе будет предусмотрена шифрование хранимой и передаваемой информации (доступ может быть осуществлён при помощи протокол HTTPS).
- Лишь зарегистрированные пользователи смогут получить основную часть ресурсов и услуг системы. Однако часть ресурсов системы будут открытыми для массового доступа и для их использования регистрация не потребуется. Например, в качестве открытых ресурсов могут выступать общеизвестные информационно-справочные материалы.
- Для того чтобы получить доступ ко всему набору ресурсов и услуг системы необходимо будет зарегистрироваться. Статус пользователя будет определять как набор предоставляемых услуг и ресурсов, которые даст система, так и соответствующие количественные и качественные характеристики, в том числе разного рода ограничения. Характеристики ресурсов и услуг, в зависимости от задач и требований пользователя смогут меняться.
- В системе будет реализована концепция «проектов». Идея заключается в том, что для решения своих задач, пользователю необходимо, посредством ПО системы, создать необходимое количество проектов. Под каждый проект, у пользователя будет возможность арендовать и использовать ресурсы и услуги, которые ему необходимы, чтобы решить ту или иную задачу. При этом при желании, пользователь сможет предоставить доступ к своему проекту другим пользователям или их группам. Набор прав будет определять при работе над этим проектом возможности и допустимые операции.
- Сторонние приложения и веб-сайты посредством программного интерфейса (Web API) смогут осуществлять взаимодействие системой по протоколу HTTPS и по определенным процедурам использовать ее ресурсы.
- Для пользователей, которым необходим высокий уровень безопасности и/или по иным причинам не могут или не хотят хранить и передавать в системе свои данные, обладают возможностью получить клиентское ПО и установить на своих компьютерах. Данное ПО позволит осуществлять главные функции СИОБД и исполнять обработку и анализ данных локально, в автономном режиме (без подключения к сети Интернет).
Главные функции СИОБД. СИОБД это набор средств предназначенных для решения задач:
- извлечение знаний из данных (data mining) и текстов (text mining);
- прогнозирование (определение тенденций развития процессов);
- идентификация (определение отличительных признаков изучаемых объектов);
- кластеризация (классификация без обучения);
- распознавание образов (классификация с обучением);
- статистическая обработка данных (ковариационный и дисперсионный анализ, регрессионный и корреляционный анализ и т.д.).
Так как, система имеет открытую архитектуру и API, то набор поддерживаемых классов задач можно будет достаточно просто дополнить, в том числе и модулями, разработанными сторонними разработчиками.
СИОБД может обладать возможностью поддержки импорта данных из различных источников, таких как:
- реляционные базы данных;
- электронные таблицы в формате OpenDocument и Excel;
- файлы CSV, XML и HTML;
- веб-приложения и службы, например, такие как таблицы Google, МойОфис, Airtable, Яндекс Документы.
Помимо этого, непосредственно через интерфейс системы, данные смогут вводиться, редактироваться и изменяться. Экспорт данных и результатов сможет быть выполнен в файлы различных форматов, например: XML, CSV, PDF, HTML, Excel, RTF, PNG, JPEG. В систему можно будет интегрировать и другие конвертеры импорта/экспорта, которые будут обеспечивать работу с нестандартными источниками данных и их форматами.
Система будет иметь необходимые инструменты, которые обеспечивают возможности для графического представления и визуализации исходных данных и результатов их обработки в разных формах, в том числе в виде различных диаграмм и графиков. Обозначенные инструменты можно также использовать и для создания тех или иных отчётов, которые могут быть опубликованы в рамках системы или экспортированы для дальнейшего использования.
СИОБД будет содержать различные справочники, интерактивные учебники и модули тестирования по тематике интеллектуальной обработки данных, которые предназначаются как для обучения пользователей эффективному решению задач при помощи системы, так и повышению их уровня знаний относительно методов обработки данных и соответствующих моделей. Помимо этого, можно при помощи системы можно будет организовать электронные обучающие курсы и проведение для разных предметных областей автоматического тестирования знаний.
СИОБД создаёт автоматически личный кабинет для каждого пользователя. В личном кабинете создаются проекты, которые функционирует в рамках системы, к данному проекту могут обратиться и другие пользователи системы. Создаваемые проекты позволят агрегировать и публиковать разного рода материалы, которые не противоречат системным правилам, и, если необходимо, пользователь сможет ограничивать к ним доступ.
Для того чтобы пользователи могли общаться между собой, и получения от них обратной связи, система будет поддерживать коммуникационные сервисы. Это и обмен электронными сообщениями (например, чат в режиме реального времени) и списки рассылки, подписка информирование о происходящих в системе изменениях (например, об изменениях на сайтах каких-либо пользователей) и, тематические дискуссии и форумы, проведение голосований и опросов.
Система управления. Система управления сайтом будет представлять собой программный комплекс, который позволит автоматизировать процесс управления как сайтом в целом, так и сущностями в рамках сайта, такими как: шаблонами вывода данных, макетами страниц, информационным наполнением, структурой, правами доступа и пользователями. В том числе, будут предоставлены дополнительные сервисы: ведение статистики, списки рассылки, средства взаимодействия с пользователями, поиск и т.п.
Рассматриваемые проектные решения по созданию СИОБД совместно с методами ИИ, технологиями интеллектуального анализа данных, электронными базами по разным предметным областям, моделями представления информации являются инструментом повышения эффективности образовательной, научной и инновационной деятельности, в различных сферах, например в медицине, промышленности, экономике и т.п.
Выводы
Реализация данного проекта на практике даст возможность применять его как адаптивную, самонастраивающуюся, открытую интеллектуальную информационную систему с встроенными функциями экспертной системы и подсистемами интеллектуального анализа данных (извлечения знаний). Предлагаемый математический аппарат и методика его применения в процессе анализа данных представляет собой инструмент научной оценки и формального обоснования принимаемых решений в разных сферах классификации, прогнозирования, принятия решений.
Список литературы:
- Агравал А., Ганс Д., Голдфарб А. Искусственный интеллект на службе бизнеса. Как машинное прогнозирование помогает принимать решения. М: Манн, Иванов и Фербер, 2019. сс 29-35. ISBN 978-5-00117-881-1
- Боженюк А.В., Котов Э. М., Целых А.А. Интеллектуальные интернет-технологии. М: Феникс, 2009. сс.204-219. ISBN 978-5-222-15978-1
- Норенков И.П. Автоматизированные информационные системы: учеб. пособие. М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. cc.56-58. ISBN 978-5-7038-3446-6