магистрант, Восточно-Казахстанский университет им. С. Аманжолова, Казахстан, г. Усть-Каменогорск
РАЗРАБОТКА WEB-ПРИЛОЖЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ РУКОПИСНОГО КАЗАХСКОГО ТЕКСТА
АННОТАЦИЯ
В статье представлена разработка web-приложения для распознавания рукописного казахского текста с использованием технологий оптического распознавания символов (OCR). Рассмотрены особенности применения библиотек Pytesseract, Flask, OpenCV и Pillow при построении системы. Описан алгоритм обработки изображений и архитектура программного решения. Проведен анализ функциональных возможностей разработанного приложения. Результаты исследования показывают, что предложенный подход обеспечивает эффективное распознавание текста и может быть использован в образовательной и информационной среде.
ABSTRACT
The article presents the development of a web application for recognition of handwritten Kazakh text using optical character recognition (OCR) technologies. The use of key libraries such as Pytesseract, Flask, OpenCV, and Pillow is discussed. The architecture of the application and the image processing algorithm are described. The results demonstrate that the proposed solution provides effective text recognition and can be applied in educational and information systems.
Ключевые слова: web-приложение; распознавание рукописного казахского текста; оптическое распознавание символов; алгоритм обработки изображений; реализация на языке Python; фреймворка Flask.
Keywords: Web application; handwritten kazakh text recognition; optical character recognition; image processing algorithm; Python implementation; Flask framework.
Введение. В условиях цифровой трансформации общества возрастает потребность в автоматизации обработки текстовой информации [1; 2]. Одной из актуальных задач является распознавание рукописного текста, которое представляет значительную сложность по сравнению с печатным аналогом. Особое значение приобретает разработка систем распознавания для казахского языка, учитывая его графические особенности и ограниченное количество доступных решений [2; 3]. Словарь казахского языка имеет специфические графические особенности и ограниченную представленность в существующих OCR-решениях.
В этой связи создание web-приложений, обеспечивающих доступ к OCR-технологиям, является актуальным направлением исследований. Целью данной работы является разработка и исследование web-приложения для распознавания рукописного казахского текста [7].
Материалы и методы. В работе использованы методы цифровой обработки изображений и оптического распознавания символов [4; 5; 6]. Программная реализация выполнена на языке Python с использованием следующих библиотек: Pytesseract — для распознавания текста; Flask — для реализации web-интерфейса; OpenCV — для предварительной обработки изображений; Pillow — для работы с изображениями; NumPy — для обработки массивов данных; OS — для взаимодействия с файловой системой. Методика исследования включает в себя разработку архитектуры приложения, реализацию алгоритма обработки изображений и анализ полученных результатов.
Результаты и обсуждение. Разработанное приложение реализовано по клиент-серверной архитектуре. Пользователь взаимодействует с системой посредством web-интерфейса, загружая изображение, содержащее текст. Серверная часть обрабатывает его и возвращает результат распознавания.
Для распознавания текста используется библиотека Pytesseract, обеспечивающая взаимодействие с OCR-движком Tesseract. Распознавание осуществляется с учетом языковой модели казахского языка.
Использование данной библиотеки позволяет эффективно извлекать текстовую информацию из изображений различного качества.
Web-интерфейс разработан с использованием фреймворка Flask. Он обеспечивает: загрузку изображений через HTML-форму; обработку пользовательских запросов; отображение результатов распознавания. Применение Flask позволяет создать легковесное и масштабируемое приложение. Для повышения точности распознавания используется предварительная обработка изображений. С этой целью применяются библиотеки OpenCV и Pillow. Основные методы обработки: преобразование изображений в градации серого; фильтрация шумов; повышение контрастности; бинаризация изображений. Применение данных методов позволяет значительно улучшить качество распознавания. Библиотека OS используется для организации хранения загружаемых файлов и управления путями. Это обеспечивает корректную обработку пользовательских данных и стабильную работу приложения. Для использования программы по распознаванию рукописного казахского текста была создана web-страница. Она облегчает работу с системой простому пользователю и не требует сложных взаимодействий, либо специальных знаний от пользователя.
Данный HTML-код представляет собой простую веб-страницу, предназначенную для загрузки изображения с текстом для распознавания (рисунки 1).
/Sailaubekov.files/image001.png)
Рисунок 1. Выбор изображения с текстом для распознавания
HTML-код, который представляет собой страницу для отображения распознанного текста изображения, предоставляет простой интерфейс для отображения результатов распознавания текста и изображений. Он обеспечивает удобное отображение результатов и позволяет пользователям возвращаться на предыдущие страницы при необходимости. Примеры функциональности, разработанной системы показаны на рисунках 2, 3.
/Sailaubekov.files/image002.png)
Рисунок 2. Результат обработки изображения рукописного текста
/Sailaubekov.files/image003.png)
Рисунок 3. Результат обработки изображения печатного текста
Использование языковой модели казахского языка позволило повысить корректность распознаваемых слов. Однако наблюдаются ограничения, связанные со сложностью распознавания сильно искаженного или неразборчивого рукописного текста. Приложение основано на применении технологий OCR и методов цифровой обработки изображений.
Заключение. В результате научного труда разработано web-приложение для распознавания рукописного казахского текста. Применение современных библиотек и технологий позволило создать эффективную систему обработки изображений. Практическая значимость работы заключается в возможности использования разработанного решения в образовательной сфере, в системах автоматизации документооборота, автоматизации обработки рукописных текстов в образовательной и научной деятельности. Перспективы дальнейших исследований связаны с использованием методов машинного обучения для повышения точности распознавания и расширением функциональных возможностей системы.
Список литературы:
- Тойганбаева Н.А., Әбдіманап Ғ.С., Алимова А.Н., Жунусова Ж.Х. Қазақ тіліндегі қолжазба мәтіндерінің мәліметтер қорын құру мен тану // Алматы энергетика және байланыс университетінің Хабаршысы — Алматы, 2023. — № 3 (62). — 105–116 с.
- Тойганбаева Н.А., Алимова А.Н., Әбдіманап Ғ.С., Сакыпбекова М.Ж., Гусманова Ф.Р. Нейронды желілер негізінде қазақ-орыс тілдеріндегі қолжазба мәтіндерді тану // Абай атындағы ҚазҰПУ. Хабаршы. Физикаматематика ғылымдары сериясы. — Т. 84. — Алматы, 2023. — № 4. — C. 183–191.
- Тойганбаева Н.А. Терең оқыту модельдері негізінде қазақ-орыс тіліндегі оффлайн қолжазба мәтіндерін тану // Қазақстан Республикасы Ұлттық инженерлік академиясының хабаршысы. — Алматы, 2023. — № 4 (90).
- Python Language Reference — Python 3.14.3 documentation URL: https://www.python.org (дата обращения: 28.03.2026).
- Smith R. An Overview of the Tesseract OCR Engine // ICDAR. — 2007.
- Szeliski R. Computer Vision: Algorithms and Applications. — Springer, 2019.
- Sebastian Raschka, Mirjalili Vahid. Python Machine Learning. — 2015. — Pp. 269–282.