Сегментация рукописного документа в текстовые строки и слова

Segmentation of manuscript document in text lines and words

Калько А.И. Наранович О.И.

25.12.2017 1424

№ 12 (45)

10. Информатика, вычислительная техника и управление

Цитировать:

Калько А.И., Наранович О.И. Сегментация рукописного документа в текстовые строки и слова // Universum: технические науки : электрон. научн. журн. 2017. № 12 (45). URL: https://7universum.com/ru/tech/archive/item/5411 (дата обращения: 16.05.2026).

Прочитать статью:

АННОТАЦИЯ

Алгоритм сегментации линии основан на поиске оптимальной последовательности текстовых и щелевых областей в пределах вертикальных зон пути применения алгоритма Витерби. Затем, текстовая строка обрабатывается сепаратором, рисунок наносится и, наконец, подключенные компоненты превращают изображение в текстовые строки.

Сегментация слов основываются на разрыве метрики, которая использует целевую функцию мягкой рентабельности линейного SVM, отделяющий последовательные компоненты связности. Алгоритмы протестированы на бенчмаркинг наборов данных, сегментации почерка и обогнали участвующие алгоритмы по скорости выполнения.

ABSTRACT

The line segmentation algorithm is based on searching for the optimal sequence of text and slit areas within the vertical path zones of the Viterbi algorithm. Then, the text string is processed by the separator, the picture is applied and, finally, the connected components turn the image into text strings. Segmentation of words is based on a break in the metric, which uses the objective function of the soft profitability of linear SVM, which separates the successive connectivity components. Algorithms were tested for benchmarking of data sets, handwriting segmentation and overtaking participating algorithms in speed of execution.

Ключевые слова: сегментация, распознавание, метод, алгоритм, смазывание текста.

Keywords: segmentation, recognition, method, algorithm, text blurring.

Сегментация изображения документа в текстовые строки и слова – необходимый этап в направлении неограниченного распознавания рукописного документа. Изменение угла наклона между текстовыми линиями или вдоль текстовой строки, наличие перекрывающихся или затрагиваемых линий, размер символа и различие в отображении букв являются основными проблемами извлечения рукописного текста.

Из-за высокой изменчивости написания стилей почерка, скрипты, методы и т.д., которые не используют какие-либо предварительные знания и адаптацию к свойствам изображения документа, являются менее устойчивыми, нежели методы экстракции линии и могут быть классифицированы как проекции в методе смазывания Хью [1].

Подходы, основанные на глобальных прогнозах распознавания при сегментации текста, очень эффективны для печатных документов. Тем не менее, они могут быть применены для коррекции перекоса в документах с постоянным углом перекоса [2]. Хау методы, основанные для обработки документов с изменением угла перекоса между строками текста не очень эффективны, когда перекос текстовой строки изменяется по ее ширине [3]. Таким образом, можно применять метод «Кусочного выступа», который может иметь дело с обоими типами перекоса изменения угла текста [4].

С другой стороны, «кусочная» проекция чувствительна к изменению размера в текстовых строках и существенных пробелах между последовательными словами. Эти явления слишком негативно влияют на эффективность методов размытия [5].

В таких случаях результаты двух смежных зон могут быть неоднозначными, влияющие разделители строк по ширине документа. Чтобы справиться с этими проблемами, необходимо ввести плавную версию профилей проекционных сегментов каждой зоны как экземпляр текстовых и щелевых регионов (участков текста) [6]. Затем нужно переквалифицировать эту область путем применения композиции СММ, что улучшает статистику из всей страницы документа. Начиная движение по тексту слева направо введенные переменные-сепараторы последовательных зон будут учитывать их близости и местные передние планы плотности.

В данной статье будет применен алгоритм «Витерби» в качестве декодирования сверточного текста и последующего его разбиения на сегменты.

Сверточные тексты часто используются как внутренние коды в каскадных схемах кодирования. От эффективности их декодирования в большой степени зависит надежность системы в целом. Поэтому для их декодирования необходимо использовать трудоемкое, но оптимальное в смысле вероятности ошибки правило – декодирование по максимуму правдоподобия.

Решающим преимуществом сверточных текстов перед блоковыми кодами является возможность применения весьма эффективной процедуры декодирования по максимуму правдоподобия – алгоритма Витерби.

Изображения документов в наборах данных охватывают широкий спектр случаев, которые происходят в почерке, представлены на рисунке 1.

Рисунок 1. Набор данных, характеризующий почерк человека

Алгоритм Витерби работает следующим образом:

Инициализация. Номер яруса t = 0 . Метрика нулевого узла приравнивается нулю, за этим узлом закрепляется «пустой» путь.
Для ярусов с номерами t = 1,…, L для каждого из узлов на ярусе t выполняются следующие вычисления:
Находим метрику каждого из путей, ведущих в узел, как сумму метрик предшествующих узлов и ребер, связывающих узлы-предшественники с данным узлом.
Находим путь с минимальной метрикой и эту метрику приписываем данному узлу.
Путь, ведущий в узел, вычисляется дописыванием к пути, ведущему в выбранный предшествующий узел, информационного символа, соответствующего переходу из узла-предшественника в данный узел.
Путь, соответствующий единственному узлу на ярусе L , выдается получателю как результат декодирования.

Список литературы:
1. Z. Razak, K. Zulkiflee, et al., Off-line handwriting text line segmentation: a review, International Journal of Com-puter Science and Network Security 8 (7) (2008) 12–20.
2. B. Yanikoglu, P.A. Sandon, Segmentation of off-line cursive handwriting using linear programming, Pattern Recognition 31 (12) (1998) 1825–1833.
3. G. Louloudis, B. Gatos, C. Halatsis, Text line detection in unconstrained handwritten documents using a block-based Hough transform approach, in: Proceedings of International Conference on Document Analysis and Recognition, 2007, pp. 599–603.
4. C.-H. Chou, S.-Y. Chu, F. Chang, Estimation of skew angles for scanned documents based on piecewise covering by parallelograms, Pattern Recognition 40 (2) (2007) 443–455.
5. M. Arivazhagan, H. Srinivasan, S. Srihari, A statistical approach to line segmentation in handwritten documents, in: Proceedings of SPIE 2007, vol. 6500T.
6. D.J. Kennard, W.A. Barrett, Separating lines of text in free-form handwritten historical documents, in: Proceedings of International Workshop on Document Image Analysis for Libraries, 2006, pp. 12–23.

Информация об авторах

Калько Алексей Игоревич

преподаватель, Барановичский государственный университет, 225320, Республика Беларусь, Брестская обл., г. Барановичи, улица Парковая, дом №62

Alexey Kalko

teacher, Baranovichi State University, 225320, Republic of Belarus, Brest region, Baranovichi Str. Parkovaya, house number 62

Наранович Оксана Ивановна

канд. физ.-мат. наук, доцент, Барановичский государственный университет, 225320, Республика Беларусь, Брестская обл., г. Барановичи, улица Парковая, дом №62

Oksana Naranovich

Candidate of physico-mathematical sciences, Associate Professor, Baranovichi State University, 225320, Republic of Belarus, Brest region, Baranovichi Str. Parkovaya, house number 62