ассистент, Ташкентский государственный транспортный университет, Республика Узбекистан, г. Ташкент
РАСПОЗНАВАНИЕ КЛАВИАТУРНОГО ПОЧЕРКА НА ВЕБ-ПРИЛОЖЕНИИ
АННОТАЦИЯ
В данной статье рассматривается тема распознавания рукописного ввода с клавиатуры на современных мобильных и стационарных устройствах с веб-технологиями. В работе рассматриваются методы решения проблем, проблемы и ошибки, а также описывается подход к разработке прототипа такой системы. В статье предлагается инновационный метод аутентификации, который требует от пользователя ввода в систему ничего, кроме произвольного текста.
ABSTRACT
This article deals with the topic of handwriting recognition from the keyboard on modern mobile and stationary devices with web technologies. The paper discusses problem solving methods, problems and errors, and also describes an approach to developing a prototype of such a system. The article proposes an innovative authentication method that requires the user to enter nothing but arbitrary text into the system.
Ключевые слова: Клавиатурный почерк, браузер, биометрический пользователь, аутентификация.
Keywords: Keystroke, browser, biometric user, authentication
Введение. Клавиатурный почерк - Динамика нажатия клавиш или биометрия набора текста относится к автоматизированному методу идентификации или проверки личности человека на основе шаблона и ритма набора текста на клавиатуре. Об аспектах этого метода написано несколько статей. В настоящее время в научных источниках клавиатурный почерк называют «keystroke dynamics» [1]. Если перевести буквально, то это «динамика нажатия клавиш на клавиатуре».
В данной работе используются предложенные методы аутентификации[2]. Они различают три типа аутентификации – знание, владение и внутренние свойства.
В настоящее время массово развиваются мобильные устройства с датчиком распознавания отпечатков пальцев или сенсором сетчатки глаза. Нажатия клавиш — это очень узкий сегмент отрасли, на который приходится 1% всех устройств со встроенной биометрией.
Распознавание рукописного ввода с клавиатуры в Интернете особенно важно, поскольку более половины населения мира использует веб-страницы в Интернете (4,021 миллиарда человек, исследование Global Digital, 2018 г.) [4]. Все пользователи по-разному взаимодействуют с клавиатурой — заходят на веб-сайты, вводят свои пароли и т. д. 43% пользователей выходят в Интернет с компьютеров, 56% — со смартфонов и планшетов.
Механизмы биометрической аутентификации делятся на два типа - поведенческие и физиологические [7].
Анализ клавиатурного почерка. Почерк на клавиатуре определяется временем между нажатиями клавиш. При получении биометрического шаблона клавиатурного почерка измеряется, сохраняется время нажатия двух, трех или нескольких клавиш подряд, и на основе полученных значений строятся математические модели для сравнения форм нескольких пользователей[1]. Математическая модель получает на вход два биометрических шаблона – эталон и кандидат, а определенная оценка схожести двух шаблонов на выходе дает рейтинг достоверности. Зная, что пользователь, пытающийся пройти аутентификацию, не является злоумышленником. Чем выше рейтинг, тем больше о нем известно.
Клавиатура имеет два типа распознавания рукописного ввода. Первых, это распознавание статического текста. Этот текст может быть паролем или определенной фразой. Здесь почерк на клавиатуре служит вторым фактором аутентификации. Первый фактор заключается в том, что злоумышленник знает пароль. Если пароль скомпрометирован злоумышленником, биометрические различия не позволят ему войти в систему.
С математической точки зрения задача распознавания текста хорошо формализована. Необходимо каким-то образом собрать информацию о времени между нажатиями соседних клавиш в тексте, сформировать из них вектор фиксированной размерности, а затем сравнить его с эталонным вектором с помощью кластерной модели (например, в [6] k - means ) или другие модели сравнения векторов одного и того же текста того же пользователя [7].
Второй тип – распознавание клавиатурного почерка при вводе текста. Если сеанс пользователя в системе уже активен, то невозможно проверить личность аутентифицированного пользователя. Например, сотрудник забыл заблокировать компьютер, и злоумышленник хочет им воспользоваться. Если он попытается совершить неправомерные действия, система с анализом почерка на клавиатуре сможет вычислить его и заблокировать компьютер. Это легко сделать, потому что сессия открыта для конкретного пользователя, а его уникальный биометрический шаблон уже хранится в базе данных IDS.
В аутентификации с произвольным текстом не существует надежных моделей генерации биометрических шаблонов и расчета рейтинга. Здесь возникает проблема с малыми размерами выборки — злоумышленник может ввести в систему два слова, по которым его будет сложно идентифицировать и отличить от легитимного пользователя. Кроме того, хронометраж таких систем не позволяет в реальном времени оценивать ситуацию и выдает результаты за десятки минут, экономя мегабайты векторов [8].
В нашем исследовании аутентификация основана на случайном вводе текста, который должен быть получен из какого-то реестра. Есть несколько общедоступных генераторов узбекского текста, использующих фразы и предложения из узбекской литературы или случайные слова из узбекского корпуса.
Существует два основных числовых показателя, определяющих качество биометрической системы, - ошибки первого типа (FRR, количество ложно отрицательных) и второго типа (FAR, количество ложно положительных).
Ошибка 1-рода (FRR – False Rejection Rate) возможность ложного отказа в доступе. В нашем случае эта ошибка возникает, если человек, обученный писать на системной клавиатуре, не может пройти аутентификацию. Практика показывает, что в распознавании пользователем возможно небольшое отклонение от допустимых значений.
Ошибка 2-рода FAR – False Acceptance Rate это вероятность ложного допуска, когда система ошибочно опознает чужого как своего. Если в случае аутентификации по паролю злоумышленник с данными для входа может легко получить доступ к системе, то это невозможно сделать в сочетании с модулем обработки рукописного ввода с клавиатуры.
Биометрические системы также иногда характеризуются коэффициентом равной вероятности ошибок 1-го и 2-го рода (EER – Equal Error Rates), представляющим точку совпадения вероятностей FRR и FAR. Cистема должна иметь как можно более низкий уровень EER [9].
В общем случае формулы расчета FRR и FRP выглядят так:
FRR = [(Количество попыток входа в систему доверенным пользователем) / (Число доступов в систему)]×100%;
FAR = (Число ложных срабатываний) / (Число ложных срабатываний + Число точных отказов).
Для существующих систем производительность варьируется и зависит от метода. Например, у Avaz и Trend FAR = 1.212%, а FRR = 0.641 %. У Download, Finish FAR=0 (трудно реализовать и, вероятно, результат небольшой выборки), а FRR колеблется от 1,85 до 4.98 %.
Технологически очень сложно создать в веб-приложении систему, которая анализирует данные в реальном времени и выдает результат за секунды. В нашем исследовании мы предложили свой метод сопоставления биометрических шаблонов и разработали рабочий прототип такой системы.
Схема системы распознавания в веб-приложении. Для проверки гипотезы о возможности распознавания клавиатурного почерка в веб-приложении был разработан прототип системы — веб-страница с текстовыми полями, возможностью загрузки текста с сервера и возможностью отправки информации о времени между нажатиями клавиш. Схема представлена на рис. 1. Далее подробно раскроем механику работы и принципы действия систем принятия решений и коммуникации между сервером и клиентом.
Рисунок 1. Схема
Рисунок 2. Схема
Пользователь по очереди видит случайные слова и вводит их одно за другим. Слова загружаются с сервера в файл word.php с помощью вызова ajax, единственной функцией которого является выбор слова из словаря и отправка его клиенту. Сразу после завершения ввода слова появляется следующее - Это продолжается до тех пор, пока не будут введены все слова для сеанса (обычно 5-7). Количество вводимых слов может быть разным — если общее количество с введенными парами символов превышает 35 или если система принятия решений делает однозначный вывод о пользователе, оно будет меньше.
Клиентский скрипт JavaScript измеряет время между нажатиями клавиш, обрабатывая коды, полученные функцией KeyDown (рис. 3). На сервере генерируется (N×N)-матрица, где N — размер алфавита. Что касается узбекского языка, то размер матрицы 34×34, узбекский + английский алфавиты — 40×40. В ячейку матрицы на пересечении строки и строки записывают номер столбца и строки, порядковый номер введенного в алфавите знака (А - 1, Z - 33) и время ввода определенной пары знаков.
К моменту ввода последнего символа сервер уже хранится полный файл для данного сеанса пользователя. Его уникальность в том, что информация сразу записывается в файл с именем сессии, что облегчает дальнейшую обработку системой принятия решений.
сервер получает сообщение о том, что вход завершен, когда нажата последняя буква. На этом этапе файл handle.php активирует систему разрешения (SPR). Задача этого скрипта — проанализировать введенный во время сеанса шаблон и сравнить его со всеми шаблонами, зарегистрированными в базе данных, чтобы определить наиболее похожий и на их основе сделать предположения об идентификаторе пользователя.
Математическая модель принятия решений в разработанном прототипе. Основная задача – определить меру подобия двух матриц – эталона и кандидата, и присвоить каждой паре определенный рейтинг, на основании которого можно отсортировать набор эталонов и выбрать наиболее подходящий.
Рисунок 3. График
Алгоритмы СПР приведены ниже:
- SPR проверяет каждую ячейку матрицы по элементу и вычисляет количество ненулевых элементов, расположенных в соответствующих местах обеих матриц. Это число хранится в переменной $couple.
- Для каждой пары производится проверка – если разница между временем клика кандидата и ссылкой меньше 20%, переменная $s_first увеличивается на 1. Переменная $s_second в любом случае увеличивается на 1.
- Переменная $per суммирует значение времени щелчка из Матрицы-кандидата.
Эксперименты и результаты. При разработанной системе в настоящее время не проводятся массовые эксперименты по расчету индикатора ошибки второго типа. Одного из авторов система «узнайт» в 80% случаев. На рисунке 3. показан график одного из экспериментов, показывающий 40 попыток входа в систему с одним шаблоном в базе данных. Теоретически это должно быть решено после анализа общедоступной аутентификации в сервисе и изменения границ параметров аутентификации.
Список литературы:
- Axelsson, S. The base-rate fallacy and its implications for the difficulty of intrusion detection // Proc. of the 6th ACM conf. on Computer and communications security. New York, 1999. С 1–7.
- Liu S., Silverman M. A. A. Practical guide to biometric security technology // IT Professional. 2001. Vol. 3. Р. 27–32.
- Информационные технологии. Биометрия. Обучающая программа по биометрии: ГОСТ Р 54412– 2011. Введ. 2002-01-01. М.: Изд-во стандартов, 2001.
- Gaffarov, N., Gaffarov, N., Rasulmuxamedov, M., & Azimov, A. (2022). Yuz va obyekt tasviri asosida identifikatsiyalash tizimlarining zamonaviy taxlili.
- G‘afforov, N., & Rasulmexamedov, M. (2022). TRANSPORT SOHASIDA BIOMETRIK YECHIMLAR. Актуальные вопросы развития инновационно-информационных технологий на транспорте, 1(1), 216–218.
- Digital in 2018: world’s internet users pass the 4 billion mark. URL: https://wearesocial.com/blog/2018/ 01/global-digital-report-2018, свободный (дата доступа 12.12.2018).
- Bergadano F., Gunetti D., Picardi C. User authentication through keystroke dynamic // ACM Transactions on Information and System Security (TISSEC). 2002. № 5 (4). Р. 367–397.
- Ташметов, Т., Ташметов, К., & Гаффаров, Н. (2022). Средств защиты информации локалных сетей. Актуальные вопросы развития инновационно-информационных технологий на транспорте, 2(2), 113–117.
- Lynch D. M. Securing against insider attacks // Information Security J.: A Global Perspective. 2006. Vol. 15, № 5. Р. 39–47.