канд. филол. наук, зав. лабораторией корпусной социолингвистики и автороведческих исследований Воронежского государственного педагогического университета, 394043, РФ, Воронеж, ул. Ленина, 86
Состав и структура корпуса текстов RUSSIAN DECEPTION BANK, предназначенного для разработки методик диагностирования лжи в речи
АННОТАЦИЯ
Проблема выявления лжи в речи (как устной, так и письменной) имеет не только теоретическую, но и очевидную практическую значимость, что связано, в числе прочего, с появлением большого числа интернет-текстов, которые могут содержать намеренно искаженную информацию. В современной науке общепринятым является подход к выявлению в речи ложной (т.е. намеренно искаженной) информации с использованием достижений корпусной и компьютерной лингвистики. На русском языке таких исследований до настоящего времени практически не существовало, что было связано главным образом с отсутствием соответствующих корпусов текстов. В статье представлен корпус текстов RUSSIAN DECEPTION BANK, предназначенный для изучения проблемы выявления лжи в тексте, а также описаны результаты исследований на материале корпуса.
ABSTRACT
The problem of lie detection in speech (both oral and written) has not only theoretical, but also the obvious and practical importance that is connected, among others, with the emergence of a large number of online texts which can deliberately contain distorted information. In modern science, the approach to identify false (i.e., deliberately distorted) information in speech using achievements of corpus and computational linguistics is considered as generally accepted. There are scarcely such studies in Russian up to date that is mainly connected with the lack of appropriate corpus texts. The text corpus RUSSIAN DECEPTION BANK intended to study the problem of lie detection in the text is presented, and also research results are described as exemplified in materials of the corpus.
Ложь, по-видимому, существует столько же, сколько существует сам человек, и на протяжении всей истории человечества предпринимались попытки разработать методы ее идентификации, поскольку, как доказывают современные исследования, человек в среднем определяет ложь с вероятностью, лишь немногим превышающей случайную величину (truth bias) [9]. Особенно актуальной является проблема обнаружения заведомо искаженной информации в ситуациях, когда цена лжи высока. В последние годы в связи с повышением уровня террористической угрозы проблема выявления лжи стала одной из проблем, от решения которой напрямую зависит уровень национальной безопасности. Однако надежные методы выявления лжи до настоящего времени не разработаны. В течение длительного времени основное внимание уделялось невербальным маркерам лжи. Как отмечается в литературе [10], например, сотрудники правоохранительных органов обычно уделяют гораздо больше внимания невербальному поведению подозреваемого, в результате чего точность распознавания лжи оказывается достаточно низкой. Но как показали многочисленные исследования, анализ речи более эффективен для выявления лжи, чем анализ невербального поведения [6; 9]. Более того, в некоторых работах [4; 5; 7] показано, что анализ одного только речевого уровня гораздо более эффективен в выявлении лжи, чем анализ невербального поведения.
В то же время существующие методики выявления лжи в речи (как правило, в виде структурированного интервью), в ряде стран использующиеся в работе правоохранительных органов, отличаются субъективностью [4]. В последние годы к решению проблемы выявления лжи в речи стали применяться методы computer science, а указанная задача решается как задача классификации текстов на основе численных значений их языковых параметров [5]. Большинство подобных исследований выполнены на материале английского языка.
Для подобных исследований необходимы специальные корпусы текстов, «истинность»/«ложность» которых установлена. Также желательно, чтобы в корпусе содержались «правдивые» и «ложные» тексты от одного и того же автора. Сбор таких корпусов текстов представляет собой сложную научную задачу, поэтому многие исследователи используют тексты, созданные специально для решения поставленной задачи; авторами текстов, выступают, как правило, студенты (см. подробнее: [8]). Существуют, однако, и работы, выполненные на материале «реальных» текстов, истинность/ложность которых известна (как правило, из материалов судебной практики), однако такого рода корпусы, как правило, небольшого объема, что делает затруднительным применение к ним методов машинного обучения [1]. Кроме того, контроль темы текста в таких случаях невозможен. Очевидна также необходимость сравнения особенностей «ложных» текстов, созданных в разных условиях.
Не вызывает сомнений, что для разработки методик выявления лжи в речи необходимы корпусы, содержащие как тексты, созданные в экспериментальных условиях, так и тексты «реального» мира. До настоящего времени не существовало такого корпуса текстов на русском языке. В 2015 году лабораторией корпусной социолингвистики и автороведческих исследований был инициирован сбор корпуса текстов, специально предназначенного для исследования проблемы диагностирования лжи в речи, – Russian Deception Bank [8]. Корпус содержит как «экспериментальные» (Experimental Texts Subcorpus), так и «реальные» тексты (Real Texts Subcorpus) и постоянно пополняется.
Experimental Texts Subcorpus содержит «правдивые» и «ложные» тексты каждого автора (N = 121) – нарративы на тему «Как я провел вчерашний день?» (или любой другой день), а также данные об авторах (пол, возраст, результаты психологического тестирования), что позволит в дальнейшем исследовать, как характеристики личности влияют на особенности продуцирования им «ложного» текста [8]. Ниже приведены примеры «правдивого» и «ложного» текста от одного респондента (орфография и пунктуация автора сохранены) (табл. 1).
Таблица 1.
Примеры текстов корпуса
«Правдивый текст» |
«Ложный» текст |
Эстафета Олимпийского огня в нашем городе. Этот день начинали как любой другой (правда выходной, т.к. была суббота). Утром праздника не ощущалось, у всех было обыденное настроение. За окном была морозная погода, поэтому мало кто хотел выйти на улицу и пойти поддержать эстафету. Ближе к трем-четырем часам дня мы друзьями все-таки решили выйти и посмотреть. Как только мы подошли к месту, где проходил маршрут эстафеты, сразу же почувствовали праздничное настроение. Там было очень много народа. Все радовались, кричали ура! После прохода эстафеты никто не стал расходиться, все последовали за факелоносцами. затем очень многие последовали на главную площадь города. Там проходил праздничный концерт. На площади было очень много народа. И это вcе несмотря на очень морозную погоду. Повсюду была символика олимпиады, что предавало еще больше положительных эмоций. Большинство, кто пришел на площадь в тот день, ждали праздничного фейерверка. Но к сожалению после завершения концерта сказали, что праздничная программа закончена. Салюта люди так и не дождались. Несмотря на это, все ушли довольными и в хорошем настроении. |
День, когда в нашем городе проходила эстафета олимпийского огня начинался как обычно. Друзья уговорили меня пойти посмотреть на эстафету. Когда мы туда пришли, там было много народа, но вскоре почти все разошлись, т.к. на улице было очень холодно. Вслед за факелом отправились очень немногие, но я был в их числе. К вечеру на главной площади собралось много народа. Все ждали праздничный фейерверк. Многие уходили, не дождавшись своей очереди пройти через контроль и зайти на площадь. После того, как закончился концерт, объявили о том, что салюта не будет. Все расходились не в очень хорошем настроении. Погода была не самая лучшая, да и новость о том, что фейерверка не будет людей огорчила. Для многих праздничное настроение не сохранилось до конца вечера. Я пошел домой и для меня этот день закончился, как и любой другой. |
Для выявления статистически значимых различий между ложными и правдивыми текстами на русском языке нами был проведен ряд пилотных исследований. Тексты были размечены при помощи программы Linguistic Inquiry and Word Count с созданными пользовательскими словарями. Авторы анализировали тексты по 104 параметрам (частоты слов разных частей речи, частоты слов, обозначающих те или иные психологические процессы, частотности различных знаков препинания, доли в тексте 20 самых частотных служебных слов русского языка, доли указательных местоимений и наречий, дискурсивных маркеров, местоимений разных разрядов, доля перцептивной лексики в текстах, доля слов, обозначающих эмоции (отдельно – негативные и позитивные) и на основе установленных статистически значимых различий между ложными и правдивыми текстами построили модель для классификации текстов, которая показала точность 68,3 %, причем для текстов мужчин точность составила 73,3 %, а для текстов женщин – 63,3 % [2; 3].
Real Texts Subcorpus содержит транскрипты свободных интервью, которые проводились при приеме на работу с кандидатами на ту или иную должность в одной из крупных российских компаний. Целью интервью было составление психологического портрета кандидата и уточнений фактов его биографии. Речь интервьюера не транскрибировалась. Истинность/ложность текста устанавливалась с использованием полиграфа, а также в ходе дальнейших проверок кандидата. В настоящее время Real Texts Subcorpus содержит тексты 20 лиц и пополняется. Помимо текстов, корпус содержит также данные об авторах – пол, возраст, результаты психологического тестирования, уровень образования и т.д.
В дальнейшем нами планируется апробация построенных на экспериментальном подкорпусе моделей на материале подкорпуса «реальных» текстов, а также расширение списка параметров текстов для анализа. Нами также планируется размещение корпуса в свободном доступе на специально созданном сайте, для того чтобы сделать корпус открытым для других исследовательских групп.
Как представляется, исследования на материале корпуса текстов Russian Deception Bank внесут заметный вклад в развитие лингвистики лжи, лингвокриминалистики, корпусной и компьютерной лингвистики.
Список литературы:
1. Литвинова Т.А. Установление в письменном тексте признаков намеренного искажения информации как од-на из задач судебной лингвистики // Современное право. – 2016. – № 8. – С. 115-118.
2. Литвинова Т.А., Литвинова О.А. Исследование лингвистических характеристик текстов, содержащих наме-ренно искаженную информацию, с помощью программы Linguistic Inquiry and Word Count // Вестник МГОУ. Серия: Лингвистика. – 2015. – № 4. – С. 71-77.
3. Литвинова Т.А., Середин П.В., Литвинова О.А., Лиелль Д.Р. Классификация текстов по признаку «ложный / правдивый» с использованием методов автоматической обработки текстов // Научный диалог. – 2016. – № 10 (58). – С. 70-83.
4. Bond C.F., DePaulo B.M. Accuracy of deception judgments // Personality and Social Psychology Review. – 2006. – Vol. 10, no. 3. – P. 214-234.
5. Burgoon J.K., Blair J.P., Strom R.E. Cognitive biases and nonverbal cue availability in detecting deception // Hu-man Communication Research. – 2008. – Vol. 34, no. 4. – P. 572-599.
6. DePaulo B.M. et al. Cues to deception // Psychological bulletin. – 2003. – Vol. 129, no. 1. – P. 74-118.
7. Lindholm T. Who can judge the accuracy of eyewitness statements? a comparison of professionals and lay-persons // Applied Cognitive Psychology. –2008. – Vol. 22, no. 9. – P. 1301-1314.
8. Litvinova T., Litvinova O. Russian Deception Bank: A Corpus for Au-tomated Deception Detection in Text // A. Horák, K. Pala, P. Rychlý, A. Rambousek (Eds.): Community-based Building of Language Resources (CBBLR 2016). – 2016. – P. 1–7.
9. Vrij А. Detecting lies and deceit: Pitfalls and opportunities. – John Wiley & Sons, 2008.
10. Vrij А. Nonverbal dominance versus verbal accuracy in lie detection a plea to change police practice // Criminal Justice and Behavior. – 2008. – Vol. 35, no. 10. – P. 1323-1336.