NLP ДЛЯ АНАЛИЗА И КЛАССИФИКАЦИИ ПОИСКОВЫХ ЗАПРОСОВ

NATURAL LANGUAGE PROCESSING FOR SEARCH QUERY ANALYSIS AND CLASSIFICATION
Чурилов А.А.
Цитировать:
Чурилов А.А. NLP ДЛЯ АНАЛИЗА И КЛАССИФИКАЦИИ ПОИСКОВЫХ ЗАПРОСОВ // Universum: технические науки : электрон. научн. журн. 2026. 2(143). URL: https://7universum.com/ru/tech/archive/item/22032 (дата обращения: 08.03.2026).
Прочитать статью:

 

АННОТАЦИЯ

В современном цифровом ландшафте поисковые системы служат основным шлюзом к информации. Эффективность и точность этих поисковых систем в значительной степени зависят от их способности понимать человеческий язык. Обработка естественного языка (Natural Language Processing, NLP) зарекомендовала себя как критическая технология, позволяющая поисковым системам интерпретировать запросы пользователей и предоставлять релевантные результаты. Данное исследование рассматривает различные техники NLP, применяемые специально для анализа и классификации поисковых запросов, изучая, как эти методы улучшают релевантность поиска, пользовательский опыт и производительность информационного поиска. Анализ и классификация поисковых запросов представляют уникальные проблемы из-за их типично краткой и часто неоднозначной природы. Исследование охватывает эволюцию от простого сопоставления ключевых слов до глубокого семантического понимания с использованием трансформерных моделей (BERT) и больших языковых моделей (LLM). Рассматриваются методы предварительной обработки запросов, векторные представления, классификация намерений пользователей, а также практические применения в корпоративных системах поиска и разговорном ИИ.

ABSTRACT

In today's digital landscape, search engines serve as the primary gateway to information. The efficiency and accuracy of these search systems heavily depend on their ability to understand human language. Natural Language Processing (NLP) has emerged as a critical technology that enables search engines to interpret user queries and deliver relevant results. This research explores the various NLP techniques specifically applied to search query analysis and classification, examining how these methods improve search relevance, user experience, and information retrieval performance. The analysis and classification of search queries presents unique challenges due to their typically brief and often ambiguous nature. The study covers the evolution from simple keyword matching to deep semantic understanding using transformer models (BERT) and Large Language Models (LLMs). Query preprocessing methods, vector representations, user intent classification, and practical applications in enterprise search systems and conversational AI are examined.

 

Ключевые слова: обработка естественного языка, классификация запросов, поисковые системы, BERT, трансформерные модели, большие языковые модели, семантический поиск, информационный поиск.

Keywords: natural language processing, query classification, search engines, BERT, transformer models, large language models, semantic search, information retrieval.

 

Введение

В современном цифровом ландшафте поисковые системы служат основным шлюзом к информации. Эффективность и точность этих поисковых систем в значительной степени зависят от их способности понимать человеческий язык. Обработка естественного языка (NLP) зарекомендовала себя как критическая технология, позволяющая поисковым системам интерпретировать запросы пользователей и предоставлять релевантные результаты. Данное исследование рассматривает различные техники NLP, применяемые специально для анализа и классификации поисковых запросов, изучая, как эти методы улучшают релевантность поиска, пользовательский опыт и производительность информационного поиска.

Анализ и классификация поисковых запросов представляют уникальные проблемы из-за их типично краткой и часто неоднозначной природы. Пользователи часто используют неполные предложения, коллоквиализмы, делают орфографические ошибки или не обладают словарным запасом для точного описания того, что они ищут. Эффективные поисковые системы должны преодолевать эти ограничения, интерпретируя намерения пользователя, а не просто сопоставляя ключевые слова.

По мере совместной эволюции поисковых технологий и искусственного интеллекта организации все чаще внедряют продвинутые системы поиска и ответов на вопросы, где способность правильно классифицировать пользовательские запросы становится критически важной для предоставления релевантных результатов при одновременной оптимизации вычислительных ресурсов. Данное исследование изучает, как современные подходы NLP трансформируют поисковый опыт, обеспечивая более интуитивный и эффективный информационный поиск, фокусируясь как на устоявшихся техниках, так и на возникающих трендах в этой области.

Понимание NLP в контексте поиска

Эволюция обработки поисковых запросов. Обработка поисковых запросов значительно эволюционировала от простого сопоставления ключевых слов до сложного понимания естественного языка. Ранние поисковые системы опирались преимущественно на булевы операторы и точные совпадения, но современные системы используют NLP для захвата семантического значения и намерений пользователя.

Обработка естественного языка позволяет компьютерам понимать человеческий язык и общаться на нём, объединяя вычислительную лингвистику — моделирование человеческого языка на основе правил — со статистическим моделированием, машинным обучением и глубоким обучением. Эта технологическая эволюция драматически трансформировала то, как поисковые системы интерпретируют пользовательские запросы.

От ранней концептуализации Memex Ванневаром Бушем до разработки Всемирной паутины и алгоритма PageRank поисковые технологии непрерывно эволюционировали вместе с достижениями ИИ, такими как нейронные сети, трансформерные модели и, совсем недавно, большие языковые модели (LLM). Эта совместная эволюция создала плодородную почву для интеграции этих технологий для улучшения уточнения запросов и поискового опыта.

Основные концепции NLP для анализа запросов. Несколько фундаментальных задач NLP формируют основу эффективного анализа запросов:

1. Токенизация и предварительная обработка: разбиение запросов на управляемые единицы (токены) и очистка текста путём удаления ненужных элементов;

2. Разметка частей речи: идентификация грамматических компонентов (существительных, глаголов и т.д.) для понимания структуры запроса;

3. Распознавание именованных сущностей (NER): идентификация слов или фраз как полезных сущностей, например, распознавание 'Лондон' как местоположения или 'Мария' как имени человека;

4. Семантический анализ: понимание значения, стоящего за словами и фразами в контексте;

5. Разрешение многозначности слов: устранение неоднозначности, когда слова имеют несколько возможных значений.

Типы классификаторов запросов в NLP-системах

Классификаторы на основе правил vs. машинного обучения. Классификаторы запросов можно условно разделить на системы на основе правил и модели машинного обучения. Хотя простые системы на основе правил могут классифицировать запросы на основании наличия вопросительных знаков или вопросительных слов, классификаторы машинного обучения могут распознавать более тонкие паттерны, которые различают типы запросов.

Как указывается в исследовании deepset, классификаторы значительно различаются по сложности. Например, можно определить вопросительный знак в запросе как сигнал того, что это вопрос на естественном языке, а не ключевой запрос. Но, вероятно, лучше работать с моделью машинного обучения, которая обучена для этой задачи.

Классификаторы на основе Sklearn. Библиотека scikit-learn (sklearn) предлагает множество моделей машинного обучения, подходящих для задач классификации запросов. Фреймворк Haystack от deepset включает SklearnQueryClassifier, который по умолчанию реализует градиентный бустинг-классификатор, предварительно обученный для различения ключевых и семантических запросов.

Этот подход использует традиционные техники машинного обучения, где текстовые входные данные обычно преобразуются в векторы мешка слов перед классификацией. Преимущество классификаторов на основе sklearn заключается в их относительной простоте и меньших вычислительных требованиях по сравнению с подходами на основе трансформеров.

Классификаторы на основе трансформеров. С появлением трансформерных архитектур возникли более сложные классификаторы запросов. TransformersQueryClassifier в Haystack может использовать различные трансформерные модели, обученные на задачах бинарной классификации. По умолчанию он применяет мини-модель BERT, специально настроенную для обнаружения вопросов.

Эти классификаторы могут улавливать нюансированные лингвистические паттерны: даже без вопросительного знака классификатор все равно распознаёт запрос как вопрос. Это демонстрирует способность классификатора понимать семантическое намерение, а не полагаться на поверхностные признаки.

Ключевые техники NLP для анализа поисковых запросов

Предварительная обработка и нормализация запросов. Перед применением продвинутых техник NLP поисковые запросы проходят предварительную обработку для стандартизации входных данных:

1. Нормализация текста: преобразование текста в нижний регистр, удаление специальных символов и стандартизация форматов;

2. Стемминг и лемматизация: приведение слов к их корневым формам для обработки вариаций. Эти процессы сокращают слова до их корневой формы (например, 'running' становится 'run'), что облегчает анализ языка путём группировки различных форм одного и того же слова;

3. Удаление стоп-слов: фильтрация общих слов, таких как 'is' или 'the', которые добавляют мало семантической ценности к поиску;

4. Исправление орфографии: автоматическая идентификация и исправление слов с ошибками в запросах.

Семантическое понимание и векторные представления. Современные поисковые системы выходят за рамки буквального сопоставления слов, используя семантическое понимание:

1. Векторные представления слов (Word Embeddings): техники, такие как Word2Vec и GloVe, представляют слова как векторы в непрерывном пространстве, захватывая семантические отношения между терминами;

2. Контекстные векторные представления: модели, такие как BERT, учитывают контекст, в котором появляются слова, предоставляя более нюансированные представления значения;

3. Латентный семантический анализ: этот подход использует синтаксический вывод для извлечения значения из слов и интерпретации их значения в структуре предложения, позволяя поисковым системам идентифицировать связанные концепции, даже когда используется различная терминология.

Классификация намерений запроса. Понимание намерения пользователя критически важно для предоставления релевантных результатов поиска:

1. Распознавание намерения: классификация запросов по категориям, таким как информационные, навигационные или транзакционные;

2. Расширение запроса: добавление связанных терминов к исходному запросу для расширения поиска и захвата более релевантных результатов;

3. Статистические подходы NLP: эти методы автоматически извлекают, классифицируют и маркируют элементы текстовых и голосовых данных, а затем назначают статистическую вероятность каждому возможному значению этих элементов.

Стратегии реализации для классификации запросов

Интеграция конвейера в поисковые системы. Классификаторы запросов обычно интегрируются в поисковые конвейеры и конвейеры ответов на вопросы как узлы принятия решений. В архитектуре Haystack эти узлы определяют маршрутизацию запросов через соответствующие ветви обработки. Структура конвейера позволяет условную обработку, где различные типы запросов следуют разными путями через систему.

Как демонстрируется в реализации deepset, для определения того, какой маршрут должен принять наш входной сигнал, мы добавляем узел принятия решения в граф конвейера. Этот узел решает, после просмотра своего входа, на какой маршрут графа отправить запрос.

Обучение и тонкая настройка классификаторов. Хотя предварительно обученные классификаторы можно использовать сразу, многие приложения выигрывают от кастомизированных моделей. Как sklearn, так и классификаторы на основе трансформеров могут быть тонко настроены на доменно-специфичных данных для улучшения точности классификации для конкретных случаев использования.

Для TransformersQueryClassifier разработчики могут выбирать предварительно обученные модели из репозиториев, таких как Hugging Face Model Hub, или тонко настраивать существующие модели на пользовательских датасетах. Эта гибкость позволяет организациям адаптировать классификаторы к их специфическим паттернам запросов и доменной терминологии.

Продвинутые трансформерные модели в анализе поисковых запросов

BERT и релевантность поиска. Внедрение BERT (Bidirectional Encoder Representations from Transformers) революционизировало понимание поисковых запросов. Как отмечается в исследовании, BERT стал и остаётся основой работы поисковой системы Google. Ключевые преимущества BERT включают:

1. Двунаправленный контекст: понимание слов на основе как предшествующего, так и последующего контекста;

2. Обработка длиннохвостых запросов: лучшая обработка необычных или сложных поисковых фраз;

3. Улучшенное ранжирование релевантности: более точное определение того, какие результаты лучше всего соответствуют намерению пользователя.

Трансформерные архитектуры для обработки запросов. Помимо BERT, различные трансформерные модели улучшили анализ поисковых запросов:

1. Модели последовательность-к-последовательности: основанные на рекуррентных нейронных сетях, эти модели использовались для переформулировки запросов и предложений;

2. Авторегрессионные модели: эти трансформерные модели специально обучены для предсказания следующего слова в последовательности, что помогает предвидеть паттерны поиска пользователей и улучшать автодополнение;

3. Механизмы самовнимания: они помогают захватывать зависимости между различными частями запроса, особенно полезные для сложных или многонамеренных поисков.

Кейс-стади: проблемы бинарной классификации в обработке запросов

Ключевые запросы vs. вопросы на естественном языке. Одним из наиболее распространённых применений классификаторов запросов является различение между ключевыми поисками и вопросами на естественном языке. Это различие критически важно, потому что каждый тип запроса выигрывает от различных методов поиска.

Для такого конвейера популярным случаем использования является система, которая принимает запросы как на естественном языке, так и в виде последовательности одного или нескольких ключевых слов. Если вы задаёте вопрос на естественном языке, важно, чтобы система могла правильно его разобрать. С ключевым запросом, с другой стороны, нет синтаксической структуры для расшифровки.

В практических реализациях запросы на естественном языке часто направляются в системы плотного поиска (такие как DensePassageRetriever), которые понимают семантические отношения, в то время как ключевые запросы идут в разреженные ретриверы (такие как ElasticsearchRetriever), которые выполняют прямое сопоставление слов.

Классификация вопросов vs. утверждений. Другим ценным применением является различение вопросов от утверждений. Эта классификация особенно важна для систем разговорного ИИ, где различные типы ответов уместны в зависимости от того, задаёт ли пользователь вопрос или делает утверждение.

Исследование демонстрирует, что классификаторы на основе трансформеров могут точно различать вопросы и утверждения даже в сложных случаях: классификатор правильно классифицирует это как утверждение, а не как вопрос. Семантически вопрос требует ответа для заполнения информационного пробела, поэтому оценка здесь верна.

LLM-методы уточнения запросов

Большие языковые модели (LLM) могут значительно улучшить анализ и уточнение запросов через несколько ключевых техник.

Рекомендации и автодополнение запросов. Когда пользователи начинают вводить запрос, LLM могут анализировать частичный ввод для генерации высоко релевантных предложений, которые предвосхищают намерение пользователя. Эта возможность выходит за рамки традиционных функций автодополнения, используя глубокое контекстуальное понимание.

LLM могут понимать семантическое значение, стоящее за частичными запросами, позволяя им предсказывать намерение пользователя и предлагать релевантные ключевые слова или фразы, которые соответствуют предполагаемому поиску. Кроме того, LLM могут быть тонко настроены на логах поисковых запросов и данных о поведении пользователей для идентификации трендовых ключевых слов или популярных паттернов запросов, гарантируя, что предлагаемые автодополнения отражают текущие интересы и предпочтения пользователей.

Исправление и улучшение запросов. LLM превосходно справляются с идентификацией и исправлением ошибок в пользовательских запросах, значительно улучшая возможности исправления систем поисковых систем. Используя своё понимание языка и способность идентифицировать и исправлять ошибки, LLM могут помогать пользователям в уточнении их запросов, даже когда сталкиваются с орфографическими ошибками, грамматическими ошибками или неправильными вводами.

Эти модели могут распознавать распространённые орфографические и грамматические ошибки в пользовательских запросах и предлагать точные исправления, понимая структуру и синтаксис языка. Это гарантирует, что поисковая система может эффективно обрабатывать запрос и извлекать релевантные результаты, несмотря на начальные ошибки ввода.

Переформулировка запросов. Переформулировка запросов является фундаментальным применением LLM в оптимизации поисковых систем. Через этот процесс LLM трансформируют исходный пользовательский запрос в более эффективную форму, которая может лучше соответствовать релевантным документам.

Внедрение LLM в службы поисковых систем имеет потенциал для усиления процесса переформулировки поисковых запросов, тем самым улучшая пользовательский опыт и релевантность результатов поиска. Эта переформулировка может включать расширение акронимов, добавление синонимов, устранение неоднозначности терминов или реструктуризацию запроса для лучшего соответствия индексированному контенту. Например, запрос вроде 'apple CEO' может быть переформулирован в 'Tim Cook Apple Inc. chief executive officer' для включения релевантных вариаций и дополнительного контекста.

Оптимизация производительности и ресурсов

Выигрыш в вычислительной эффективности. Одним из основных преимуществ классификации запросов является оптимизация ресурсов. Направляя запросы соответствующим образом, системы могут избегать ненужных шагов обработки для определённых типов запросов, значительно снижая вычислительные накладные расходы.

Исследования показывают впечатляющие улучшения эффективности: внутренние тесты показали, что, пропуская модель чтения, ключевой запрос обрабатывается примерно в 80 раз быстрее, чем запрос на естественном языке. Это драматическое улучшение скорости демонстрирует существенную экономию ресурсов, возможную через интеллектуальную классификацию запросов.

Кейс-стади: эффективность обработки запросов в корпоративном поиске. Рассмотрим систему корпоративного поиска, обрабатывающую 10 000 запросов в день, с приблизительно 70% ключевых запросов и 30% вопросов на естественном языке. Без классификации запросов все запросы проходили бы через полный конвейер, включая вычислительно дорогую модель чтения.

С реализованной классификацией запросов: 7000 ключевых запросов × 0,05 секунды = 350 секунд; 3000 запросов на естественном языке × 4 секунды = 12 000 секунд; общее время обработки: 12 350 секунд (приблизительно 3,4 часа).

Без классификации запросов: 10 000 запросов × 4 секунды = 40 000 секунд (приблизительно 11,1 часа).

Реализация классификации запросов приводит к сокращению общего времени обработки на 69%, демонстрируя значительную экономию вычислительных ресурсов при сохранении качества результатов.

Улучшения точности и релевантности. Помимо эффективности, классификация запросов может также улучшить релевантность результатов поиска, применяя наиболее подходящий метод поиска для каждого типа запроса. Вопросы на естественном языке выигрывают от методов плотного поиска, которые понимают семантические отношения, в то время как ключевые поиски могут достигать лучших результатов через подходы точного сопоставления.

Направляя запросы к специализированным путям обработки, системы могут предоставлять более релевантные результаты при минимизации вычислительных затрат — достигая как лучшей производительности, так и большей эффективности.

Практические применения в корпоративных системах

Оптимизация корпоративного поиска. В приложениях корпоративного поиска классификаторы запросов помогают управлять разнообразием поведения пользователей при поиске. Некоторые пользователи могут вводить точные ключевые слова, в то время как другие задают полные вопросы или вступают в разговорный поиск. Классификатор позволяет системе эффективно обрабатывать это разнообразие.

Как отмечается в исследовании, другим распространённым случаем использования был бы корпоративный поиск, построенный поверх Elasticsearch. Включение классификатора запросов позволяет вашей системе принимать более умные решения перед запуском всего конвейера ответов на вопросы.

Разговорный ИИ и чат-боты. Для чат-ботов и систем разговорного ИИ различение вопросов от утверждений является критически важным. Классификаторы запросов могут помочь определить, когда извлекать информацию, а когда генерировать разговорные ответы.

Исследование подчёркивает это применение: представьте, что вы создаёте чат-бота, способного вести беседу и отвечать на вопросы. Вы не хотите, чтобы ваша система искала ответы на не-вопросы. В противном случае конвейер ответов на вопросы запускался бы напрасно — и что ещё хуже, он давал бы ответ там, где он не требовался, делая систему менее убедительной в качестве разговорной.

Электронная коммерция и поиск продуктов. NLP трансформировал то, как потребители находят продукты онлайн:

1. Понимание запросов о продуктах: сопоставление поисков на естественном языке с атрибутами и категориями продуктов;

2. Извлечение атрибутов: идентификация важных характеристик продуктов, упомянутых в поисковых запросах;

3. Сопоставление на основе намерения: различение между исследовательскими запросами и поисками с намерением покупки.

Проблемы и будущие направления

Проблемы неоднозначности и контекста. Поисковые запросы часто содержат неоднозначности, которые бросают вызов даже продвинутым NLP-системам:

1. Неоднозначность запросов: короткие запросы часто не имеют достаточного контекста для точной интерпретации;

2. Проблемы разрешения многозначности слов: определение правильного значения неоднозначных терминов остаётся сложным, поскольку человеческий язык наполнен неоднозначностями, которые затрудняют программистам написание программного обеспечения, точно определяющего предполагаемое значение текста или голосовых данных;

3. Ограничения контекстуального понимания: текущие модели могут испытывать трудности с высоко нюансированным или имплицитным значением.

Обработка специализированной лексики и запросов. Многие поиски включают доменно-специфичную терминологию, которая представляет уникальные проблемы:

1. Доменно-специфичный язык: технические, юридические, медицинские и другие специализированные словари требуют дополнительных обучающих данных или баз знаний;

2. Эволюционирующий язык: как отмечается в исследовании, новые слова постоянно изобретаются или импортируются. Соглашения грамматики могут эволюционировать или намеренно нарушаться, создавая проблемы для NLP-систем;

3. Мультимодальные запросы: всё чаще пользователи комбинируют текст с другими вводами, такими как изображения или голос, требуя более сложных подходов к обработке.

Объяснимость и прозрачность. Одной значительной проблемой является природа 'чёрного ящика' продвинутых моделей, что может затруднить понимание того, как они приходят к определённым классификациям запросов или уточнениям.

LLM часто работают как 'чёрные ящики', что затрудняет понимание того, как они приходят к своим выходам. Этот недостаток объяснимости может быть проблематичным при использовании LLM для усиления поисковых систем, поскольку может быть сложно интерпретировать или доверять результатам.

Будущие исследования должны сфокусироваться на разработке более прозрачных модельных архитектур и техник для объяснения решений классификации. Это может включать разработку моделей, которые могут сформулировать рассуждение, стоящее за их классификациями запросов, или инструменты визуализации, которые иллюстрируют, как принимаются решения.

Смещение и справедливость. Системы классификации и уточнения запросов должны решать потенциальные смещения в том, как они трансформируют и интерпретируют пользовательские запросы. Обеспечение того, чтобы объяснения не распространяли смещения, присутствующие в обучающих данных, или не усиливали несправедливые представления, требует целенаправленных исследований.

Необходимы исследования методов обнаружения и смягчения смещений в классификации и уточнении запросов, гарантируя, что все пользователи получают одинаково высококачественный поисковый опыт независимо от их демографических характеристик или конкретных тем, которые они ищут.

Возникающие тренды: мультимодальная обработка поисковых запросов.

Будущее поиска всё больше включает множество типов ввода:

1. Интеграция голоса и текста: комбинирование голосовых запросов с текстовым анализом для более естественного взаимодействия;

2. Визуально-текстовый поиск: обработка запросов, которые включают как текстовые описания, так и визуальные элементы;

3. Кросс-модальное понимание: как указывается в исследовании, мультимодальный ИИ появляется как значительное достижение, в котором системы могут обрабатывать и коррелировать информацию в различных форматах.

Заключение

Обработка естественного языка фундаментально трансформировала то, как поисковые системы понимают, классифицируют и отвечают на пользовательские запросы. От базовой предварительной обработки до сложных трансформерных моделей и LLM, техники NLP обеспечивают более интуитивный, точный и эффективный поисковый опыт через интеллектуальный анализ и классификацию запросов.

Эволюция от простого сопоставления ключевых слов до глубокого семантического понимания представляет одно из наиболее значительных достижений в технологии информационного поиска. Современные поисковые системы теперь захватывают нюансы, разрешают неоднозначность и понимают намерения пользователя до замечательной степени, хотя проблемы остаются в обработке специализированной лексики, эволюционирующих языковых паттернов и обеспечении этической реализации.

Интеграция классификации запросов в поисковые конвейеры приносит существенные преимущества как в вычислительной эффективности, так и в релевантности результатов. Направляя различные типы запросов через специализированные пути обработки, системы могут оптимизировать использование ресурсов, предоставляя пользователям более подходящие ответы на их специфические информационные потребности.

По мере продолжения развития технологии NLP поисковые системы будут всё больше приближаться к человекоподобному пониманию языка, делая доступ к информации более интуитивным и эффективным для пользователей во всех доменах. Будущие разработки, вероятно, сфокусируются на улучшении объяснимости решений классификации, решении смещений в интерпретации запросов и интеграции возможностей мультимодального понимания, которые могут обрабатывать всё более разнообразные способы, которыми пользователи выражают свои информационные потребности.

 

Список литературы:

  1. IBM. Natural language processing // IBM Think. URL: https://www.ibm.com/think/topics/natural-language-processing (дата обращения: 11.02.2026).
  2. Nguyen I. Save Time and Resources with the Query Classifier for Semantic Search // deepset. 2021. URL: https://www.deepset.ai/blog/save-resources-with-query-classifier-for-neural-search (дата обращения: 11.02.2026).
  3. Xiong H., Bian J., Li Y., Li X., Du M., Wang S., Yin D., Helal S. When Search Engine Services meet Large Language Models: Visions and Challenges // arXiv. 2024. URL: https://arxiv.org/html/2407.00128v1 (дата обращения: 11.02.2026).
  4. Broder A. A taxonomy of web search // ACM SIGIR Forum. 2002. Vol. 36. No. 2. P. 3-10.
  5. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers // Proceedings of NAACL-HLT 2019. 2019. P. 4171-4186.
  6. Jurafsky D., Martin J.H. Speech and Language Processing. 3rd ed. Stanford University, 2020. 640 p.
  7. Manning C.D., Schütze H. Foundations of Statistical Natural Language Processing. MIT Press, 2019. 680 p.
  8. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations // Proceedings of ICLR. 2013. P. 1-12.
  9. Nguyen I. Query classifier for semantic search // deepset Blog. 2021.
  10. Pedregosa F., et al. Scikit-learn: Machine learning in Python // JMLR. 2011. Vol. 12. P. 2825-2830.
  11. Porter M.F. An algorithm for suffix stripping // Program. 2006. Vol. 40. No. 3. P. 211-218.
  12. Sutskever I., Vinyals O., Le Q.V. Sequence to sequence learning // NIPS. 2014. Vol. 27. P. 3104-3112.
  13. Vaswani A., et al. Attention is all you need // NIPS. 2017. Vol. 30. P. 5998-6008.
  14. Wolf T., et al. Transformers: State-of-the-art NLP // EMNLP. 2020. P. 38-45.
  15. Xiong H., et al. Search engines meet LLMs // arXiv. 2024. arXiv:2407.00128.
  16. Zhao W.X., et al. Dense text retrieval survey // ACM TOIS. 2024. Vol. 42. No. 4. P. 1-60.
  17. Zhang Y., Lease M. Word embedding learning for NLP // IEEE Trans. 2021. Vol. 29. P. 1566-1578.
  18. Zhu Y., et al. Aligning books and movies // ICCV. 2015. P. 19-27.
Информация об авторах

генеральный директор, ООО "Айсео", РФ, г. Москва

CEO of ISEO LLC, Russia, Moscow

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Звездина Марина Юрьевна.
Top