Google запускает новую эпоху голосового поиска

Google объявил об обновлении своего голосового поиска, которое меняет способ обработки и ранжирования голосовых запросов. Новая модель ИИ использует речь в качестве входных данных для поиска и ранжирования, полностью минуя этап преобразования голоса в текст.

Старая система: Cascade ASR

Ранее использовалась система под названием Cascade ASR, при которой голосовой запрос сначала преобразовывался в текст, а затем проходил обычный процесс ранжирования. Проблема этого метода заключалась в том, что он подвержен ошибкам: при преобразовании аудио в текст могут теряться контекстуальные подсказки, что приводит к неточностям.

Новая система: Speech-to-Retrieval (S2R)

Новая система называется Speech-to-Retrieval (S2R). Это нейросетевая модель машинного обучения, обученная на больших наборах данных, содержащих пары: аудиозапросы и соответствующие документы. Благодаря такому обучению система может обрабатывать устные поисковые запросы (без их преобразования в текст) и напрямую сопоставлять их с релевантными документами.

Двойной энкодер: две нейронные сети

Система использует две нейронные сети:

Одна из них, называемая аудио-энкодером, преобразует устные запросы в векторное представление их смысла.
Вторая сеть, энкодер документов, представляет письменную информацию в том же векторном формате.

Оба энкодера обучаются совместно, чтобы отображать устные запросы и текстовые документы в общее семантическое пространство, где связанные аудиозапросы и документы оказываются близко друг к другу по семантическому сходству.

Аудио-энкодер

Speech-to-Retrieval (S2R) принимает аудиозапись голосового запроса и преобразует её в вектор (набор чисел), представляющий смысл того, о чём спрашивает пользователь.

Например, фраза «картина Крик» превращается в точку в векторном пространстве, расположенную рядом с информацией о картине Эдварда Мунка «Крик» (например, о музее, где она хранится).

Энкодер документов

Энкодер документов выполняет аналогичную операцию с текстовыми документами, такими как веб-страницы, превращая их в векторы, отражающие их содержание.

В процессе обучения оба энкодера настраиваются так, чтобы векторы соответствующих аудиозапросов и документов оказывались близко друг к другу, а несвязанные — далеко друг от друга в векторном пространстве.

Богатые векторные представления

Google отмечает, что энкодеры преобразуют аудио и текст в «богатые векторные представления». Такие представления кодируют смысл и контекст, а не просто слова. Именно поэтому они называются «богатыми» — они содержат намерение и контекст запроса.

Для S2R это означает, что система не полагается на точное совпадение ключевых слов, а «понимает» концептуально, о чём спрашивает пользователь. Например, даже если кто-то скажет «покажи картину Мунка с кричащим лицом», векторное представление этого запроса всё равно окажется рядом с документами о «Крике».

«Ключ к этой модели — в том, как она обучается. Используя большой набор данных пар аудиозапросов и релевантных документов, система учится одновременно настраивать параметры обоих энкодеров. Цель обучения — обеспечить геометрическую близость вектора аудиозапроса и векторов соответствующих документов в пространстве представлений. Такая архитектура позволяет модели учиться чему-то более близкому к истинному намерению, необходимому для поиска, напрямую из аудио, минуя хрупкий промежуточный этап транскрибации каждого слова — главный недостаток каскадного подхода».

Этап ранжирования

У S2R есть собственный процесс ранжирования, как и у обычного текстового поиска. Когда пользователь произносит запрос, аудио сначала обрабатывается предварительно обученным аудио-энкодером, который преобразует его в числовую форму (вектор), отражающую смысл запроса. Затем этот вектор сравнивается с индексом Google для поиска страниц, чьи значения наиболее близки к устному запросу.

Например, если кто-то говорит «картина Крик», модель превращает эту фразу в вектор, представляющий её смысл. Система затем просматривает свой индекс документов и находит страницы с близкими векторами, например, информацию о «Крике» Эдварда Мунка.

После того как потенциально релевантные совпадения найдены, включается отдельный этап ранжирования. На этом этапе система объединяет оценки сходства из первого этапа с сотнями других сигналов релевантности и качества, чтобы определить, какие страницы должны быть показаны первыми.

Тестирование

Google протестировал новую систему против Cascade ASR и против идеальной версии Cascade ASR под названием Cascade Groundtruth. S2R превзошёл Cascade ASR и почти достиг уровня Cascade Groundtruth. Google пришёл к выводу, что результаты обнадёживают, но ещё есть место для улучшений.

Голосовой поиск уже работает

Несмотря на то, что тестирование показало наличие возможностей для дальнейшего улучшения, Google объявил, что новая система уже запущена и используется на нескольких языках, включая английский. Компания называет это началом новой эры поиска.

«Голосовой поиск теперь работает на нашем новом движке Speech-to-Retrieval, который получает ответы напрямую из вашего устного запроса, не преобразуя его сначала в текст, что делает поиск быстрее и надёжнее для всех».