Google объявил об обновлении своего голосового поиска, которое меняет способ обработки и ранжирования голосовых запросов. Новая модель ИИ использует речь в качестве входных данных для поиска и ранжирования, полностью минуя этап преобразования голоса в текст.
Старая система: Cascade ASR
Ранее использовалась система под названием Cascade ASR, при которой голосовой запрос сначала преобразовывался в текст, а затем проходил обычный процесс ранжирования. Проблема этого метода заключалась в том, что он подвержен ошибкам: при преобразовании аудио в текст могут теряться контекстуальные подсказки, что приводит к неточностям.
Новая система: Speech-to-Retrieval (S2R)
Новая система называется Speech-to-Retrieval (S2R). Это нейросетевая модель машинного обучения, обученная на больших наборах данных, содержащих пары: аудиозапросы и соответствующие документы. Благодаря такому обучению система может обрабатывать устные поисковые запросы (без их преобразования в текст) и напрямую сопоставлять их с релевантными документами.
Двойной энкодер: две нейронные сети
Система использует две нейронные сети:
- Одна из них, называемая аудио-энкодером, преобразует устные запросы в векторное представление их смысла.
- Вторая сеть, энкодер документов, представляет письменную информацию в том же векторном формате.
Оба энкодера обучаются совместно, чтобы отображать устные запросы и текстовые документы в общее семантическое пространство, где связанные аудиозапросы и документы оказываются близко друг к другу по семантическому сходству.
Аудио-энкодер
Speech-to-Retrieval (S2R) принимает аудиозапись голосового запроса и преобразует её в вектор (набор чисел), представляющий смысл того, о чём спрашивает пользователь.
Например, фраза «картина Крик» превращается в точку в векторном пространстве, расположенную рядом с информацией о картине Эдварда Мунка «Крик» (например, о музее, где она хранится).
Энкодер документов
Энкодер документов выполняет аналогичную операцию с текстовыми документами, такими как веб-страницы, превращая их в векторы, отражающие их содержание.
В процессе обучения оба энкодера настраиваются так, чтобы векторы соответствующих аудиозапросов и документов оказывались близко друг к другу, а несвязанные — далеко друг от друга в векторном пространстве.
Богатые векторные представления
Google отмечает, что энкодеры преобразуют аудио и текст в «богатые векторные представления». Такие представления кодируют смысл и контекст, а не просто слова. Именно поэтому они называются «богатыми» — они содержат намерение и контекст запроса.
Для S2R это означает, что система не полагается на точное совпадение ключевых слов, а «понимает» концептуально, о чём спрашивает пользователь. Например, даже если кто-то скажет «покажи картину Мунка с кричащим лицом», векторное представление этого запроса всё равно окажется рядом с документами о «Крике».
«Ключ к этой модели — в том, как она обучается. Используя большой набор данных пар аудиозапросов и релевантных документов, система учится одновременно настраивать параметры обоих энкодеров. Цель обучения — обеспечить геометрическую близость вектора аудиозапроса и векторов соответствующих документов в пространстве представлений. Такая архитектура позволяет модели учиться чему-то более близкому к истинному намерению, необходимому для поиска, напрямую из аудио, минуя хрупкий промежуточный этап транскрибации каждого слова — главный недостаток каскадного подхода».
Этап ранжирования
У S2R есть собственный процесс ранжирования, как и у обычного текстового поиска. Когда пользователь произносит запрос, аудио сначала обрабатывается предварительно обученным аудио-энкодером, который преобразует его в числовую форму (вектор), отражающую смысл запроса. Затем этот вектор сравнивается с индексом Google для поиска страниц, чьи значения наиболее близки к устному запросу.
Например, если кто-то говорит «картина Крик», модель превращает эту фразу в вектор, представляющий её смысл. Система затем просматривает свой индекс документов и находит страницы с близкими векторами, например, информацию о «Крике» Эдварда Мунка.
После того как потенциально релевантные совпадения найдены, включается отдельный этап ранжирования. На этом этапе система объединяет оценки сходства из первого этапа с сотнями других сигналов релевантности и качества, чтобы определить, какие страницы должны быть показаны первыми.
Тестирование
Google протестировал новую систему против Cascade ASR и против идеальной версии Cascade ASR под названием Cascade Groundtruth. S2R превзошёл Cascade ASR и почти достиг уровня Cascade Groundtruth. Google пришёл к выводу, что результаты обнадёживают, но ещё есть место для улучшений.
Голосовой поиск уже работает
Несмотря на то, что тестирование показало наличие возможностей для дальнейшего улучшения, Google объявил, что новая система уже запущена и используется на нескольких языках, включая английский. Компания называет это началом новой эры поиска.
«Голосовой поиск теперь работает на нашем новом движке Speech-to-Retrieval, который получает ответы напрямую из вашего устного запроса, не преобразуя его сначала в текст, что делает поиск быстрее и надёжнее для всех».
Комментарии
Добавить коммментарий...Наконец-то! Speech-to-Retrieval — это прорыв. Больше никаких косяков из-за неправильной транскрибации 😤
А как теперь оптимизировать под голосовой поиск? Раньше хотя бы понятно было — длинные ключи, вопросы... А теперь всё через векторы? 🤔
Это же просто переупакованный semantic search, только с аудио на входе. Ничего нового, ребята. Speech-to-Retrieval — просто модное название.
@TechNerd_ru неа, тут принципиально иначе — прямой поиск по речи без текста. Это реально новая эпоха голосового поиска.
Кто-нибудь уже пробовал подбирать ключи под "богатые векторные представления"? Или всё это пока теория?
Я читал оригинал от Google — S2R почти достиг идеального результата (Cascade Groundtruth). Так что да, это серьёзно. Особенно для мультимодальных запросов.
@Marina_SEO думаю, теперь главное — писать максимально естественно и отвечать на намерения, а не на слова. Контекст решает всё!
А если я говорю с акцентом? Система всё равно поймёт "Крик" Мунка или опять отправит в IKEA? 😅
Надо срочно перестраивать стратегию под новый голосовой поиск. Особенно если он уже в продакшене на нескольких языках.
Основные SEO-фразы теперь: «новая эпоха голосового поиска», «Speech-to-Retrieval», «богатые векторные представления», «прямой поиск по речи». Кто со мной?
@neuro_seo ну ты и маркетолог 😂 А по факту — да, «прямой поиск по речи» звучит круче, чем "голосовой поиск 2.0".
Кстати, а как быть с диалектами и сленгом? Векторы это учитывают? Или опять только литературная речь?
@AlexeiK в статье сказано, что система учится на парах "аудио + документ", так что если таких данных много — да, учтёт. Главное, чтобы контент был качественный.
Вот именно! Теперь не надо думать о ключах, а надо думать о том, чтобы контент максимально точно отражал суть. Это и есть основа богатых векторных представлений.
Интересно, как это повлияет на featured snippets? Ведь теперь голосовой поиск может брать ответы напрямую из векторов, минуя HTML-разметку.
Добавить комментарий: