Google запускает новую эпоху голосового поиска

Google объявил об обновлении своего голосового поиска, которое меняет способ обработки и ранжирования голосовых запросов. Новая модель ИИ использует речь в качестве входных данных для поиска и ранжирования, полностью минуя этап преобразования голоса в текст.

Google запускает новую эпоху голосового поиска

Google объявил об обновлении своего голосового поиска, которое меняет способ обработки и ранжирования голосовых запросов. Новая модель ИИ использует речь в качестве входных данных для поиска и ранжирования, полностью минуя этап преобразования голоса в текст.

Старая система: Cascade ASR

Ранее использовалась система под названием Cascade ASR, при которой голосовой запрос сначала преобразовывался в текст, а затем проходил обычный процесс ранжирования. Проблема этого метода заключалась в том, что он подвержен ошибкам: при преобразовании аудио в текст могут теряться контекстуальные подсказки, что приводит к неточностям.

Новая система: Speech-to-Retrieval (S2R)

Новая система называется Speech-to-Retrieval (S2R). Это нейросетевая модель машинного обучения, обученная на больших наборах данных, содержащих пары: аудиозапросы и соответствующие документы. Благодаря такому обучению система может обрабатывать устные поисковые запросы (без их преобразования в текст) и напрямую сопоставлять их с релевантными документами.

Двойной энкодер: две нейронные сети

Система использует две нейронные сети:

Оба энкодера обучаются совместно, чтобы отображать устные запросы и текстовые документы в общее семантическое пространство, где связанные аудиозапросы и документы оказываются близко друг к другу по семантическому сходству.

Аудио-энкодер

Speech-to-Retrieval (S2R) принимает аудиозапись голосового запроса и преобразует её в вектор (набор чисел), представляющий смысл того, о чём спрашивает пользователь.

Например, фраза «картина Крик» превращается в точку в векторном пространстве, расположенную рядом с информацией о картине Эдварда Мунка «Крик» (например, о музее, где она хранится).

Энкодер документов

Энкодер документов выполняет аналогичную операцию с текстовыми документами, такими как веб-страницы, превращая их в векторы, отражающие их содержание.

В процессе обучения оба энкодера настраиваются так, чтобы векторы соответствующих аудиозапросов и документов оказывались близко друг к другу, а несвязанные — далеко друг от друга в векторном пространстве.

Богатые векторные представления

Google отмечает, что энкодеры преобразуют аудио и текст в «богатые векторные представления». Такие представления кодируют смысл и контекст, а не просто слова. Именно поэтому они называются «богатыми» — они содержат намерение и контекст запроса.

Для S2R это означает, что система не полагается на точное совпадение ключевых слов, а «понимает» концептуально, о чём спрашивает пользователь. Например, даже если кто-то скажет «покажи картину Мунка с кричащим лицом», векторное представление этого запроса всё равно окажется рядом с документами о «Крике».

«Ключ к этой модели — в том, как она обучается. Используя большой набор данных пар аудиозапросов и релевантных документов, система учится одновременно настраивать параметры обоих энкодеров. Цель обучения — обеспечить геометрическую близость вектора аудиозапроса и векторов соответствующих документов в пространстве представлений. Такая архитектура позволяет модели учиться чему-то более близкому к истинному намерению, необходимому для поиска, напрямую из аудио, минуя хрупкий промежуточный этап транскрибации каждого слова — главный недостаток каскадного подхода».

Этап ранжирования

У S2R есть собственный процесс ранжирования, как и у обычного текстового поиска. Когда пользователь произносит запрос, аудио сначала обрабатывается предварительно обученным аудио-энкодером, который преобразует его в числовую форму (вектор), отражающую смысл запроса. Затем этот вектор сравнивается с индексом Google для поиска страниц, чьи значения наиболее близки к устному запросу.

Например, если кто-то говорит «картина Крик», модель превращает эту фразу в вектор, представляющий её смысл. Система затем просматривает свой индекс документов и находит страницы с близкими векторами, например, информацию о «Крике» Эдварда Мунка.

После того как потенциально релевантные совпадения найдены, включается отдельный этап ранжирования. На этом этапе система объединяет оценки сходства из первого этапа с сотнями других сигналов релевантности и качества, чтобы определить, какие страницы должны быть показаны первыми.

Тестирование

Google протестировал новую систему против Cascade ASR и против идеальной версии Cascade ASR под названием Cascade Groundtruth. S2R превзошёл Cascade ASR и почти достиг уровня Cascade Groundtruth. Google пришёл к выводу, что результаты обнадёживают, но ещё есть место для улучшений.

Голосовой поиск уже работает

Несмотря на то, что тестирование показало наличие возможностей для дальнейшего улучшения, Google объявил, что новая система уже запущена и используется на нескольких языках, включая английский. Компания называет это началом новой эры поиска.

«Голосовой поиск теперь работает на нашем новом движке Speech-to-Retrieval, который получает ответы напрямую из вашего устного запроса, не преобразуя его сначала в текст, что делает поиск быстрее и надёжнее для всех».




Комментарии

Добавить коммментарий...
VoiceGuru23 22 октября 2025, 08:17

Наконец-то! Speech-to-Retrieval — это прорыв. Больше никаких косяков из-за неправильной транскрибации 😤

SEO_Мастер 22 октября 2025, 08:32

А как теперь оптимизировать под голосовой поиск? Раньше хотя бы понятно было — длинные ключи, вопросы... А теперь всё через векторы? 🤔

TechNerd_ru 22 октября 2025, 08:45

Это же просто переупакованный semantic search, только с аудио на входе. Ничего нового, ребята. Speech-to-Retrieval — просто модное название.

AlexeiK 22 октября 2025, 09:03

@TechNerd_ru неа, тут принципиально иначе — прямой поиск по речи без текста. Это реально новая эпоха голосового поиска.

Marina_SEO 22 октября 2025, 09:21

Кто-нибудь уже пробовал подбирать ключи под "богатые векторные представления"? Или всё это пока теория?

botanik88 22 октября 2025, 10:05

Я читал оригинал от Google — S2R почти достиг идеального результата (Cascade Groundtruth). Так что да, это серьёзно. Особенно для мультимодальных запросов.

VoiceGuru23 22 октября 2025, 10:18

@Marina_SEO думаю, теперь главное — писать максимально естественно и отвечать на намерения, а не на слова. Контекст решает всё!

DimaFromMsk 22 октября 2025, 11:30

А если я говорю с акцентом? Система всё равно поймёт "Крик" Мунка или опять отправит в IKEA? 😅

SEO_Мастер 22 октября 2025, 12:02

Надо срочно перестраивать стратегию под новый голосовой поиск. Особенно если он уже в продакшене на нескольких языках.

neuro_seo 22 октября 2025, 12:45

Основные SEO-фразы теперь: «новая эпоха голосового поиска», «Speech-to-Retrieval», «богатые векторные представления», «прямой поиск по речи». Кто со мной?

TechNerd_ru 22 октября 2025, 13:10

@neuro_seo ну ты и маркетолог 😂 А по факту — да, «прямой поиск по речи» звучит круче, чем "голосовой поиск 2.0".

AlexeiK 22 октября 2025, 14:22

Кстати, а как быть с диалектами и сленгом? Векторы это учитывают? Или опять только литературная речь?

Marina_SEO 22 октября 2025, 15:01

@AlexeiK в статье сказано, что система учится на парах "аудио + документ", так что если таких данных много — да, учтёт. Главное, чтобы контент был качественный.

VoiceGuru23 22 октября 2025, 15:37

Вот именно! Теперь не надо думать о ключах, а надо думать о том, чтобы контент максимально точно отражал суть. Это и есть основа богатых векторных представлений.

botanik88 22 октября 2025, 16:14

Интересно, как это повлияет на featured snippets? Ведь теперь голосовой поиск может брать ответы напрямую из векторов, минуя HTML-разметку.




Добавить комментарий: