Google объясняет, как CDN влияют на сканирование и SEO

Google опубликовал объяснение, в котором рассказывается, как сети доставки контента (CDN) влияют на сканирование поиска и улучшают SEO, а также как они иногда могут вызывать проблемы. Что такое CDN? Сеть доставки контента (CDN) — это служба, которая кэширует веб-страницу и отображает ее из центра обработки данных, ближайшего к браузеру, запрашивающему эту веб-страницу.

Google объясняет, как CDN влияют на сканирование и SEO

Google опубликовал объяснение, в котором рассказывается, как сети доставки контента (CDN) влияют на сканирование поиска и улучшают SEO, а также как они иногда могут вызывать проблемы. Что такое CDN? Сеть доставки контента (CDN) — это служба, которая кэширует веб-страницу и отображает ее из центра обработки данных, ближайшего к браузеру, запрашивающему эту веб-страницу.

Кэширование веб-страницы означает, что CDN создает копию веб-страницы и сохраняет ее. Это ускоряет доставку веб-страницы, поскольку теперь она обслуживается с сервера, который находится ближе к посетителю сайта, что требует меньше «прыжков» через Интернет от исходного сервера до места назначения (браузера посетителя сайта). Одним из преимуществ использования CDN является то, что Google автоматически увеличивает скорость сканирования , когда обнаруживает, что веб-страницы обслуживаются из CDN.

Это делает использование CDN привлекательным для оптимизаторов и издателей, которые обеспокоены увеличением количества страниц, сканируемых роботом Googlebot. Обычно робот Googlebot уменьшает объем сканирования с сервера, если обнаруживает, что он достигает определенного порога, из-за которого сервер замедляется. Робот Google замедляет скорость сканирования, что называется регулированием. Этот порог «регулирования» выше при обнаружении CDN, что приводит к сканированию большего количества страниц . При обслуживании страниц из CDN следует понимать, что при первом обслуживании страниц они должны обслуживаться непосредственно с вашего сервера. Google использует пример сайта с более чем миллионом веб-страниц: «Однако при первом доступе к URL-адресу кеш CDN является «холодным», что означает, что, поскольку никто еще не запрашивал этот URL-адрес, его содержимое еще не было кэшировано CDN, поэтому вашему исходному серверу все равно придется обслуживать этот URL-адрес. хотя бы один раз, чтобы «разогреть» кеш CDN.

Это очень похоже на то, как работает HTTP-кеширование. Короче говоря, даже если ваш интернет-магазин поддерживается CDN, вашему серверу необходимо будет обслуживать эти 1 000 007 URL-адресов хотя бы один раз. Только после этого первоначального обслуживания ваш CDN сможет помочь вам со своими кешами. Это значительная нагрузка на ваш «бюджет сканирования», и скорость сканирования, вероятно, будет высокой в течение нескольких дней; имейте это в виду, если планируете запускать множество URL-адресов одновременно». Использование CDN приводит к обратным последствиям для сканирования Google сообщает, что бывают случаи, когда CDN может поместить Googlebot в черный список и впоследствии заблокировать сканирование. Этот эффект описывается как два вида блоков: 1. Жесткие блоки 2. Мягкие блоки Жесткие блокировки происходят, когда CDN отвечает, что произошла ошибка сервера. Неверный ответ об ошибке сервера может иметь код 500 (внутренняя ошибка сервера), который сигнализирует о серьезной проблеме с сервером. Еще один неверный ответ на ошибку сервера — 502 (плохой шлюз). Оба этих ответа на ошибку сервера заставят робота Google замедлить скорость сканирования. Проиндексированные URL-адреса сохраняются внутри Google, но продолжающиеся ответы 500/502 могут привести к тому, что Google в конечном итоге удалит URL-адреса из поискового индекса.

Предпочтительным ответом является код 503 (служба недоступна), что указывает на временную ошибку. Еще один сложный блок, на который следует обратить внимание, — это то, что Google называет «случайными ошибками», когда сервер отправляет код ответа 200, что означает, что ответ был хорошим (даже несмотря на то, что он обслуживает страницу с ошибкой с этим ответом 200). Google интерпретирует эти страницы с ошибками как дубликаты и удалит их из поискового индекса. Это большая проблема, поскольку восстановление после такого рода ошибок может занять время.

Мягкая блокировка может произойти, если CDN отобразит один из вопросов «Вы человек?» всплывающие окна (межстраничные объявления бота) для робота Googlebot. Межстраничные объявления с ботами должны отправить ответ сервера 503, чтобы Google знал, что это временная проблема. Новая документация Google объясняет: «…когда появляется вставка, они видят только это, а не ваш потрясающий сайт. В случае таких межстраничных объявлений для проверки ботов мы настоятельно рекомендуем отправлять четкий сигнал в виде кода состояния HTTP 503 автоматическим клиентам, таким как сканеры, о том, что контент временно недоступен.

Это гарантирует, что контент не будет удален из индекса Google автоматически». См. также: 9 советов по оптимизации бюджета сканирования для SEO Проблемы отладки с помощью инструмента проверки URL-адресов и элементов управления WAF Google рекомендует использовать инструмент проверки URL-адресов в консоли поиска, чтобы увидеть, как CDN обслуживает ваши веб-страницы. Если брандмауэр CDN, называемый брандмауэром веб-приложений (WAF), блокирует робота Googlebot по IP-адресу, вы сможете проверить заблокированные IP-адреса и сравнить их с официальным списком IP-адресов Google, чтобы узнать, есть ли один из них в списке.

Google предлагает следующие советы по отладке на уровне CDN: «Если вам нужно, чтобы ваш сайт отображался в поисковых системах, мы настоятельно рекомендуем проверить, могут ли сканеры, которые вам интересны, получить доступ к вашему сайту. Помните, что IP-адреса могут оказаться в черном списке автоматически, без вашего ведома, поэтому время от времени проверять черные списки — хорошая идея для успеха вашего сайта в поиске и за его пределами. Если черный список очень длинный (как в этом сообщении в блоге), попробуйте поискать только первые несколько сегментов диапазонов IP-адресов, например, вместо поиска 192.168.0.101 вы можете просто искать 192.168».