Google: URL-адреса, проиндексированные несмотря на robots.txt, в конечном итоге выпадут из индекса

Проиндексированные URL-адреса, заблокированные с помощью файла robots.txt, в конечном итоге будут удалены из индекса Google. Это важно, например, когда с помощью файла robots.txt одновременно исключается большое количество URL-адресов. Реклама Рекомендация действительно применима: если вы хотите удалить URL-адреса из индекса Google и установить для них значение «noindex», тогда эти URL-адреса должны быть доступны для сканирования и не должны блокироваться с помощью файла robots.txt.

В противном случае Google не сможет распознать «noindex» на страницах. Но что, если вы хотите заблокировать большое количество проиндексированных URL-адресов с помощью файла robots.txt, чтобы сэкономить бюджет сканирования? В этом случае вы можете подождать, пока Google в какой-то момент удалит соответствующие URL-адреса из индекса. Гэри Иллис объяснил это в LinkedIn в связи с рекомендациями Google по фасетной навигации на веб-сайтах.

Он ответил на вопрос, что произойдет, если вы последуете этим рекомендациям, а затем в индексе появятся миллионы URL-адресов, заблокированных файлом robots.txt. Иллиес написал, что URL-адреса в конечном итоге выпадут из индекса, если системы Google сочтут их бесполезными.

Он также попросил примеры и рекомендовал напрямую написать Джону Мюллеру и задать вопросы. Как правило, Google не отображает проиндексированные URL-адреса, заблокированные файлом robots.txt, в обычных поисковых запросах, а только тогда, когда для этих URL-адресов выполняется конкретный поиск с использованием «site:». Джон Мюллер уже отмечал в сентябре, что URL-адреса, заблокированные в индексе с помощью файла robots.txt, обычно не являются проблемой.