Проиндексировано, несмотря на блокировку в файле robots.txt

Question

В новой версии инструментов для вебмастеров от гугла есть раздел &#171;Проиндексировано, несмотря на блокировку в файле robots.txt&#187; и там указано более 500 страниц.

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

Влад Наумов · Accepted Answer

Добрый вечер, спасибо за интересный вопрос.
Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.
Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.
Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.
В новой Search Console появился очень интересный и полезный отчет &#171;Проиндексировано, несмотря на блокировку в файле robots.txt&#187;, который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.
Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.
Следовательно данную проблему необходимо решить следующим образом:

Убрать из файла Robots.txt директивы, которые запрещают сканирование указанных в отчете url-адресов.
Закрыть от индексации все некачественные url-адреса при помощи мета тега robots либо http заголовка X-Robots-Tag.

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Проиндексировано, несмотря на блокировку в файле robots.txt

Похожие вопросы