1. Блог Inweb
  2. Ask Inweb
  3. SEO
  4. Проиндексировано, несмотря на блокировку в файле robots.txt

Проиндексировано, несмотря на блокировку в файле robots.txt

5

ответов

Дата вопроса: 05.11.2018, 19:01

В новой версии инструментов для вебмастеров от гугла есть раздел «Проиндексировано, несмотря на блокировку в файле robots.txt» и там указано более 500 страниц.

Проиндексировано, несмотря на блокировку в файле robots.txt

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

 

Автор: John

Просмотров: 324

Категория:

SEO

Оцените вопрос

Рекомендуйте нас друзьям

Частный ответ

Рейтинг автора

36

Дано ответов

23

Влад Наумов
4
Рейтинг ответа

Влад Наумов

Head of SEO

Добрый вечер, спасибо за интересный вопрос.

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.

В новой Search Console появился очень интересный и полезный отчет «Проиндексировано, несмотря на блокировку в файле robots.txt», который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.

Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.

Следовательно данную проблему необходимо решить следующим образом:

  1. Убрать из файла Robots.txt директивы, которые запрещают сканирование указанных в отчете url-адресов.
  2. Закрыть от индексации все некачественные url-адреса при помощи мета тега robots либо http заголовка X-Robots-Tag.

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Дата сообщения: 05.11.2018, 19:20

    4 комментария

    Иван Сеньковский

    Здравствуйте!

    А как насчет третьего варианта? rel="canonical"

    Дата сообщения: 22.11.2018, 12:57

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день.Этот вариант также содержит в себе проблемы. В случае если страницы значительно отличаются друг от друга то данный тег не склеит страницы. Более подробно я расписывал почему в соседнем вопросе — https://inweb.ua/blog/answers/27/

    Дата сообщения: 22.11.2018, 17:40

    Евгений Лысенко

    Добрый день. Подскажите, пожалуйста, а если в файле robots.txt закрыт от индексации «feed», но вот страницы с урлом feed лезут в этот отчет в Search Console, это нормально, или нужно как-то решать данный вопрос?

    Дата сообщения: 23.12.2018, 15:36

    Влад Наумов

    Влад Наумов

    Head of SEO

    Как я понимаю, у Вас wordpress и есть множество страниц с фрагментом /feed в конце url-адреса.

    Тут подойдет только 2 варианта решения проблемы:Прописать 301 редирект со всех таких страниц на соответствующую страницу без такого фрагмента. Можно сделать на WP при помощи плагина Clearfy pro.

    Закрыть данный фрагмент от индексации при помощи X-robots-Tag.

    Закрыть от индексации страницы с /feed в конце url-адреса для WP нет возможности, так как эти страницы не являются html.Это обязательно нужно сделать, в противном случае поисковая система будет учитывать такие страницы сайта при ранжировании, так как они проиндексированы и не являются качественными документами.

    Дата сообщения: 04.01.2019, 09:44

    Для того чтобы оставить вопрос или комментарий, необходимо войти используя свой аккаунт одной из социальных сетей.