1. Блог Inweb
  2. Ask Inweb
  3. SEO
  4. Проиндексировано, несмотря на блокировку в файле robots.txt

Проиндексировано, несмотря на блокировку в файле robots.txt

13

ответов

Дата вопроса: 05.11.2018, 19:01

В новой версии инструментов для вебмастеров от гугла есть раздел «Проиндексировано, несмотря на блокировку в файле robots.txt» и там указано более 500 страниц.

Проиндексировано, несмотря на блокировку в файле robots.txt

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

 

Автор: John

Просмотров: 1092

Категория:

SEO

Оцените вопрос

Рекомендуйте нас друзьям

2 комментария

ARSales

Добрый день! Что это такое? Объясните пожалуйста. Перечитал все форумы но решения не могу найти. Плагин Clearfy Pro установлен. Тоже пишет Гугл: Проиндексировано, несмотря на блокировку в файле robots.txt https://drive.google.com/open?id=1NIdwOfH5WVDXT1JJ4-YFWuhka9oAU1_8 https://drive.google.com/open?id=1y3tdpLBwQOGTZZS3sCWfUP6jnMb_JT7e

Дата сообщения: 30.01.2019, 10:05

Влад Наумов

Влад Наумов

Head of SEO

Добрый день, ARSales.

В данном случае необходимо удалить из файла Robots.txt директивы:
Disallow: /?s=
Disallow: /*?

А на всех мусорных страницах, которые Вы закрывали при помощи данной директивы прописать мета тег meta name="robots" content="noindex, follow".

Дата сообщения: 01.02.2019, 16:32

Частный ответ

Рейтинг автора

53

Дано ответов

46

Влад Наумов
6
Рейтинг ответа

Влад Наумов

Head of SEO

Добрый вечер, спасибо за интересный вопрос.

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.

В новой Search Console появился очень интересный и полезный отчет «Проиндексировано, несмотря на блокировку в файле robots.txt», который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.

Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.

Следовательно данную проблему необходимо решить следующим образом:

  1. Убрать из файла Robots.txt директивы, которые запрещают сканирование указанных в отчете url-адресов.
  2. Закрыть от индексации все некачественные url-адреса при помощи мета тега robots либо http заголовка X-Robots-Tag.

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Дата сообщения: 05.11.2018, 19:20

    10 комментариев

    Иван Сеньковский

    Здравствуйте!

    А как насчет третьего варианта? rel="canonical"

    Дата сообщения: 22.11.2018, 12:57

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день.Этот вариант также содержит в себе проблемы. В случае если страницы значительно отличаются друг от друга то данный тег не склеит страницы. Более подробно я расписывал почему в соседнем вопросе — https://inweb.ua/blog/answers/27/

    Дата сообщения: 22.11.2018, 17:40

    Евгений Лысенко

    Добрый день. Подскажите, пожалуйста, а если в файле robots.txt закрыт от индексации «feed», но вот страницы с урлом feed лезут в этот отчет в Search Console, это нормально, или нужно как-то решать данный вопрос?

    Дата сообщения: 23.12.2018, 15:36

    Влад Наумов

    Влад Наумов

    Head of SEO

    Как я понимаю, у Вас wordpress и есть множество страниц с фрагментом /feed в конце url-адреса.

    Тут подойдет только 2 варианта решения проблемы:Прописать 301 редирект со всех таких страниц на соответствующую страницу без такого фрагмента. Можно сделать на WP при помощи плагина Clearfy pro.

    Закрыть данный фрагмент от индексации при помощи X-robots-Tag.

    Закрыть от индексации страницы с /feed в конце url-адреса для WP нет возможности, так как эти страницы не являются html.Это обязательно нужно сделать, в противном случае поисковая система будет учитывать такие страницы сайта при ранжировании, так как они проиндексированы и не являются качественными документами.

    Дата сообщения: 04.01.2019, 09:44

    Vadim

    Добрый день! Благодарю за ответы) Подскажите пожалуйста, что делать, если гугл ругается на страницы с js файлами, все тоже самое, Проиндексировано, несмотря на блокировку в файле robots.txt, только не страницы сайта с инфой а различные js файлы шаблона и других плагинов. Благодарю. 

    Дата сообщения: 31.01.2019, 10:23

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день, Vadim.
    Поисковые системы рекомендуют давать доступ к сканированию и индексированию всех скриптов и .css файлов, чтобы робот мог четко распознать какие элементы есть на странице. В таком случае нужно убрать директивы в файле Robots.txt, которые запрещают сканирование js файлов.

    Дата сообщения: 01.02.2019, 16:36

    lomot

    Добрый день

    Та же проблема что и всех wp-content/plugins/flat_pm/inc/functions/flat-ajax.php на сколько я понял из предыдущих ответов я в Robots должен открыть доступ к сканированию PHP. 

    И если проигнорировать данное предупреждение что можно получить в подарок от Google какие последствия? (Предупреждение всего одно)

    Или просто можно в Webmaster во вкладке индекс Google-> Удалить URL-адрес — Удалить из индексации этот адрес. В sitemap данного файла нет. (Повторно не должно проиндексировать вроде)

    Дата сообщения: 22.02.2019, 13:44

    Влад Наумов

    Влад Наумов

    Head of SEO

    Iomot, добрый вечер. В справке Google говорится, что для правильного распознавания содержимого сайта надо открыть ему (Googlebot) доступ ко всем внутренним ресурсам сайта. Поэтому рекомендуем последовать официальным рекомендациям Google и открыть доступ к wp-content/plugins/flat_pm/inc/functions/flat-ajax.php.

    Сделать это можно путем добавления в robots.txt строки Allow: /wp-content/plugins*.php

    Дата сообщения: 22.02.2019, 17:37

    Максим Слащёв

    Добрый вечер, Влад! Скажите пожалуйста, у меня гугл ругается на сам файл robots.txt. Сайт pivden.media Как можно решить эту проблему и что неправильно настроено в robots.txt? Буду очень благодарен за ответ!

    Дата сообщения: 04.03.2019, 18:48

    Влад Наумов

    Влад Наумов

    Head of SEO

    Максим, добрый день.
    
    Добавьте, пожалуйста, скрин с ошибкой, чтобы мы могли рассмотреть конкретно Ваш случай.
    
    Возможно, что ошибка в Google Search Console всплывает из-за того, что часть внутренних ссылок блокируется файлом robots.txt.
    
    Также ошибка может появляться в том случае, когда url проиндексирован несмотря на его блокировку в robots.txt 
    
    
    Например, у Вас в индексе есть страницы, которые заблокированы в robots.txt.
    
    Также использовать правило «Disallow: *?» не совсем корректно. Скажите, какие url вы хотите закрыть от индексации?
    

    Дата сообщения: 07.03.2019, 12:18

    Для того чтобы оставить вопрос, необходимо войти используя свой аккаунт одной из социальных сетей.