1. Блог Inweb
  2. Ask Inweb
  3. SEO
  4. Проиндексировано, несмотря на блокировку в файле robots.txt

Проиндексировано, несмотря на блокировку в файле robots.txt

Есть

ответ

Дата вопроса: 05.11.2018, 19:01

В новой версии инструментов для вебмастеров от гугла есть раздел “Проиндексировано, несмотря на блокировку в файле robots.txt” и там указано более 500 страниц.

Проиндексировано, несмотря на блокировку в файле robots.txt

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

 

Автор: John

Просмотров: 5187

Категория:

SEO

Оцените вопрос

Рекомендуйте нас друзьям

4 комментария

Аватар

ARSales

Добрый день! Что это такое? Объясните пожалуйста. Перечитал все форумы но решения не могу найти. Плагин Clearfy Pro установлен. Тоже пишет Гугл: Проиндексировано, несмотря на блокировку в файле robots.txt https://drive.google.com/open?id=1NIdwOfH5WVDXT1JJ4-YFWuhka9oAU1_8 https://drive.google.com/open?id=1y3tdpLBwQOGTZZS3sCWfUP6jnMb_JT7e

Дата сообщения: 30.01.2019, 10:05

Влад Наумов

Влад Наумов

Head of SEO

Добрый день, ARSales.

В данном случае необходимо удалить из файла Robots.txt директивы:
Disallow: /?s=
Disallow: /*?

А на всех мусорных страницах, которые Вы закрывали при помощи данной директивы прописать мета тег meta name="robots" content="noindex, follow".

Дата сообщения: 01.02.2019, 16:32

Аватар

Татьяна Анатольевна

Добрый день.Выдает «Проиндексировано, несмотря на блокировку в файле robots.txt» в блоггере.Что с этим делать?

Дата сообщения: 15.04.2019, 09:41

Viktor Sarkisov

Viktor Sarkisov

Добрый день, Татьяна! Если проиндексирована страница, закрытая в robots.txt (а мы не хотим, чтобы она индексировалась), то верным решением будет прописать в её (страницы) коде meta name=»robots» content=»noindex,follow» или meta name=»robots» content=»noindex,nofollow». Однако в вашем случае это невозможно, т.к. в блоггере нет доступа к правке кода страниц. Поэтому не остаётся ничего другого, как философски отнестись к «непослушанию» поискового робота. :)

Дата сообщения: 14.05.2019, 18:54

Частный ответ

Рейтинг автора

271

Дано ответов

71

Влад Наумов
7
Рейтинг ответа

Влад Наумов

Head of SEO

Добрый вечер, спасибо за интересный вопрос.

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.

В новой Search Console появился очень интересный и полезный отчет «Проиндексировано, несмотря на блокировку в файле robots.txt», который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.

Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.

Следовательно данную проблему необходимо решить следующим образом:

  1. Убрать из файла Robots.txt директивы, которые запрещают сканирование указанных в отчете url-адресов.
  2. Закрыть от индексации все некачественные url-адреса при помощи мета тега robots либо http заголовка X-Robots-Tag.

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Дата сообщения: 05.11.2018, 19:20

Похожие вопросы

14 комментариев

Аватар

Иван Сеньковский

Здравствуйте!

А как насчет третьего варианта? rel="canonical"

Дата сообщения: 22.11.2018, 12:57

Влад Наумов

Влад Наумов

Head of SEO

Добрый день.Этот вариант также содержит в себе проблемы. В случае если страницы значительно отличаются друг от друга то данный тег не склеит страницы. Более подробно я расписывал почему в соседнем вопросе — https://inweb.ua/blog/answers/27/

Дата сообщения: 22.11.2018, 17:40

Аватар

Евгений Лысенко

Добрый день. Подскажите, пожалуйста, а если в файле robots.txt закрыт от индексации «feed», но вот страницы с урлом feed лезут в этот отчет в Search Console, это нормально, или нужно как-то решать данный вопрос?

Дата сообщения: 23.12.2018, 15:36

Влад Наумов

Влад Наумов

Head of SEO

Как я понимаю, у Вас wordpress и есть множество страниц с фрагментом /feed в конце url-адреса.

Тут подойдет только 2 варианта решения проблемы:Прописать 301 редирект со всех таких страниц на соответствующую страницу без такого фрагмента. Можно сделать на WP при помощи плагина Clearfy pro.

Закрыть данный фрагмент от индексации при помощи X-robots-Tag.

Закрыть от индексации страницы с /feed в конце url-адреса для WP нет возможности, так как эти страницы не являются html.Это обязательно нужно сделать, в противном случае поисковая система будет учитывать такие страницы сайта при ранжировании, так как они проиндексированы и не являются качественными документами.

Дата сообщения: 04.01.2019, 09:44

Аватар

Vadim

Добрый день! Благодарю за ответы) Подскажите пожалуйста, что делать, если гугл ругается на страницы с js файлами, все тоже самое, Проиндексировано, несмотря на блокировку в файле robots.txt, только не страницы сайта с инфой а различные js файлы шаблона и других плагинов. Благодарю. 

Дата сообщения: 31.01.2019, 10:23

Влад Наумов

Влад Наумов

Head of SEO

Добрый день, Vadim.
Поисковые системы рекомендуют давать доступ к сканированию и индексированию всех скриптов и .css файлов, чтобы робот мог четко распознать какие элементы есть на странице. В таком случае нужно убрать директивы в файле Robots.txt, которые запрещают сканирование js файлов.

Дата сообщения: 01.02.2019, 16:36

Аватар

lomot

Добрый день

Та же проблема что и всех wp-content/plugins/flat_pm/inc/functions/flat-ajax.php на сколько я понял из предыдущих ответов я в Robots должен открыть доступ к сканированию PHP. 

И если проигнорировать данное предупреждение что можно получить в подарок от Google какие последствия? (Предупреждение всего одно)

Или просто можно в Webmaster во вкладке индекс Google-> Удалить URL-адрес — Удалить из индексации этот адрес. В sitemap данного файла нет. (Повторно не должно проиндексировать вроде)

Дата сообщения: 22.02.2019, 13:44

Влад Наумов

Влад Наумов

Head of SEO

Iomot, добрый вечер. В справке Google говорится, что для правильного распознавания содержимого сайта надо открыть ему (Googlebot) доступ ко всем внутренним ресурсам сайта. Поэтому рекомендуем последовать официальным рекомендациям Google и открыть доступ к wp-content/plugins/flat_pm/inc/functions/flat-ajax.php.

Сделать это можно путем добавления в robots.txt строки Allow: /wp-content/plugins*.php

Дата сообщения: 22.02.2019, 17:37

Аватар

Максим Слащёв

Добрый вечер, Влад! Скажите пожалуйста, у меня гугл ругается на сам файл robots.txt. Сайт pivden.media Как можно решить эту проблему и что неправильно настроено в robots.txt? Буду очень благодарен за ответ!

Дата сообщения: 04.03.2019, 18:48

Влад Наумов

Влад Наумов

Head of SEO

Максим, добрый день.

Добавьте, пожалуйста, скрин с ошибкой, чтобы мы могли рассмотреть конкретно Ваш случай.

Возможно, что ошибка в Google Search Console всплывает из-за того, что часть внутренних ссылок блокируется файлом robots.txt.

Также ошибка может появляться в том случае, когда url проиндексирован несмотря на его блокировку в robots.txt 


Например, у Вас в индексе есть страницы, которые заблокированы в robots.txt.

Также использовать правило «Disallow: *?» не совсем корректно. Скажите, какие url вы хотите закрыть от индексации?

Дата сообщения: 07.03.2019, 12:18

Аватар

Татьяна Дубина

Здравствуйте!Периодически Google Search Console присылает предупреждение:Проиндексировано, несмотря на блокировку в файле robots.txt:https://cdmed.by/bitrix/
https://cdmed.by/bitrix/tools/captcha.php?captcha_sidМожет посоветуете, что делать конкретно в этом случае? Я не очень глубоко разбираюсь в ситуации.Вот файл robots.txt, возможно, в нём есть какие-либо несоответствия:User-Agent: *
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Host: https://cdmed.by
Sitemap: https://cdmed.by/sitemap.xml
Disallow: */index.php
Disallow: /bitrix/
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*bitrix_include_areas=
Disallow: /*clear_cache=
Disallow: /*clear_cache_session=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*ORDER_BY
Disallow: /*PAGEN
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*print_course=
Disallow: /*?action=
Disallow: /*&action=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*backurl=
Disallow: /*back_url=
Disallow: /*BACKURL=
Disallow: /*BACK_URL=
Disallow: /*back_url_admin=
Disallow: /*?utm_source=
Disallow: /local/
Disallow: /upload/
Disallow: /login/
Disallow: /auth/
Disallow: /links.php
Disallow: /centr/registration/
Disallow: /centr/tnpa/files——————————Спасибо! 

Дата сообщения: 10.06.2019, 16:37

Влад Наумов

Влад Наумов

Head of SEO

Добрый день, Татьяна.

У Вас при помощи файла Robots.txt закрыты для сканирования:


  1. Стили сайта.
  2. Скрипты.
  3. Изображения.

Это негативно сказывается на сканировании ресурса.

Также у Вас закрыты от сканирования страницы пагинации, которые не стоит закрывать, ведь из-за этого хуже сканируются статьи. Закрыты они при помощи директивы Disallow: /*PAGEN

Вам необходимо изучить отчет в Search Console по тому, какие страницы попали в индекс и убрать директивы, которые запрещают их сканирование. Вместо этого закрыть их при помощи мета тега robots.

Обязательно нужно убрать все директивы из Robots.txt, которые блокируют сканирование стилей, скриптов и изображений.

Если Вам нужна помощь в составлении технического задания для программиста - напишите мне на почту v.naumov@inweb.ua и я постараюсь помочь решить Вашу задачу.

Дата сообщения: 17.06.2019, 12:05

Аватар

kristofer70

Добрый день. А подскажите, могут ли страницы которые из категории «Проиндексировано, несмотря на блокировку в файле robots.txt» влиять на ранжирование сайта? Например падать позиции.

Дата сообщения: 09.08.2019, 17:42

Viktor Sarkisov

Viktor Sarkisov

Здравствуйте, kristofer70! Зависит от ситуации. Например, если проиндексировался дубль категории, приносящей трафик, и обе эти страницы (категория и её дубль) участвуют в результатах выдачи по целевым запросам, то это возможно. Но эта ситуация является теоретической, потому что дубли страниц обычно в robots.txt не закрывают.

При этом случается, что в robots.txt закрывают страницы с пересечением фильтров и эти страницы попадают в индекс. Это тоже может негативно сказаться на сайте в целом. Поэтому, если вы действительно хотите что-то скрыть от попадания в индекс, то такие страницы следует закрывать через мета-тег robots либо http-заголовок X-Robots-Tag, как написал коллега выше.

Дата сообщения: 12.08.2019, 01:43

Для того чтобы оставить вопрос, необходимо войти используя свой аккаунт одной из социальных сетей.