1. Блог Inweb
  2. Ask Inweb
  3. SEO
  4. Проиндексировано, несмотря на блокировку в файле robots.txt

Проиндексировано, несмотря на блокировку в файле robots.txt

Есть

ответ

Дата вопроса: 05.11.2018, 19:01

В новой версии инструментов для вебмастеров от гугла есть раздел «Проиндексировано, несмотря на блокировку в файле robots.txt» и там указано более 500 страниц.

Проиндексировано, несмотря на блокировку в файле robots.txt

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

 

Автор: John

Просмотров: 3242

Категория:

SEO

Оцените вопрос

Рекомендуйте нас друзьям

4 комментария

ARSales

Добрый день! Что это такое? Объясните пожалуйста. Перечитал все форумы но решения не могу найти. Плагин Clearfy Pro установлен. Тоже пишет Гугл: Проиндексировано, несмотря на блокировку в файле robots.txt https://drive.google.com/open?id=1NIdwOfH5WVDXT1JJ4-YFWuhka9oAU1_8 https://drive.google.com/open?id=1y3tdpLBwQOGTZZS3sCWfUP6jnMb_JT7e

Дата сообщения: 30.01.2019, 10:05

Влад Наумов

Влад Наумов

Head of SEO

Добрый день, ARSales.

В данном случае необходимо удалить из файла Robots.txt директивы:
Disallow: /?s=
Disallow: /*?

А на всех мусорных страницах, которые Вы закрывали при помощи данной директивы прописать мета тег meta name="robots" content="noindex, follow".

Дата сообщения: 01.02.2019, 16:32

Татьяна Анатольевна

Добрый день.Выдает «Проиндексировано, несмотря на блокировку в файле robots.txt» в блоггере.Что с этим делать?

Дата сообщения: 15.04.2019, 09:41

Viktor Sarkisov

Viktor Sarkisov

Middle SEO IM

Добрый день, Татьяна! Если проиндексирована страница, закрытая в robots.txt (а мы не хотим, чтобы она индексировалась), то верным решением будет прописать в её (страницы) коде meta name=»robots» content=»noindex,follow» или meta name=»robots» content=»noindex,nofollow». Однако в вашем случае это невозможно, т.к. в блоггере нет доступа к правке кода страниц. Поэтому не остаётся ничего другого, как философски отнестись к «непослушанию» поискового робота. :)

Дата сообщения: 14.05.2019, 18:54

Частный ответ

Рейтинг автора

182

Дано ответов

43

Влад Наумов
7
Рейтинг ответа

Влад Наумов

Head of SEO

Добрый вечер, спасибо за интересный вопрос.

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.

В новой Search Console появился очень интересный и полезный отчет «Проиндексировано, несмотря на блокировку в файле robots.txt», который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.

Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.

Следовательно данную проблему необходимо решить следующим образом:

  1. Убрать из файла Robots.txt директивы, которые запрещают сканирование указанных в отчете url-адресов.
  2. Закрыть от индексации все некачественные url-адреса при помощи мета тега robots либо http заголовка X-Robots-Tag.

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Дата сообщения: 05.11.2018, 19:20

    Похожие вопросы

    14 комментариев

    Иван Сеньковский

    Здравствуйте!

    А как насчет третьего варианта? rel="canonical"

    Дата сообщения: 22.11.2018, 12:57

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день.Этот вариант также содержит в себе проблемы. В случае если страницы значительно отличаются друг от друга то данный тег не склеит страницы. Более подробно я расписывал почему в соседнем вопросе — https://inweb.ua/blog/answers/27/

    Дата сообщения: 22.11.2018, 17:40

    Евгений Лысенко

    Добрый день. Подскажите, пожалуйста, а если в файле robots.txt закрыт от индексации «feed», но вот страницы с урлом feed лезут в этот отчет в Search Console, это нормально, или нужно как-то решать данный вопрос?

    Дата сообщения: 23.12.2018, 15:36

    Влад Наумов

    Влад Наумов

    Head of SEO

    Как я понимаю, у Вас wordpress и есть множество страниц с фрагментом /feed в конце url-адреса.

    Тут подойдет только 2 варианта решения проблемы:Прописать 301 редирект со всех таких страниц на соответствующую страницу без такого фрагмента. Можно сделать на WP при помощи плагина Clearfy pro.

    Закрыть данный фрагмент от индексации при помощи X-robots-Tag.

    Закрыть от индексации страницы с /feed в конце url-адреса для WP нет возможности, так как эти страницы не являются html.Это обязательно нужно сделать, в противном случае поисковая система будет учитывать такие страницы сайта при ранжировании, так как они проиндексированы и не являются качественными документами.

    Дата сообщения: 04.01.2019, 09:44

    Vadim

    Добрый день! Благодарю за ответы) Подскажите пожалуйста, что делать, если гугл ругается на страницы с js файлами, все тоже самое, Проиндексировано, несмотря на блокировку в файле robots.txt, только не страницы сайта с инфой а различные js файлы шаблона и других плагинов. Благодарю. 

    Дата сообщения: 31.01.2019, 10:23

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день, Vadim.
    Поисковые системы рекомендуют давать доступ к сканированию и индексированию всех скриптов и .css файлов, чтобы робот мог четко распознать какие элементы есть на странице. В таком случае нужно убрать директивы в файле Robots.txt, которые запрещают сканирование js файлов.

    Дата сообщения: 01.02.2019, 16:36

    lomot

    Добрый день

    Та же проблема что и всех wp-content/plugins/flat_pm/inc/functions/flat-ajax.php на сколько я понял из предыдущих ответов я в Robots должен открыть доступ к сканированию PHP. 

    И если проигнорировать данное предупреждение что можно получить в подарок от Google какие последствия? (Предупреждение всего одно)

    Или просто можно в Webmaster во вкладке индекс Google-> Удалить URL-адрес — Удалить из индексации этот адрес. В sitemap данного файла нет. (Повторно не должно проиндексировать вроде)

    Дата сообщения: 22.02.2019, 13:44

    Влад Наумов

    Влад Наумов

    Head of SEO

    Iomot, добрый вечер. В справке Google говорится, что для правильного распознавания содержимого сайта надо открыть ему (Googlebot) доступ ко всем внутренним ресурсам сайта. Поэтому рекомендуем последовать официальным рекомендациям Google и открыть доступ к wp-content/plugins/flat_pm/inc/functions/flat-ajax.php.

    Сделать это можно путем добавления в robots.txt строки Allow: /wp-content/plugins*.php

    Дата сообщения: 22.02.2019, 17:37

    Максим Слащёв

    Добрый вечер, Влад! Скажите пожалуйста, у меня гугл ругается на сам файл robots.txt. Сайт pivden.media Как можно решить эту проблему и что неправильно настроено в robots.txt? Буду очень благодарен за ответ!

    Дата сообщения: 04.03.2019, 18:48

    Влад Наумов

    Влад Наумов

    Head of SEO

    Максим, добрый день.
    
    Добавьте, пожалуйста, скрин с ошибкой, чтобы мы могли рассмотреть конкретно Ваш случай.
    
    Возможно, что ошибка в Google Search Console всплывает из-за того, что часть внутренних ссылок блокируется файлом robots.txt.
    
    Также ошибка может появляться в том случае, когда url проиндексирован несмотря на его блокировку в robots.txt 
    
    
    Например, у Вас в индексе есть страницы, которые заблокированы в robots.txt.
    
    Также использовать правило «Disallow: *?» не совсем корректно. Скажите, какие url вы хотите закрыть от индексации?
    

    Дата сообщения: 07.03.2019, 12:18

    Татьяна Дубина

    Здравствуйте!Периодически Google Search Console присылает предупреждение:Проиндексировано, несмотря на блокировку в файле robots.txt:https://cdmed.by/bitrix/
    https://cdmed.by/bitrix/tools/captcha.php?captcha_sidМожет посоветуете, что делать конкретно в этом случае? Я не очень глубоко разбираюсь в ситуации.Вот файл robots.txt, возможно, в нём есть какие-либо несоответствия:User-Agent: *
    Allow: /bitrix/components/
    Allow: /bitrix/cache/
    Allow: /bitrix/js/
    Allow: /bitrix/templates/
    Allow: /bitrix/panel/
    Host: https://cdmed.by
    Sitemap: https://cdmed.by/sitemap.xml
    Disallow: */index.php
    Disallow: /bitrix/
    Disallow: /*show_include_exec_time=
    Disallow: /*show_page_exec_time=
    Disallow: /*show_sql_stat=
    Disallow: /*bitrix_include_areas=
    Disallow: /*clear_cache=
    Disallow: /*clear_cache_session=
    Disallow: /*ADD_TO_COMPARE_LIST
    Disallow: /*ORDER_BY
    Disallow: /*PAGEN
    Disallow: /*?print=
    Disallow: /*&print=
    Disallow: /*print_course=
    Disallow: /*?action=
    Disallow: /*&action=
    Disallow: /*register=
    Disallow: /*forgot_password=
    Disallow: /*change_password=
    Disallow: /*login=
    Disallow: /*logout=
    Disallow: /*auth=
    Disallow: /*backurl=
    Disallow: /*back_url=
    Disallow: /*BACKURL=
    Disallow: /*BACK_URL=
    Disallow: /*back_url_admin=
    Disallow: /*?utm_source=
    Disallow: /local/
    Disallow: /upload/
    Disallow: /login/
    Disallow: /auth/
    Disallow: /links.php
    Disallow: /centr/registration/
    Disallow: /centr/tnpa/files——————————Спасибо! 

    Дата сообщения: 10.06.2019, 16:37

    Влад Наумов

    Влад Наумов

    Head of SEO

    Добрый день, Татьяна.

    У Вас при помощи файла Robots.txt закрыты для сканирования:


    1. Стили сайта.
    2. Скрипты.
    3. Изображения.

    Это негативно сказывается на сканировании ресурса.

    Также у Вас закрыты от сканирования страницы пагинации, которые не стоит закрывать, ведь из-за этого хуже сканируются статьи. Закрыты они при помощи директивы Disallow: /*PAGEN

    Вам необходимо изучить отчет в Search Console по тому, какие страницы попали в индекс и убрать директивы, которые запрещают их сканирование. Вместо этого закрыть их при помощи мета тега robots.

    Обязательно нужно убрать все директивы из Robots.txt, которые блокируют сканирование стилей, скриптов и изображений.

    Если Вам нужна помощь в составлении технического задания для программиста - напишите мне на почту v.naumov@inweb.ua и я постараюсь помочь решить Вашу задачу.

    Дата сообщения: 17.06.2019, 12:05

    kristofer70

    Добрый день. А подскажите, могут ли страницы которые из категории «Проиндексировано, несмотря на блокировку в файле robots.txt» влиять на ранжирование сайта? Например падать позиции.

    Дата сообщения: 09.08.2019, 17:42

    Viktor Sarkisov

    Viktor Sarkisov

    Middle SEO IM

    Здравствуйте, kristofer70! Зависит от ситуации. Например, если проиндексировался дубль категории, приносящей трафик, и обе эти страницы (категория и её дубль) участвуют в результатах выдачи по целевым запросам, то это возможно. Но эта ситуация является теоретической, потому что дубли страниц обычно в robots.txt не закрывают.

    При этом случается, что в robots.txt закрывают страницы с пересечением фильтров и эти страницы попадают в индекс. Это тоже может негативно сказаться на сайте в целом. Поэтому, если вы действительно хотите что-то скрыть от попадания в индекс, то такие страницы следует закрывать через мета-тег robots либо http-заголовок X-Robots-Tag, как написал коллега выше.

    Дата сообщения: 12.08.2019, 01:43

    Для того чтобы оставить вопрос, необходимо войти используя свой аккаунт одной из социальных сетей.

    
    ASK Inweb: Задать вопрос специалисту