A A A

Совсем недавно Яндекс запустил бета тестирование обновленного сервиса для вебмастеров.

В Яндекс Вебмастер были добавлены новые отчеты, существенно улучшена визуализация данных, изменился интерфейс и многое другое.

Нововведений достаточно много, но сегодня хотелось бы остановиться на отчете «Статистика индексирования», и как с его помощью можно обнаружить дубли и мусорные страницы.

На многих сайтах есть неинформативные страницы, которые сканируют поисковые системы, но не добавляют в свой индекс, т.к. понимают что они появились в результате технических ошибок. Работа seo специалиста как раз таки заключается в том, чтобы устранить все проблемы в сканировании и индексировании ресурса.

Если мы устраним десятки, а то и сотни мусорных страниц, на сканирование которых тратят время поисковые системы, мы сможем увеличить частоту сканирования и индексирования полезных страниц сайта, а следовательно и улучшить ранжирование ресурса в поисковых системах.

На странице отчета «Статистика индексирования» мы сможем узнать:

  • Какие страницы сайта сканирует робот;
  • Какие страницы робот исключил из поиска;
  • Какие страницы проиндексированы и находятся в индексе поисковой системы Яндекс.

Статистика индексирования

Для поиска дубликатов и мусорных страниц достаточно проанализировать полный список загруженных Яндексом url-адресов.

В сервисе есть возможность выгрузить архив со всеми url-адресами, которые были просканированы роботом Яндекса. Для загрузки нужно перейти по ссылке :

Список загруженных страниц

В итоге мы получаем файл в формате .tsv, открыть который можно через Excel, Libre Office или простым блокнотом.

таблица с список просканированных страниц

Файл также содержит следующие данные :

  • Коды ответа сервера.
  • Дату последнего сканирования в формате Unix time, преобразовать можно, задав в консоли запрос вида date -r .
  • Проиндексированность страниц.
  • В столбце «Double» находятся ссылки на дубликаты страницы, если они есть.

Примеры найденных ошибок на сайтах благодаря данным о загруженных страницах роботами Яндекса :

Сайт asteria.ua :

Были обнаружены следующие страницы:

http://asteria.ua/special/razdel/104.html
http://asteria.ua/uslugi/razdel/77.html
http://asteria.ua/kompaniya/razdel/27.html
http://asteria.ua/partneri/razdel/4.html

Это полные дубликаты страниц сайта, они не проиндексированы, но регулярно сканируются Яндексом, следовательно их нужно как можно скорее устранить.

Ещё несколько страниц дубликатов:

http://asteria.ua/index.php?get=easytostart.html
http://asteria.ua/index.php?get=vkluchenie.html
http://asteria.ua/index.php?get=uslugi.html
http://asteria.ua/index.php?get=kontakti.html
http://asteria.ua/index.php?get=shtraf_uvelichili.html

Эти страницы, на момент анализа, перенаправляли пользователей на корректный url-адрес с ЧПУ, но отдавали код 200, а не 301.

Сайт novebti.ua :

Были найдены дубликаты главной страницы сайта :

http://novebti.ua/?razdel=uslugi_view&content=41
http://novebti.ua/?razdel=uslugi_view&content=1
http://novebti.ua/?razdel=uslugi_view&content=26
http://novebti.ua/?razdel=reviews

С этих страниц нужно написать link rel=»canonical» на главную страницу сайта.

А также дубликаты других страниц сайта :
http://novebti.ua/index.php?do=contacts
http://novebti.ua/index.php?do=uslugi/razrabotka_gradostroitelnogo_rascheta

Страницы пагинации и тегов:
http://novebti.ua/faq?ask=true?p=35
http://novebti.ua/article?tag=%CD%EE%E2%EE%F1%F2%E8%20%EA%EE%EC%EF%E0%ED%E8%E8
http://novebti.ua/faq?ask=true?p=40
http://novebti.ua/faq?p=47

Страницы такого типа лучше всего закрывать при помощи мета тега robots=»noindex, follow».

Сайт asiamshop.com.ua :

Было обнаружено множество страниц вида:
http://asiamshop.com.ua/component/jcomments/captcha/32798
http://asiamshop.com.ua/component/jcomments/captcha/42306

Таких страниц много десятков, они генерируются модулем комментирования jcomments, такие страницы нужно закрыть от сканирования, так как они не несут никакой ценности.Так как у этих страниц нет возможности прописать мета тег robots, то лучше их закрыть при помощи файла Robots.txt.

Вывод:

Основное преимущество сервиса состоит в том, что мы анализируем базу url-адресов поисковой системы, а не парсера страниц сайта, который не сможет найти url-адреса на которые нет внутренних ссылок.

Используя инструмент «Статистика индексирования» в новом Яндекс Вебмастере можно в течение 30 минут проанализировать страницы, которые посещает робот, обнаружить проблемы и продумать варианты их решения.

Если вы нашли ошибку, выделите участок текста и нажмите Ctrl + Enter или , чтобы сообщить нам.