Дубли страниц: что это, как и где искать, чем бороться

Дубли страниц – это плохо. Почему? С ними сайт не может высоко оцениваться поисковыми системами и ранжироваться на высокие позиции. Мы начали с постановки проблемы, которая имеет решения. Определимся с терминологией и перейдем к тому, как избежать повторения страниц, исправить ошибки, и, таким образом, не упустить хорошие позиции сайта.

Что такое дубликаты?

Дубли — одинаковые по содержанию страницы сайта, которые доступны по разным URL-адресам. То есть адреса страницы не имеют подобия, а их наполнение полностью или практически полностью совпадает. К чему это ведет с точки зрения поисковых систем?

  • Они “не понимают”, какую из страниц надо выдавать посетителям по запросу, и какую следует ранжировать.
  • Основная страница может быть проигнорирована поисковыми системами, а приоритетнее окажется дубликат.
  • Поисковая система воспринимает сайт с большим числом дубликатов как низкокачественный и не оценивает его высоко.
  • Дубли снижают процент качественных страниц, который учитывается поисковыми системами.

Если из 150 000 страниц приводят посетителей только 250, это знак для поисковиков, что качество сайта низкое. Потому рекомендуем сразу: если страницы стали дублироваться, это надо исправлять сразу. О том, как, читайте далее.

Причины возникновения дублированных страниц

Рассмотрим все возможные ситуации, когда возникают дубли на сайте.

  • Особенности CMS, системы управления контентом. Бывает так, что один материал на сайте находится в нескольких рубриках. Их URL включены в адрес сайта самого материала. Тогда дубли выглядят так:

wiki.site.ru/blog1/info/
wiki.site.ru/blog2/info/

  • Технические разделы сайта. Может быть так, что одна из функций ресурса – поиск по сайту, блок фильтров, форм регистрации – создает параметрические адреса с одинаковыми данными по отношению к сайту без параметров в адресе страницы. Может выглядеть так:

site.ru/rarticles.php
site.ru/rarticles.php?ajax=Y

  • Невнимательность администратора сайта. Случайность, когда статья существует в нескольких разделах сайта из-за человеческой ошибки.
  • Технические ошибки. Когда ссылки генерируются некорректно или неправильно настроены параметры в системах управления информацией. Ошибки вызывают дублирование страниц. На примере Opencart, если ссылка установлена неверно, то можем получить такую картинку:

site.ru/tools/tools/tools/…/…/…

Классификация дублей

Полные дубли: откуда они берутся?

Полные дубли — это страницы, у которых одинаковое наполнение, и они доступны по уникальным и отличающимся адресам. URL у дубликатов всегда будет не совпадать.

Примеры полных дублей:

  • Разница только в слэше в конце. Обе страницы точно не проиндексируются. Если они уже попали в индексацию, то нужно исправлять.

http://site.net/catalog/product
http://site.net/catalog/product/

  • HTTP и HTTPS-страницы. Могут быть дубли на протоколах с защитой и без. В таком случае сайту не светят хорошие позиции в выдаче.

https://site.net
http://site.net

  • С «www» в начале и без «www». В этой ситуации действовать нужно максимально быстро:

http://www.site.net
http://site.net

  • Адреса страниц с разными вариантами в конце – index.php, index.html, index.htm, default.asp, default.aspx, home. Например:

http://site.net/index.html
http://site.net/index.php
http://site.net/home

  • URL-адреса, написанные в разных регистрах.

http://site.net/example/
http://site.net/EXAMPLE/
http://site.net/Example/

  • Нарушена иерархия URL. Карточка товара может быть доступна по разным URL:

http://site.net/catalog/dir/tovar
http://site.net/catalog/tovar
http://site.net/tovar
http://site.net/dir/tovar

  • Дополнительные параметры и метки в URL. Например, с GET-параметрами:

http://site.net/index.php?example=10&product=25

Ее дубль будет:

http://site.net/index.php?example=25&cat=10

  • UTM-метки. Пример страницы с UTM-меткой для сбора аналитики:

http://www.site.net/?utm_source=adsite&utm_campaign=adcampaign&utm_term=adkeyword

  • Параметры Google Click Identifier. Также необходим для отслеживания данных о кампании, канале и ключевых словах в Google Analytics.

Например, посетители переходят по вашему объявлению для сайта http://site.net, и адрес страницы такой: http://site.net/?gclid=123xyz.

  • Метка Openstat. Также нужна для анализа эффективности рекламных кампаний, трафика сайта и поведения посетителей. Выглядит так:

http://site.net/?_openstat=231645789

  • Реферальная ссылка. Имеет специальный идентификатор, по которому фиксируется, откуда пришел новый посетитель. Например:

https://site.net/register/?refid=398992
http://site.net/index.php?cf=reg-newr&ref=Uncertainty

  • Первая страница пагинации каталога товаров интернет-магазина или доски объявлений, блога, часто соответствует странице категории или общей раздела pageall:

http://site.net/catalog
http://site.net/catalog/page1

  • Неправильные настройки ошибки 404 (несуществующая страница). Они должны отдавать код ответа сервера 404, а не 200, или перенаправлять на актуальную страницу. Например:

http://site.net/seo-audit-465745-seo
http://site.net/3333-???

Частичные дубли: что они представляют собой?

Частичные дубли — это когда частично контент дублируется на нескольких страницах, но они не одинаковы. Могут появляться из-за особенностей конкретной CMS. Найти такие дубли значительно сложнее, чем полные.

Такие появляются из-за страниц фильтров, сортировок и пагинации. Например, посетитель использует фильтр для поиска товаров, адрес страницы совсем немного меняется. В ответ на это поисковики индексируют страницу как отдельную. Контент при этом не меняется, а SEO-составляющая дублируется.

пагинация

http://mysite.com/catalog/category/ — стартовая страница категории товаров;
http://mysite.com/catalog/category/?page=2 — страница пагинации.

С блоками комментариев и описаний почти та же ситуация. Если пользователь кликает на блок отзывов, это создает дополнительный параметр в адресе страницы, но она, по сути, остается такая же. Контент при этом не меняется, а просто открывается новый таб.

Страницы печати и PDF для загрузки полностью повторяют контент сайта. Как это выглядит?

http://site.net/novosti/novost1
http://site.net/novosti/novost1/print

Контент страницы полностью повторяет SEO-составляющую страницы сайта. Версия здесь проще, поскольку нет множества строк кода, который нужен для обеспечения работы функционала. Выглядит в сравнении это так:

http://mysite.com/main/hotel/al12188 — страница отеля
http://mysite.com/main/hotel/al12188/print — ЧБ версия для печати
http://mysite.com/main/hotel/al12188/print?color=1 — Цветная версия для печати.

Еще одна причина таких дублей – HTML-слепки страниц сайта, которые создаются технологией AJAX. Чтобы найти их, замените в оригинальном URL-адресе «!#» на «?_escaped_fragment_=». Чаще всего такие страницы индексируются лишь тогда, когда были неточности во внедрении метода индексации AJAX-страниц через перенаправление бота на страницу-слепок. В таком случае робот обрабатывает два URL-адреса: основной и его html-версию.

Основная опасность частичных дублей в том, что они не приводят к резким потерям в ранжировании, а делают это постепенно и незаметно для владельца сайта. То есть найти их влияние сложнее и они могут систематически, на протяжении долгого времени «отравлять жизнь» оптимизатору и его сайту.

Как обнаружить дубли на сайте?

Есть несколько способов, чтобы найти дубли страниц на вашем сайте.

Сервисы и программы

Screaming Frog Seo Spider и Netpeak Spider. Они отлично подходят для аудита и обнаружения дублей. Их боты покажут полный список URL-адресов. Затем его вы можете отсортировать по повторению Title или Description. Так вы найдете возможные дубли.

дубликаты в сервисах

Поисковые операторы и фрагменты текста

Первый способ. Используйте поисковый оператор «site:». В Google введите запрос «site:examplesite.net». Он покажет страницы ресурса в общей индексации. Так будет видно количество страниц в выдаче.

поисковый оператор

В выдаче можно найти дубли, «мусорные» страницы. Их можно будет удалить из индекса, чтобы позиции сайта не падали из-за них.

Второй способ. Пользуйтесь поиском по фразе из текста со страниц сайта. Выбирайте такие, которые могут иметь копии. Возьмите в кавычки фразу из текста, после него ставьте пробел, добавляйте оператор «site:» и вводите в поисковую строку. Важно прописать ваш сайт, чтобы найти страницы, где есть именно такой текст. Например:

«Фрагмент текста со страницы сайта, которая может иметь дубли» site:examplesite.net

Если в выдаче поиска только одна страница, значит копий нет. Если вы видите несколько, проанализируйте их и выявите причины. Могут быть такие, которые нужно убрать максимально быстро.

С помощью оператора «intitle:» анализируем содержимое Title на страницах, которые есть в выдаче. Дублирование Title может означать дублирование страниц. Чтобы проверить эту теорию, используйте поисковый оператор «site:». Введите такой запрос:

site:examplesite.net intitle: полный или частичный текст тега Title

Дублирование Title может означать дублирование страниц

С операторами «site» и «inurl» можно определить копии, которые появились на страницах сортировок (sort) или фильтров и поиска (filter, search).
Для поиска страниц сортировок, напишите в поисковой строке:

site:examplesite.net inurl:sort

Для поиска страниц фильтров и поиска:

site:examplesite.net inurl:filter, search

Для поиска страниц фильтров и поиска

Важно. Поисковые операторы покажут проиндексированные копии, то есть – не все.

Панель Search Console Google

Поисковые системы покажут копии страниц, и даже подскажут, как их устранить.

В Google Search Console в разделе «Покрытие» смотрим в пункт со страницами, исключенными из индексирования:

пункт со страницами, исключенными из индексирования

Serpstat

Тут вам нужен инструмент «Аудит сайта» от Serpstat. Он покажет технические ошибки. Перейдите в раздел «Метатеги» и найдите пункт «Дублирующийся Title» или «Дублирующийся Description».

аудит сайта

К чему приводят дубли страниц на сайте?

Поисковые системы из-за разных адресов воспринимают такие страницы как разные. Это ведет к ряду проблем ранжирования и сопутствующих. Каких именно?

  • Плохая индексация. Размер сайта из-за копий растет, а поисковики, индексируя избыточный объем страниц, неэффективно тратят краулинговый бюджет владельца сайта. Важные и действительно полезные для пользователей страницы могут игнорироваться индексацией.
Краулинговый бюджет – это такое количество страниц, которое бот может просканировать за одно посещение сайта.
  • Не та страница в выдаче. Алгоритмы поисковой системы могут прийти к выводу, что копия больше релевантна запросу, и в выдаче будет не та страница, которую вы целенаправленно продвигали. Еще один сценарий – в выдаче не будет ни оригинала, ни копии.
  • Утрата ссылочного веса страниц, которые вы продвигаете. Посетители могут давать ссылки на копии, а не на оригиналы. Как итог – естественная ссылочная масса теряется.

Что такое неинформативная страница?

Более 50-ти факторов ранжирования отвечают только за содержимое страницы. Также есть несколько смешанных – таких, что отвечают за текст и анкоры входящих ссылок и др.
Страницы сайта называют неинформативными, если они не оптимизированы под пользовательские потребности. Они никогда не принесут пользу вашему ресурсу. Не привлекут трафик, не сгенерируют лиды. Они даже могут сделать хуже и снизить поведенческие факторы. Пример:

неинформативная страница

Это, кроме того, могут быть страницы результатов поиска по сайту. Так бывает, если фрагмент /search/ в URLе не закрыт метатегом noindex. Еще одна причина – страница восстановления пароля открыта для индексации.

Как бороться с каждым типом дублей?

Начнем с главного: никогда не закрывайте мусорные страницы через файл Robots.txt
  • Всегда используйте для закрытия от индексации только метатег Robots или HTTP-заголовок X-Robots-Tag. Этим методом можно пользоваться, если дубли появились из-за сортировок, фильтров и поиска внутри сайта. Так мы показываем поисковым роботам, какие страницы или файлы не нужно сканировать.

Используйте директиву «Disallow», которая запрещает поисковым ботам заходить на ненужные страницы.

User-agent: *
Disallow: /page

Если страница указана в robots.txt с директивой Disallow, она все равно может оказаться в выдаче. Так случается, если она была проиндексирована ранее/на нее есть внутренние или внешние ссылки.

Важно. Инструкции в файле robots.txt – это рекомендации по сканированию сайта для Google, но не гарантия отсутствия дублей.
  • Настройка 301-редиректов с помощью файла “.htaccess”. Таким образом можно убрать копии главной страницы или ссылки реферальных программ, и этот способ считается основным в случае с полными дублями. С 301 редиректом вы передаете с дубля ссылочный вес. Работает в ситуациях, когда URL в разных регистрах, нарушена иерархия URL, для определения основного зеркала сайта или в ситуации со слешами в URL.
    301 редирект используют, чтобы перенаправить с таких страниц:

http://site.net/catalog///product
http://site.net/catalog//////product
http://site.net/product
на страницу http://site.net/catalog/product

  • Настройка атрибута rel=”canonical”. Подойдет для полных копий. Если страница хоть незначительно отличается – страницы не смогут склеиться. Помогает, когда страницу нельзя удалить и ее нужно оставить открытой для пользователей.
Важно. Атрибут canonical эффективен только в том случае, если обе страницы полностью одинаковы.

rel=”canonical” подходит для удаления копий, созданных использованием фильтров и сортировок, а также для адресов, сформированных с применением с get-параметров и utm-меток.

  • Используется для печати, если содержание одинаково в разных языковых версиях и на разных доменах.
  • Поддерживается не всеми поисковыми системами, но Google его отлично распознает.
  • Эта ссылка указывает адрес страницы, которая должна быть проиндексирована.
  • Тег. С ним вы удалите копии, создаваемые страницами печати и версиями PDF.

Для создания канонической, в HTML-код текущей страницы вставляем rel=»canonical» между тегами…. Выглядит так:

http://site.net/index.php?example=10&product=25
http://site.net/example?filtr1=%5b%25D0%,filtr2=%5b%25D0%259F%
http://site.net/example/print

Каноническая в этом случае – страница:

http://site.net/example

В HTML коде это будет выглядеть так:

<link rel=»canonical» href=»http://site.net/example»/>

  • Метатег <meta name=»robots» content=»noindex, nofollow> и <meta name=»robots» content=»noindex, follow>. Первый дает команду роботу не подвергать индексации документ и не переходить по ссылкам.Это прямая директива, которая не проигнорируется поисковыми роботами. Второй дает команду роботу не подвергать индексации документ, но при этом переходить по ссылкам, которые в нем размещены.

Размещенный метатег выглядит так:

<meta name=»robots» content=»noindex, nofollow»/>

<meta name=»robots» content=»none»/>

<meta name=»robots» content=»noindex, follow»/>

Остались вопросы или хотите уточнить, как бороться с конкретным видом дубликатов страниц? Задавайте вопросы в комментариях – отвечу на все детально и подписывайтесь на другие полезные материалы в нашем Телеграм-канале.