Дубли страниц: что это, как и где искать, чем бороться
Содержание
Дубли страниц – это плохо. Почему? С ними сайт не может высоко оцениваться поисковыми системами и ранжироваться на высокие позиции. Мы начали с постановки проблемы, которая имеет решения. Определимся с терминологией и перейдем к тому, как избежать повторения страниц, исправить ошибки, и, таким образом, не упустить хорошие позиции сайта.
Что такое дубликаты?
Дубли — одинаковые по содержанию страницы сайта, которые доступны по разным URL-адресам. То есть адреса страницы не имеют подобия, а их наполнение полностью или практически полностью совпадает. К чему это ведет с точки зрения поисковых систем?
- Они “не понимают”, какую из страниц надо выдавать посетителям по запросу, и какую следует ранжировать.
- Основная страница может быть проигнорирована поисковыми системами, а приоритетнее окажется дубликат.
- Поисковая система воспринимает сайт с большим числом дубликатов как низкокачественный и не оценивает его высоко.
- Дубли снижают процент качественных страниц, который учитывается поисковыми системами.
Если из 150 000 страниц приводят посетителей только 250, это знак для поисковиков, что качество сайта низкое. Потому рекомендуем сразу: если страницы стали дублироваться, это надо исправлять сразу. О том, как, читайте далее.
Причины возникновения дублированных страниц
Рассмотрим все возможные ситуации, когда возникают дубли на сайте.
- Особенности CMS, системы управления контентом. Бывает так, что один материал на сайте находится в нескольких рубриках. Их URL включены в адрес сайта самого материала. Тогда дубли выглядят так:
wiki.site.ru/blog1/info/
wiki.site.ru/blog2/info/
- Технические разделы сайта. Может быть так, что одна из функций ресурса – поиск по сайту, блок фильтров, форм регистрации – создает параметрические адреса с одинаковыми данными по отношению к сайту без параметров в адресе страницы. Может выглядеть так:
site.ru/rarticles.php
site.ru/rarticles.php?ajax=Y
- Невнимательность администратора сайта. Случайность, когда статья существует в нескольких разделах сайта из-за человеческой ошибки.
- Технические ошибки. Когда ссылки генерируются некорректно или неправильно настроены параметры в системах управления информацией. Ошибки вызывают дублирование страниц. На примере Opencart, если ссылка установлена неверно, то можем получить такую картинку:
site.ru/tools/tools/tools/…/…/…
Классификация дублей
Полные дубли: откуда они берутся?
Полные дубли — это страницы, у которых одинаковое наполнение, и они доступны по уникальным и отличающимся адресам. URL у дубликатов всегда будет не совпадать.
Примеры полных дублей:
- Разница только в слэше в конце. Обе страницы точно не проиндексируются. Если они уже попали в индексацию, то нужно исправлять.
http://site.net/catalog/product
http://site.net/catalog/product/
- HTTP и HTTPS-страницы. Могут быть дубли на протоколах с защитой и без. В таком случае сайту не светят хорошие позиции в выдаче.
https://site.net
http://site.net
- С «www» в начале и без «www». В этой ситуации действовать нужно максимально быстро:
http://www.site.net
http://site.net
- Адреса страниц с разными вариантами в конце – index.php, index.html, index.htm, default.asp, default.aspx, home. Например:
http://site.net/index.html
http://site.net/index.php
http://site.net/home
- URL-адреса, написанные в разных регистрах.
http://site.net/example/
http://site.net/EXAMPLE/
http://site.net/Example/
- Нарушена иерархия URL. Карточка товара может быть доступна по разным URL:
http://site.net/catalog/dir/tovar
http://site.net/catalog/tovar
http://site.net/tovar
http://site.net/dir/tovar
- Дополнительные параметры и метки в URL. Например, с GET-параметрами:
http://site.net/index.php?example=10&product=25
Ее дубль будет:
http://site.net/index.php?example=25&cat=10
- UTM-метки. Пример страницы с UTM-меткой для сбора аналитики:
http://www.site.net/?utm_source=adsite&utm_campaign=adcampaign&utm_term=adkeyword
- Параметры Google Click Identifier. Также необходим для отслеживания данных о кампании, канале и ключевых словах в Google Analytics.
Например, посетители переходят по вашему объявлению для сайта http://site.net, и адрес страницы такой: http://site.net/?gclid=123xyz.
- Метка Openstat. Также нужна для анализа эффективности рекламных кампаний, трафика сайта и поведения посетителей. Выглядит так:
http://site.net/?_openstat=231645789
- Реферальная ссылка. Имеет специальный идентификатор, по которому фиксируется, откуда пришел новый посетитель. Например:
https://site.net/register/?refid=398992
http://site.net/index.php?cf=reg-newr&ref=Uncertainty
- Первая страница пагинации каталога товаров интернет-магазина или доски объявлений, блога, часто соответствует странице категории или общей раздела pageall:
http://site.net/catalog
http://site.net/catalog/page1
- Неправильные настройки ошибки 404 (несуществующая страница). Они должны отдавать код ответа сервера 404, а не 200, или перенаправлять на актуальную страницу. Например:
http://site.net/seo-audit-465745-seo
http://site.net/3333-???
Частичные дубли: что они представляют собой?
Частичные дубли — это когда частично контент дублируется на нескольких страницах, но они не одинаковы. Могут появляться из-за особенностей конкретной CMS. Найти такие дубли значительно сложнее, чем полные.
Такие появляются из-за страниц фильтров, сортировок и пагинации. Например, посетитель использует фильтр для поиска товаров, адрес страницы совсем немного меняется. В ответ на это поисковики индексируют страницу как отдельную. Контент при этом не меняется, а SEO-составляющая дублируется.
http://mysite.com/catalog/category/ — стартовая страница категории товаров;
http://mysite.com/catalog/category/?page=2 — страница пагинации.
С блоками комментариев и описаний почти та же ситуация. Если пользователь кликает на блок отзывов, это создает дополнительный параметр в адресе страницы, но она, по сути, остается такая же. Контент при этом не меняется, а просто открывается новый таб.
Страницы печати и PDF для загрузки полностью повторяют контент сайта. Как это выглядит?
http://site.net/novosti/novost1
http://site.net/novosti/novost1/print
Контент страницы полностью повторяет SEO-составляющую страницы сайта. Версия здесь проще, поскольку нет множества строк кода, который нужен для обеспечения работы функционала. Выглядит в сравнении это так:
http://mysite.com/main/hotel/al12188 — страница отеля
http://mysite.com/main/hotel/al12188/print — ЧБ версия для печати
http://mysite.com/main/hotel/al12188/print?color=1 — Цветная версия для печати.
Еще одна причина таких дублей – HTML-слепки страниц сайта, которые создаются технологией AJAX. Чтобы найти их, замените в оригинальном URL-адресе «!#» на «?_escaped_fragment_=». Чаще всего такие страницы индексируются лишь тогда, когда были неточности во внедрении метода индексации AJAX-страниц через перенаправление бота на страницу-слепок. В таком случае робот обрабатывает два URL-адреса: основной и его html-версию.
Основная опасность частичных дублей в том, что они не приводят к резким потерям в ранжировании, а делают это постепенно и незаметно для владельца сайта. То есть найти их влияние сложнее и они могут систематически, на протяжении долгого времени «отравлять жизнь» оптимизатору и его сайту.
Как обнаружить дубли на сайте?
Есть несколько способов, чтобы найти дубли страниц на вашем сайте.
Сервисы и программы
Screaming Frog Seo Spider и Netpeak Spider. Они отлично подходят для аудита и обнаружения дублей. Их боты покажут полный список URL-адресов. Затем его вы можете отсортировать по повторению Title или Description. Так вы найдете возможные дубли.
Поисковые операторы и фрагменты текста
Первый способ. Используйте поисковый оператор «site:». В Google введите запрос «site:examplesite.net». Он покажет страницы ресурса в общей индексации. Так будет видно количество страниц в выдаче.
В выдаче можно найти дубли, «мусорные» страницы. Их можно будет удалить из индекса, чтобы позиции сайта не падали из-за них.
Второй способ. Пользуйтесь поиском по фразе из текста со страниц сайта. Выбирайте такие, которые могут иметь копии. Возьмите в кавычки фразу из текста, после него ставьте пробел, добавляйте оператор «site:» и вводите в поисковую строку. Важно прописать ваш сайт, чтобы найти страницы, где есть именно такой текст. Например:
«Фрагмент текста со страницы сайта, которая может иметь дубли» site:examplesite.net
Если в выдаче поиска только одна страница, значит копий нет. Если вы видите несколько, проанализируйте их и выявите причины. Могут быть такие, которые нужно убрать максимально быстро.
С помощью оператора «intitle:» анализируем содержимое Title на страницах, которые есть в выдаче. Дублирование Title может означать дублирование страниц. Чтобы проверить эту теорию, используйте поисковый оператор «site:». Введите такой запрос:
site:examplesite.net intitle: полный или частичный текст тега Title
С операторами «site» и «inurl» можно определить копии, которые появились на страницах сортировок (sort) или фильтров и поиска (filter, search).
Для поиска страниц сортировок, напишите в поисковой строке:
site:examplesite.net inurl:sort
Для поиска страниц фильтров и поиска:
site:examplesite.net inurl:filter, search
Панель Search Console Google
Поисковые системы покажут копии страниц, и даже подскажут, как их устранить.
В Google Search Console в разделе «Покрытие» смотрим в пункт со страницами, исключенными из индексирования:
Serpstat
Тут вам нужен инструмент «Аудит сайта» от Serpstat. Он покажет технические ошибки. Перейдите в раздел «Метатеги» и найдите пункт «Дублирующийся Title» или «Дублирующийся Description».
К чему приводят дубли страниц на сайте?
Поисковые системы из-за разных адресов воспринимают такие страницы как разные. Это ведет к ряду проблем ранжирования и сопутствующих. Каких именно?
- Плохая индексация. Размер сайта из-за копий растет, а поисковики, индексируя избыточный объем страниц, неэффективно тратят краулинговый бюджет владельца сайта. Важные и действительно полезные для пользователей страницы могут игнорироваться индексацией.
- Не та страница в выдаче. Алгоритмы поисковой системы могут прийти к выводу, что копия больше релевантна запросу, и в выдаче будет не та страница, которую вы целенаправленно продвигали. Еще один сценарий – в выдаче не будет ни оригинала, ни копии.
- Утрата ссылочного веса страниц, которые вы продвигаете. Посетители могут давать ссылки на копии, а не на оригиналы. Как итог – естественная ссылочная масса теряется.
Что такое неинформативная страница?
Более 50-ти факторов ранжирования отвечают только за содержимое страницы. Также есть несколько смешанных – таких, что отвечают за текст и анкоры входящих ссылок и др.
Страницы сайта называют неинформативными, если они не оптимизированы под пользовательские потребности. Они никогда не принесут пользу вашему ресурсу. Не привлекут трафик, не сгенерируют лиды. Они даже могут сделать хуже и снизить поведенческие факторы. Пример:
Это, кроме того, могут быть страницы результатов поиска по сайту. Так бывает, если фрагмент /search/ в URLе не закрыт метатегом noindex. Еще одна причина – страница восстановления пароля открыта для индексации.
Как бороться с каждым типом дублей?
- Всегда используйте для закрытия от индексации только метатег Robots или HTTP-заголовок X-Robots-Tag. Этим методом можно пользоваться, если дубли появились из-за сортировок, фильтров и поиска внутри сайта. Так мы показываем поисковым роботам, какие страницы или файлы не нужно сканировать.
Используйте директиву «Disallow», которая запрещает поисковым ботам заходить на ненужные страницы.
User-agent: *
Disallow: /page
Если страница указана в robots.txt с директивой Disallow, она все равно может оказаться в выдаче. Так случается, если она была проиндексирована ранее/на нее есть внутренние или внешние ссылки.
- Настройка 301-редиректов с помощью файла “.htaccess”. Таким образом можно убрать копии главной страницы или ссылки реферальных программ, и этот способ считается основным в случае с полными дублями. С 301 редиректом вы передаете с дубля ссылочный вес. Работает в ситуациях, когда URL в разных регистрах, нарушена иерархия URL, для определения основного зеркала сайта или в ситуации со слешами в URL.
301 редирект используют, чтобы перенаправить с таких страниц:
http://site.net/catalog///product
http://site.net/catalog//////product
http://site.net/product
на страницу http://site.net/catalog/product
- Настройка атрибута rel=”canonical”. Подойдет для полных копий. Если страница хоть незначительно отличается – страницы не смогут склеиться. Помогает, когда страницу нельзя удалить и ее нужно оставить открытой для пользователей.
rel=”canonical” подходит для удаления копий, созданных использованием фильтров и сортировок, а также для адресов, сформированных с применением с get-параметров и utm-меток.
- Используется для печати, если содержание одинаково в разных языковых версиях и на разных доменах.
- Поддерживается не всеми поисковыми системами, но Google его отлично распознает.
- Эта ссылка указывает адрес страницы, которая должна быть проиндексирована.
- Тег. С ним вы удалите копии, создаваемые страницами печати и версиями PDF.
Для создания канонической, в HTML-код текущей страницы вставляем rel=»canonical» между тегами…. Выглядит так:
http://site.net/index.php?example=10&product=25
http://site.net/example?filtr1=%5b%25D0%,filtr2=%5b%25D0%259F%
http://site.net/example/print
Каноническая в этом случае – страница:
http://site.net/example
В HTML коде это будет выглядеть так:
<link rel=»canonical» href=»http://site.net/example»/>
- Метатег <meta name=»robots» content=»noindex, nofollow> и <meta name=»robots» content=»noindex, follow>. Первый дает команду роботу не подвергать индексации документ и не переходить по ссылкам.Это прямая директива, которая не проигнорируется поисковыми роботами. Второй дает команду роботу не подвергать индексации документ, но при этом переходить по ссылкам, которые в нем размещены.
Размещенный метатег выглядит так:
<meta name=»robots» content=»noindex, nofollow»/>
<meta name=»robots» content=»none»/>
<meta name=»robots» content=»noindex, follow»/>
Остались вопросы или хотите уточнить, как бороться с конкретным видом дубликатов страниц? Задавайте вопросы в комментариях – отвечу на все детально и подписывайтесь на другие полезные материалы в нашем Телеграм-канале.