Шукаємо дублі за допомогою нового Яндекс Вебмастера

Нещодавно Яндекс запустив бета тестування оновленого сервісу для веб-майстрів.

В Яндекс Вебмайстер додали нові звіти, істотно поліпшена візуалізація даних, змінився інтерфейс та багато іншого.

Нововведень досить багато, але сьогодні хотілося б зупинитися на звіті «Статистика індексування», і як з його допомогою можна виявити дублі та сміттєві сторінки.

На багатьох сайтах є неінформативні сторінки, які сканують пошукові системи, але не додають у свій індекс, тому що розуміють що вони з’явилися в результаті технічних помилок. Робота seo фахівця  полягає в тому, щоб усунути всі проблеми в скануванні та індексування ресурсу.

Якщо ми усунемо десятки, а то і сотні сміттєвих сторінок, на сканування яких витрачають час пошукові системи, ми зможемо збільшити частоту сканування та індексування корисних сторінок сайту, а отже і поліпшити ранжування ресурсу в пошукових системах.

На сторінці звіту «Статистика індексування» ми зможемо дізнатися:

  • Які сторінки сайту сканує робот;
  • Які сторінки робот виключив з пошуку;
  • Які сторінки проіндексовані та знаходяться в індексі пошукової системи Яндекс.

Статистика индексування

Для пошуку дублікатів і сміттєвих сторінок досить проаналізувати повний список завантажених Яндексом url-адрес.

У сервісі є можливість вивантажити архів з усіма url-адресами, які були проскановані роботом Яндекса. Для завантаження потрібно перейти за посиланням:

Список загруженных страниц

У підсумку ми отримуємо файл у форматі .tsv, відкрити який можна через Excel, Libre Office або простий блокнот.

таблица с список просканированных страниц

Файл також містить наступні дані:

  • Коди відповіді сервера.
  • Дату останнього сканування в форматі Unix time, перетворити можна, задавши в консолі запит виду date -r.
  • Проіндексованості сторінок.
  • У стовпці “Double” знаходяться посилання на дублікати сторінки, якщо вони є.

Приклади знайдених помилок на сайтах завдяки даним про завантажені сторінки роботами Яндекса:

Сайт asteria.ua:

Були виявлені наступні сторінки:

http://asteria.ua/special/razdel/104.html
http://asteria.ua/uslugi/razdel/77.html
http://asteria.ua/kompaniya/razdel/27.html
http://asteria.ua/partneri/razdel/4.html

Це повні дублікати сторінок сайту, вони не проіндексовані, але регулярно скануються Яндексом, отже їх потрібно якомога швидше усунути.

Ще кілька сторінок дублікатів:

http://asteria.ua/index.php?get=easytostart.html
http://asteria.ua/index.php?get=vkluchenie.html
http://asteria.ua/index.php?get=uslugi.html
http://asteria.ua/index.php?get=kontakti.html
http://asteria.ua/index.php?get=shtraf_uvelichili.html

Ці сторінки, на момент аналізу, перенаправляли користувачів на коректні url-адреси з ЧПУ, але віддавали код 200, а не 301.

Сайт novebti.ua:

Були знайдені дублікати головної сторінки сайту:

http://novebti.ua/?razdel=uslugi_view&content=41
http://novebti.ua/?razdel=uslugi_view&content=1
http://novebti.ua/?razdel=uslugi_view&content=26
http://novebti.ua/?razdel=reviews

З цих сторінок потрібно написати link rel=”canonical” на головну сторінку сайту.

А також дублікати інших сторінок сайту:
http://novebti.ua/index.php?do=contacts
http://novebti.ua/index.php?do=uslugi/razrabotka_gradostroitelnogo_rascheta

Сторінки пагінації та тегів:
http://novebti.ua/faq?ask=true?p=35
http://novebti.ua/article?tag=%CD%EE%E2%EE%F1%F2%E8%20%EA%EE%EC%EF%E0%ED%E8%E8
http://novebti.ua/faq?ask=true?p=40
http://novebti.ua/faq?p=47

Сторінки такого типу найкраще закривати за допомогою метатегу robots=”noindex, follow”.

Сайт asiamshop.com.ua :

Було виявлено безліч сторінок виду:
http://asiamshop.com.ua/component/jcomments/captcha/32798
http://asiamshop.com.ua/component/jcomments/captcha/42306

Таких сторінок багато десятків, вони генеруються модулем коментування jcomments, такі сторінки потрібно закрити від сканування, через те, що вони не несуть ніякої цінності. Оскільки у цих сторінок немає можливості прописати метатег robots, краще їх закрити за допомогою файлу Robots.txt.

Висновок:

Основна перевага сервісу полягає в тому, що ми аналізуємо базу url-адрес пошукової системи, а не парсеру сторінок сайту, який не зможе знайти url-адреси на які немає внутрішніх посилань.
Використовуючи інструмент «Статистика індексування» в новому Яндекс Вебмайстрі можна протягом 30 хвилин проаналізувати сторінки, які відвідує робот, виявити проблеми та продумати варіанти їх вирішення.