Что такое карта сайта (файл Sitemap)?
XML-карта — список страниц сайта в формате XML, доступных для сканирования поисковым роботам. Следует отличать XML-карту от обычной карты сайта HTML.Содержание статьи
- Sitemap.html и Sitemap.xml в чем разница
- Что такое карта сайта?
- Как выглядит sitemap.xml?
- Структура файла sitemap.xml
- Зачем вам нужна карта сайта?
- Нужен ли мне файл Sitemap?
- Какие бывают карты сайта?
- Как создать карту сайта?
- Как проверить корректность карты сайта
- Основные ошибки при составлении карты сайта
- Как правильно указать ссылку на sitemap.xml в robots.txt
- Как построить XML-карту для мультиязычных сайтов
- Как сообщить поисковику о карте сайта
- Как часто должна обновляться карта сайта?
- Рекомендации Google
- Какие возможности дает карта сайта?
- Влияет ли Sitemap на продвижение?
XML-карта сайта позволяет:
- определить местонахождение страниц сайта;
- указать время последнего обновления страниц;
- определить частоту (периодичность) обновления и важность относительно других страниц сайта;
- определить приоритет страниц в структуре.
Корректно настроенная карта позволяет повысить индексацию страниц веб-сайта.
В чем разница между Sitemap.html и Sitemap.xml
Карта сайта HTML — страница sitemap.html с функцией упрощения навигации — она позволяет найти любую страницу на большом сайте и сократить количество переходов при ее поиске.
Карта сайта XML — файл с подробным списком страниц веб-сайта для поисковой системы.
Что такое html карта сайта?
HTML карта сайта — это статическая HTML-страница со ссылками на все основные страницы сайта. Такой формат карты больше ориентирован на посетителей сайта и позволяет перейти на любую страницу в 1 клик.
Sitemap.html, в большинстве случаев, представляет структуру дерева с развернутыми разделами.
Чаще всего ссылка на html-карту сайта расположена в футере:
Если у сайта очень сложная структура, то HTML-карта может состоять из страниц с дополнительным уровнем вложенности.
Что такое sitemap.xml?
Это файл xml-формата в корневой папке сайта, который читается всеми существующими поисковиками. Основная роль sitemap.xml — указать поисковым системам:
- все страницы, которые необходимо проиндексировать;
- когда страницы появились или обновились;
- как часто перепроверять страницы на обновление.
Как выглядит sitemap.xml?
Пример файла — https://inweb.ua/sitemap.xml. Один файл sitemap.xml может содержать не более 50 000 ссылок. Если их более 50 000, необходимо создать несколько таких файлов. Дополнительные параметры — возможность указать частоту обновления страниц и приоритет индексации. Корректная кодировка файла sitemap.xml должна быть UTF-8, а размер не более 10 Мб.
Пример карты сайта в формате.xml:
https://site.com.ua/</loc> 2020-12-18T18:54:13+04:00 always 1.0 https://site.com.ua/category/</loc> 2020-12-18T18:57:09+04:00 hourly 0.8 https://site.com.ua/page/</loc> 2020-12-18T18:59:37+04:00 daily 0.6
Структура файла sitemap.xml
Объявление XML
В данной строке мы сообщаем поисковой системе, что она имеет дело с XML-файлом. Тут же указывается версия XML и кодировка, которая используется (обязательно использовать UTF‑8).
URL set
urlset — место хранения всех URL-адресов карты сайта. В этой строке краулерам сообщают стандарт протокола, который используется. Большинство карт указывают стандарт Sitemap 0.9.
URL
https://site.com.ua/</loc> 2020-12-21T16:12:20+03:00
url — родительский тег для каждого URL-адреса. Необходимо указать URL-адрес во вложенном теге loc.
В теге url можно указать дополнительные теги:
- lastmod — указывает дату последнего изменения файла. Формат даты должен быть W3C Datetime. Например, если страница обновлена 17 октября 2020 года, в атрибуте необходимо указать значение 2020-10-17. Дополнительно также можно указать время.
- priority — указывает приоритет URL-адреса относительно всех остальных. Диапазон значений от 0.0 до 1.0. Чем больше значение, тем выше приоритет.
- changefreq — указывает частоту изменений страницы. Цель данного свойства — сообщить поисковой системе о том, как часто им может понадобиться повторно сканировать URL-адреса. Допускаются значения: never (никогда), always (всегда), hourly (каждый час), daily (ежедневно), weekly (еженедельно), monthly (ежемесячно) и yearly (ежегодно).
Дополнительные теги не особо важны для SEO. Гэри Илш из Google утверждает, что значение тега lastmod игнорируют, так как в большинстве случаев «вебмастера совершенно не стараются следить за его точностью».
Тег priority в Google, по их словам, игнорируется, потому что это просто «лишний шум».
Относительно тега changefreq Джон Мюллер говорит: «Приоритет и изменение частоты на самом деле больше не играют такой большой роли, когда речь идет о карте сайта».
Обязательные теги
Атрибут | Oписание |
urlset | Инкапсулирует этот файл и указывает стандарт текущего протокола. |
url | Родительский тег для каждой записи URL-адреса. Остальные теги являются дочерними для этого тега. |
loc | URL-адрес страницы. Этот URL-адрес должен начинаться с префикса (например, HTTP) и заканчиваться косой чертой, если Ваш веб-сервер требует этого. Длина этого значения не должна превышать 2048 символов. |
Необязательные теги
Атрибут | Oписание |
lastmod | Дата последнего изменения файла. Формат даты: W3C Datetime (ГГГГ-ММ-ДД). Формат не обязывает использовать сегмент времени. Данный тег не имеет отношения к заголовку If-Modified-Since (304). |
changefreq | Частота изменения страницы. Значение является подсказкой и может не соответствовать точной частоте изменения страницы. Допустимые значения:
Значение «always» необходимо использовать для описания документов, которые изменяются при каждом доступе к этим документам. Значение «never» необходимо использовать для описания архивных URL-адресов. Следует понимать, что если установить частоту обновлений, к примеру, раз в час hourly — робот не станет индексировать страницу так часто. |
priority | Значение задает приоритетность URL относительно других URL на сайте. Допустимый диапазон значений — от 0,0 до 1,0. Значение является подсказкой и не влияет на процедуру сравнения важности страниц (указывает поисковой системе, какие страницы, по вашему мнению, более важны для сканеров).
Значение по умолчанию — 0,5. Добавление высокого приоритета ко всем URL не имеет смысла, так как приоритетность — величина относительная, этот параметр используется, чтобы определить очередность обработки URL в пределах сайта. |
Зачем вам нужна карта сайта?
Поисковая система обнаруживает новый контент, сканируя веб-страницы. Когда поисковик сканирует страницу, то учитываются и внутренние, и внешние ссылки на нее. Если обнаруженный URL-адрес не содержится в индексе, поисковик, если ему нужно, может спарсить и проиндексировать контент. Но таким образом Google не сможет найти весь контент: если на страницу нет ссылок с других, уже известных ему, страниц, он ее вряд ли обнаружит. Вот тут-то и вступает в игру карта сайта. Карта сайта сообщает Google (и другим поисковикам), где найти наиболее важные страницы для сканирования и индексирования.
Нужен ли мне файл Sitemap?
Если на сайте корректно указаны ссылки на необходимые страницы, роботы поисковых систем смогут обнаружить большую часть из них. С помощью файла Sitemap можно оптимизировать сканирование крупных или сложных сайтов, а также специализированных файлов.
Порядок сканирования и индексирования определяется сложными алгоритмами и даже если вы создали файл Sitemap, это не гарантирует, что все ваши страницы будут просканированы и индексированы. Зачастую использование файла Sitemap помогает оптимизировать этот процесс и предотвратить ошибки.
В каких случаях вам может потребоваться файл Sitemap
Файл Sitemap нужен в случаях если:
- Большой сайт. Многостраничность может привести к тому, что бот поисковой системы пропустит новые (измененные) страницы.
- У сайта отсутствует связанная структура страниц. Например, есть большой архив страниц, которые не связаны между собой.
- Сайт молодой — содержит малое количество внешних ссылок.
- На сайте присутствует большой объем мультимедийного (видео и картинки) или новостного контента. Из файлов карт сайта xml поисковая система может получать дополнительную информацию для показа в результатах поиска.
В каких случаях вам не требуется файл Sitemap
Файл Sitemap не нужен в случаях если:
- Сайт мал.
- Сайт максимально структурирован, то есть реализована детальная система внутренних ссылок. Роботы поисковых систем могут перейти на все значимые страницы, следуя по ссылкам с главной.
- На сайте немного медиафайлов (например, видео и изображений) или новостных страниц.
Какие бывают карты сайта?
XML-sitemap для изображений
Кроме XML-карт для страниц можно создавать отдельные карты сайта для изображений, помогающие поисковым системам найти контент, который невозможно обнаружить иными способами (например, контент, который загружается с помощью JavaScript).
В картах изображений используются теги:
image:image | Вся информация об одном изображении. Тег <loc> может включать до 1000 тегов image:image. |
image:loc | URL изображения. |
В картах изображений, можно использовать необязательные теги:
image:caption | Подпись к изображению. |
image:geo_location | Место съемки. |
image:title | Название изображения. |
image:license | URL лицензии изображения. |
Пример XML sitemap для изображений:
https://site.com.ua/page.html/</loc> https://site.com.ua/pic1.jpg https://site.com.ua/pic2.jpg
XML sitemap для видео
Как и в случае с изображениями, если на сайте присутствуют уникальные видеозаписи, — для них можно создать отдельную XML-карту.
С помощью карты сайта для видео можно сообщить поисковой системе:
- название;
- описание,
- продолжительность;
- миниатюру и т. д.
Обязательные теги:
- loc — страница с видеозаписью;
- video:title — название видео длиной не более 100 символов;
- video:player_loc — где находится плеер для видео;
- video:content_loc — где находится конкретное видео;
- video:thumbnail_loc — миниатюра видео размером более 120х90px;
- video:video — контейнер с описанием видео;
- video:description — описание видео, до 2000 символов.
В карту сайта для видео можно добавить необязательные теги:
- video:duration — длительность видео в секундах, максимум 8 часов;
- video:category — к какой категории относится видео;
- video:uploader — кто добавил видео. Допускается указать одно имя для одного файла;
- video:requires_subscription — требуется ли для просмотра видео подписка (и платная и бесплатная). Доступны значения: yes, no;
- video:publication_date — дата публикации, в формате YYYY-MM-DD или YYYY-MM-DDThh:mm:ss+TZD;
- video:family_friendly — доступно ли видео для безопасного поиска или нет;
- video:restriction — список стран, в которых воспроизводится или не воспроизводится видео. Указывается в виде кодов стран в формате ISO 3166. Для каждого видео допускается только один тег <video: restriction. При отсутствии тега <video: restriction>, предполагается возможность воспроизводить на всех территориях;
- video:gallery_loc — ссылка на галерею;
- video:expiration_date — дата и время, когда видео становится неактуальным;
- video:price; — стоимость (указывается валюта в формате ISO 4217);
- video:rating — рейтинг видео. Доступны значения: от 0 до 5;
- video:tag — теги видео;
- video:platform — список платформ на которых доступно воспроизведение видео. Доступны значения: mobile, web, tv. При отсутствии тега предполагается, что видео может воспроизводиться на всех платформах;
- video:view_count — количество просмотров;
- video:live — указывает на то, является ли видео прямой трансляцией (live). Доступные значения: yes, no.
Пример:
https://site.com.ua/videos/video_1.html/</loc> https://site.com.ua/thumbs/video_1.jpg Обзор смартфона Apple iPhone 12 mini Подробный обзор внешнего вида и функций смартфона Apple iPhone 12 mini от интернет-магазина site.com.ua.https://site.com.ua/videoplayer.swf?video=123 600 4.3 1223 2020-12-22T19:20:30+03:00 yes no
Google «поддерживает» следующие форматы:
- .mpg, .mpeg, .mp4, .m4v;
- .wmv;
- .asf, .avi;
- .ra, .ram, .rm;
- .mov;
- .flv.
XML-карта для Google Новостей
Для сайтов-новостников целесообразно создать отдельную sitemap новостных публикаций с динамической генерацией и ежедневным обновлением. Данные файлы будут работать только для ресурсов, добавленных в Google Новости.
Файл sitemap новостей должен содержать только URL статей, опубликованных за последние два дня. Статьи, опубликованные более двух дней назад, можно удалить из файла, при этом они останутся в индексе Google Новостей в течение 30 дней. Карта сайта новостей может содержать не более 1000 URL. Если на сайте за два дня появляется больше количество новостей, можно создать файл индекса sitemap для нескольких карт.
Обязательные теги:
- news:publication — общий тег, указываем издание. У данного тега есть два обязательных дочерних тега:
- news:name; — название издания;
- news:language — язык в формате ISO 639;
- publication_date — дата публикации в формате W3C (указываем полную дату. Поисковой робот Google понимает даты вплоть до долей секунд, например: ГГГГ-ММ-ДДTчч:мм:cc.с±чч:мм (2017-05-10T19:20:30.45+01:00)
- news:title — название статьи, аналогичное названию на сайте.
Кроме этого, существуют необязательные теги:
- news:genres — свойства статьи. Допустимые значения:
- PressRelease — пресс-релиз;
- Satire — статья, которая выставляет предмет обсуждения в комической форме.
- Blog — статья опубликована в формате блога.
- OpEd — статья, которая выражает личное мнение и размещенная в колонке редактора.
- Opinion — статья, которая выражает личное мнение и не размещенная в колонке редактора. К данному тегу относятся рецензии колумнистов и интервью.
- UserGenerated — любой материал, созданный пользователем и прошедший редакторскую правку.
- keywords — ключевые слова;
- stock_tickers — список биржевых/финансовых символов (не более пяти, через запятую). Перед каждым символом необходимо указывать название соответствующей биржи, совпадающее с записью в Google Финансах, например NASDAQ:AMAT или BOM:500325. Используется для статей о бизнесе.
Пример sitemap для Google Новостей:
https://site.com.ua/news/wow55.html/</loc> Новости ru Blog 2020-12-27 Стоимость биткоина впервые превысила $25 тыс. биткоин, крипта, деньги, курс
Как создать карту сайта?
Некоторые CMS по-умолчанию генерируют карту сайта. Она будет обновляться автоматически, если вы будете добавлять или убирать страницы. Если CMS этого не делает, скорее всего есть возможность установить для нее соответствующий плагин.
Создание карты сайта в WordPress
Один из способов сгенерировать карту сайта для WordPress это воспользоваться плагином Yoast SEO. Для установки Yoast SEO, перейдите в консоль WordPress.
Выберите пункт Плагины > Добавить новый.
Найдите «Yoast SEO».
Нажмите кнопку «Установить», а затем — «Активировать».
Перейдите в раздел SEO > Общие > Возможности и убедитесь, что «XML-карта сайта» включена.
Создание карты сайта без CMS
Сгенерировать XML-карту сайта можно с помощью программ краулеров, например Screaming Frog или Netpeak Spider.
Создание карты сайта с помощью Screaming Frog
Откройте раздел Mode > Spider
Вставьте URL-адрес главной страницы в поле с подписью «Enter URL to spider».
Нажмите кнопку «Start».
Когда сканирование завершится, перейдите в раздел Sitemaps > XML sitemap.
Так как теги lastmod, changefreq и priority являются несущественными, их можно не включать в файл sitemap.xml.
Нажмите «Export» и сохраните файл sitemap.xml на компьютере. Готово.
Создание карты сайта с помощью Netpeak Spider
Вставьте URL-адрес главной страницы в поле с подписью «Начальный URL».
Нажмите кнопку «Старт».
Когда сканирование завершится, перейдите в раздел Инструменты > Генератор Sitemap.
Как и в случае с Screaming Frog, теги lastmod, changefreq и priority можно не включать в файл sitemap.xml.
Нажмите «Сгенерировать…» и сохраните файл sitemap.xml на компьютере. Готово.
Как проверить корректность карты сайта
Для проверки корректности XML- карты сайта можно воспользоваться инструментом Netpeak Spider. Подробный мануал по проверке с помощью валидатора XML описан в статье.
Основные ошибки при составлении карты сайта
При составлении карты сайта самыми распространенными ошибками являются:
- редиректы;
- битые ссылки;
- некорректные даты публикации или обновления контента.
Ошибки не являются критичными для поисковых систем, но их устранение позволит направить высвободившиеся ресурсы поискового робота на переобход важных страниц.
Как правильно указать ссылку на sitemap.xml в robots.txt
Во-первых, XML-карту сайта необходимо создать и загрузить на сервер, затем необходимо добавить указание о наличии файла. Для этого пропишите в robots.txt следующую строку:
Sitemap: {url-файла-sitemap},
где {url-файла-sitemap} — это полный URL вашей карты сайта.
User-Agent: * Sitemap: httрs://mysite.com/sitemap.xml
Как построить XML-карту для мультиязычных сайтов
С помощью файла sitemap.xml можно передать Google атрибут rel=”alternate” hreflang=”x”.
Пространство имен XHTML должно быть указано так:
xmlns:xhtml=”http://www.w3.org/1999/xhtml”
Для каждого адреса необходимо создать отдельный элемент URL, который должен включать:
- Тег loc, который указывает на URL-адреса;
- Подэлемент xhtml:link rel=”alternate” hreflang=”XX” для каждой альтернативной версии страницы, обязательно включая текущую версию.
Например, на сайте существуют 3 языковые версии:
- русская (mysite.com/ru/);
- украинская (mysite.com/ua/);
- английская (mysite.com/en/).
Ниже приведен пример карты сайта, которая сообщает, что у страницы mysite.com/ru/ существует соответствующая версия на английском и украинском языках:
https://mysite.com/ru//</loc> https://mysite.com/ua//</loc> https://mysite.com/en//</loc>
Как сообщить поисковику о карте сайта
В первую очередь необходимо определить, где находится карта сайта. Чаще всего при использовании плагина, сгенерированная карта сайта будет находиться по URL-адресу domain.com/sitemap.xml. В случае, если вы генерируете карту сайта вручную, назовите ее sitemap.xml и загрузите в корневой каталог вашего веб-сайта. После этого карта сайта будет доступна по адресу domain.com/sitemap.xml.
Как отправить карту сайта в Google
Чтобы отправить карту сайта через Google Search Console, необходимо:
- Выбрать сайт в Google Search Console:
- Выбрать «Файлы Sitemap»:
- Добавить URL-адрес файла Sitemap и нажать на кнопку «Отправить»:
Готово.
Как часто должна обновляться карта сайта?
Стандартизованного норматива по количеству обновлений нет. Все зависит от частоты создания новых страниц на сайте, изменений адресов или контента, а также связей уже существующих страниц.
Не стоит забывать, что данные, указанные в Sitemap, поисковый робот воспринимает как рекомендации: если установить частоту обновлений, к примеру, раз в час — робот не станет индексировать страницу так часто.
Рекомендации Google
Обязательно:
- карта содержит не более 50 000 URL;
- общий размер до 50 Мб (в несжатом виде).
Форматы, которые поддерживает Google в качестве sitemap:
- XML — стандартный файл;
- RSS, media RSS и Atom 1.0 — подходит для блогов с фидом RSS или Atom;
- текстовый файл .txt.
Основные требования к текстовым файлам:
- используется кодировка UTF-8;
- файл не содержит ничего, кроме списка URL;
- текстовому файлу можно дать любое имя, но только с расширением .txt (например, sitemap.txt).
Какие возможности дает карта сайта?
Поисковики способны просканировать все адреса сайта самостоятельно, но создание карты сайта поможет им узнать, как это лучше сделать.
Карта сайта позволяет:
- Найти новые страницы на ресурсе и проиндексировать их.
- Расставить приоритетность страниц.
- Отследить изменения на индексируемых страницах.
- Контролировать индексацию страниц (например с помощью отчета об индексировании в разделе Файлы Sitemap в Google Search Console).
- Запомнить частоту обновления индексируемых страниц.
Влияет ли Sitemap на продвижение?
Карта сайта — удобный инструмент для упрощения передачи структуры сайта поисковой системе. При этом стоит не забывать, что карта сайта никак не взаимосвязана с ранжированием. Без нее можно обойтись. Поисковик и так рано или поздно доберется до большинства веб-страниц, но с картой сайта переобход или индексация новых страниц будут более эффективными.