Полезные статьи

Критичная ошибка Я.Вебмастер: "Найдены страницы-дубли с GET-параметрами" — как её решить?

21 октября 2021

С лета 2021 года Яндекс.Вебмастер стал информировать вебмастеров о наличии на сайтах страниц-дублей с GET-параметрами, причем помечается эта проблема как критичная. В этой статье мы расскажем, что это за проблема и как её решить проще всего.

Содержание:

Что такое страницы дубли с GET-параметрами
Четыре основных способа убрать дубли страниц из индекса

2.1. Clean-param
2.2. Disallow
2.3. Атрибут rel="canonical"
2.4. Метатег robots

Самый эффективный способ избавления от страниц-дублей с GET-параметрами

3.1. Webasyst/Shop-Script
3.2. 1С-Битрикс

1. Что такое страницы дубли с GET-параметрами

Для начала определимся с тем, что такое "GET-параметр" – это динамический параметр в URL страниц, с помощью которого можно динамически менять контент документа. Их можно заметить, в URL-адресе находятся после символа «?» и разделяются между собой знаком «&». Эти параметры могут генерироваться как изнутри, системой управления сайтом, например, различные страницы пагинации или сортировки (?page=2 или ?sort=abc), так и извне, например, мы самостоятельно можем добавить UTM-метки для отслеживания трафика или любые другие рандомные параметры.

Страницы с GET-параметрами считаются поисковыми системами как полноценные самостоятельные документы и при наличии схожего контента часто определяются как дубли, например, site.ru и site.ru?utm_source=test, будут признаны дублями.

2. Четыре основных способа убрать дубли страниц из индекса

2.1. Clean-param

Clean-param – специальная директива для файла robots.txt, в которой вы перечисляете все параметры, нуждающиеся в закрытии, то есть, если поисковый робот Яндекса будет видеть такой URL, то не будет посещать данную страницу.

Как использовать: перечислите в файле robots.txt, в одной или нескольких директивах Clean-param, все параметры, которые встречаются в URL вашего сайта, через амперсанд (значок «&»), например, «Clean-param: page&sort», чтобы закрыть URL вроде site.ru?page=2 и site.ru?sort=abc.

Преимущества:

Передает показатели страницы на основную.

Недостатки:

Учитывается только поисковой системой Яндекс.
Придется постоянно отслеживать появление новых параметров и добавлять их.
Длина директивы ограничена 500 знаками.

2.2. Disallow

Disallow – директива для файла robots.txt, которая полностью закрывает от индексации URL, имеющие GET-параметры.

Как использовать: просто добавьте в файл robots.txt директиву «Disallow: *?*».

Преимущества:

Быстро и просто.
Учитывается всеми поисковыми системами.

Недостатки:

Роботы совсем не посещают страницы с Get-параметрами, а значит и не имеют возможности просматривать их содержимое, а оно может отличаться, как например, на страницах пагинации могут содержаться разные товары.
Не передает показатели страницы на основную.

2.3. Атрибут rel="canonical"

Canonical – атрибут тега link, позволяющий указывать каноническую страницу, тем самым сообщать, какой URL является основным, а какой дублем.

Как использовать: на страницах с GET-параметром, в блоке <head> разместите тег link с указанием канонической страницы, без параметра, например, на странице site.ru?page=2 нужно указать тег <link rel="canonical" href=" site.ru?page=2">.

Преимущества:

Передает показатели страницы на основную.
Учитывается всеми поисковыми системами.

Недостатки:

Не строгое правило, поэтому часть страниц все равно попадают в индекс поисковых систем.
Необходимо привлечение разработчиков для реализации на всех нужных страницах по условиям.

2.4. Метатег robots

Noindex – атрибут метатега robots, закрывающий конкретные страницы от индексации, при этом, позволяющий поисковым роботам заходить на такие страницы и видеть контент.

Как использовать: на страницах с GET-параметром, в блоке <head> разместите мета-тег robots, например, на странице site.ru?page=2 нужно указать мета-тег <meta name="robots" content="noindex" />.

Преимущества:

Строгое правило для роботов поисковых систем, позволяющее удалить все страницы из поисковой выдачи.
Учитывается всеми поисковыми системами.

Недостатки:

Не передает показатели страницы на основную.
Необходимо привлечение разработчиков для реализации на всех нужных страницах по условиям.

3. Самый эффективный способ избавления от страниц-дублей с GET-параметрами

Идеальным решением будет использование сочетания двух методов noindex и сanonical, которые будут компенсировать недостатки друг друга.

Атрибут rel="canonical" будет передавать все параметры со страницы с GET-параметрами на основную, при этом, noindex метатега robots будет более строгим правилом, что позволит сократить количество дублей страниц до минимума. Кроме того, оба этих способа работают для всех поисковых систем, а не только для Яндекс.

Далее мы рассмотрим несколько готовых решений для популярных CMS, которые позволять идеально реализовать удаление страниц-дублей с GET-параметрами из индекса поисковых систем:

3.1. Webasyst / Shop-Script

Для данной CMS разработаны два плагина:

"Meta Robots Tag" — проставляет метатег robots.
"Link canonical" — проставляет атрибут rel="canonical".

Плагины добавляют на страницы нужные теги, причем делают как для страниц с GET-параметрами, так и для различных других технических страниц. Их можно гибко настраивать под свои нужды.

3.2. 1С-Битрикс

Проставление атрибута rel="canonical" можно настроить с помощью готового решения:

Канонические ссылки (canonical)

А для простановки тега robots нет готового решения, но можно разместить код в шаблоне темы дизайна.

Теперь вы знаете как избавиться от дублей в Яндекс.Вебмастере и удалить лишние страницы с GET-параметрами из индекса поисковых систем эффективнее всего.

Требуется помощь с выбором услуги?

Отправьте ссылку на сайт и получите предложение

Согласен с условиями обработки персональных данных

Написать в WhatsApp Написать в Telegram