Дубли страниц с незначащими GET-параметрами: почему это проблема и как их отыскать?

Самый быстроходный корабль будет плестись как черепаха, если он чрезмерно нагружен бесполезными вещами. Этот избыточный груз называется балластом, и чем его меньше – тем эффективнее движение корабля. Это правило срабатывает в любой сфере жизни, в том числе — при продвижении сайтов. Потому что на многих порталах тоже есть такой балласт — это дубли страниц с незначащими GET-параметрами. И чтобы понять, почему они помеха, давайте начнем с понимания того, чем они являются.

Что такое GET-параметры и как они приводят к появлению страниц-дублей

Когда говорят о GET-параметрах, под этим термином подразумевают такие параметры, которые включаются в структуру URL той или иной веб-страницы и вместе с ним отправляются серверу. Отыскать такие параметры нетрудно – в начале каждого из них проставляется символ «вопросительный знак», а если их в URL несколько – они разделяются значком «&». GET-параметры делятся на две группы: если они каким-то образом меняют содержимое веб-страницы – он признается значимым, если же он никак на него не влияет – он именуется «незначащим».
Для чего нужен такой незначащий параметр? Он используется для пометок трафика и находит себе применение в веб-аналитике – именно так используются, например, параметры «from» или «utm_source».
У использования GET-параметров, которые считаются незначащими, есть одна неприятная для продвижения сайта особенность. С точки зрения посетителей, веб-страницы, включающие и не включающие в свои URL подобные параметры, ничем по отображаемому содержанию не отличаются. А вот с точки зрения сервера — это два разных URL, две различные веб-страницы, то есть фактически это – дубли.

Почему подобные дубли – это балласт?

Ключевая беда, которая способна достаточно дорого вам обойтись – это то, что разными такие страницы считает поисковая система. И из-за этого у вас на руках сразу четыре проблемы:

падает скорость, с которой ваш сайт обходит поисковый робот. Чем обширнее число имеющихся на портале дублей – тем медленнее идет процесс. А чем меньше скорость этого процесса – тем больше времени нужно, чтобы в поиск попали те страницы, которые имеют настоящую ценность;
начинаются сюрпризы с попаданием в поисковую выдачу тех страниц, которые вам по-настоящему нужны. Все дело в том, что из всех найденных дублей выбор той, которая будет отражаться в поиске, предоставлен целиком и полностью на усмотрение поискового робота. И туда запросто способно попасть абсолютно не то, на что вы рассчитывали;
наличие дублирования приводит к печальному последствию — страницы падают в поисковой выдаче. Ведь робот воспринимает их как различные, и по этой причине не делает их объединение для целей поиска, и по каждому дублированию поступает различный неагрегированный поток сигналов. Если бы такие сигналы принимались только от одной из страниц — они бы могли суммироваться, и страница в поисковой выдаче оказывалась бы на более высоком месте;
излишне нагружается сайт – и появляется такая нагрузка из-за робота, который обходит ненужные страницы.

Когда речь заходит об интернет-магазинах, то проблема дублей нагляднее всего проявляется на страницах с фильтрами. Скажем, пользователь выбирает товары, ориентируется на дорогие ценники и при выборе использует фильтр «Цена», меняя в нем значения – и информация о предпочтительных для него ценах будет сообщена веб-аналитике. Но на практике потенциальный покупатель получит в большинстве случаев все равно страницу с одной и той же товарной выборкой. Зато поисковая система получит сигнализацию от большого числа типовых страниц с идентичным содержимым, вся разница между ними заключается в том, что в их адресе красуется незначащий GET-параметр «price=». Но дотошный робот поисковой системы со всей педантичностью потратит на них много времени – а до важных страниц доберется ощутимо позднее.

Как отыскать дублирование

Яндекс гибко откликается на потребности владельцев онлайн-порталов. Поэтому в разделе «Диагностика» теперь предусмотрено особое уведомление – оно как раз и просветит о дублях, появляющихся в связи с использованием GET-параметров. Подписываться на него нет необходимости – оно отобразится само.
Тонкость здесь, однако, в том, что соответствующий алерт отобразится не сразу с обнаружением дублирования, а с заминкой в два-три дня, так что в случае отображения исправленных страниц нет никакого повода паниковать, потому что такое происходит из-за задержек, возникающих в процессе обработки информации. И полезно знать, что, если имеющийся дубль содержит параметр «amp! – он просто не способен отображаться в алерте.
При отыскании дубля:

переходите к «Вебмастеру»;
выбираете в нем раздел «Страницы в поиске» и переходите туда;
появляется табличная форма, в которой следует выбрать «Исключенные страницы»;
загружаете соответствующий архив, причем для него на ваш вкус выбирается формат в нижней части страницы;
просматриваете файл, который скачали — и видите, что каждая из страниц-дублей в нем помечена статусом «DUPLICATE».

Что предпринять, чтобы нужные страницы оказались в поиске

Процесс предельно прост:

отыскиваете файл под названием «robots.txt», открываете его и вносите в содержимое директиву «clean-param» — благодаря этому робот перестанет вести учет включенных в адрес страницы незначащие GET-параметры и не будет делать многократный обход повторяющегося контента. Сократится уровень нагрузки, а вот эффективность обхода, наоборот – вырастет;
в том случае, когда предыдущий вариант не применим, можно указать для страницы канонический адрес и только он станет использоваться для целей поиска. Минус такого подхода в том, что разгрузить сайт таким путем не получится, и робот Яндекса, чтобы добраться до «rel=canonical», будет всё равно вынужден обходить страницы. Поэтому при наличии выбора – выбирать лучше все-таки предыдущий вариант;
если ни первый, ни второй вариант вас почему-то не устраивают, закрыть дубли от индексации вам позволит директива «Disallow». Здесь минус в том, что с подобной запрещенной страницы яндексовский поиск в принципе не будет получать никаких сигналов. Так что первый способ – все равно лучший.

Дубли страниц с незначащими GET-параметрами: почему это проблема и как их отыскать?

Что такое GET-параметры и как они приводят к появлению страниц-дублей

Почему подобные дубли – это балласт?

Как отыскать дублирование

Что предпринять, чтобы нужные страницы оказались в поиске

Рассчитать стоимость рекламы

Введите имя

Введите телефон

Введите сайт

Выберите услугу

Имя

E-mail

Сайт