Привет, друзья. Иван Захаров на связи. Сегодня я хочу поговорить об индексном вздутии.
Это довольно распространенная проблема, которая затрагивает в основном крупные, а иногда и средние сайты. Я бы сказал, что если вы работаете над сайтом среднего или крупного размера, вам обязательно нужно с этим разобраться как минимум один раз. Это то, с чем я и многие другие SEO-специалисты видели очень хорошие результаты как в долгосрочной перспективе, так и совсем недавно. И, несмотря на это, в индустрии об этой проблеме говорят относительно мало, и она плохо систематизирована.
Что такое индексное вздутие?
Давайте я объясню на диаграмме. Представьте себе внешний квадрат – это все URL на вашем сайте, которые вообще могут существовать, включая параметры, которые никто не пробовал.
Следующий внутренний набор – это URL, которые обнаружил Google. Они могли быть не просканированы или не проиндексированы, но Google знает об их существовании. Если разница между этим синим квадратом и красным большая, это, вероятно, указывает на проблему с краулинговым бюджетом. Но сегодня не об этом.
Далее – проиндексированные URL. Это еще меньший набор. URL может быть обнаружен, но не проиндексирован по разным причинам.
И, наконец, самый важный момент – это разрыв между проиндексированными страницами (желтый квадрат) и страницами с хоть каким-то значимым трафиком (зеленый квадрат). Если этот разрыв большой, это и есть индексное вздутие, о котором мы сегодня говорим.
Чем индексное вздутие НЕ является
Прежде чем двигаться дальше, давайте проясним, чем индексное вздутие не является.
- Это не краулинговый бюджет. Проблема краулингового бюджета – когда у вас огромное количество URL, которые Google вообще не обходит.
- Это не каннибализация. Каннибализация – это когда страницы конкурируют друг с другом по одним и тем же запросам. Такая проблема может быть и на сайте из трех страниц. Я же говорю о проблеме большего масштаба.
Мы говорим именно о разрыве между количеством проиндексированных страниц и количеством страниц, которые получают хоть какой-то значимый трафик.
Почему индексное вздутие – это проблема?
Зачем нам волноваться? Ну и что, что у меня много проиндексированных страниц без трафика? В чем проблема?
Во-первых, мы предполагаем, что большое количество страниц без трафика посылает негативный качественный сигнал, который может отразиться на оценке всего сайта или его разделов. Если у вас много пустых или бесполезных страниц, на которые люди заходят и сразу возвращаются в поиск, это может вредить всему сайту.
Во-вторых, это может быть симптомом других технических SEO-проблем. Если думать по-старому, в терминах PageRank, то его значение «растворяется» на всех этих страницах, которые можно было бы объединить в те, что действительно могут приносить трафик.
Распространенные причины индексного вздутия
Откуда же берутся эти URL, которые проиндексированы, но не получают трафика? Есть две основные группы причин, которые я часто вижу как консультант.
1. Блоги и пользовательский контент (UGC)
Часто в блогах компании публикуют все подряд: о приеме на работу нового сотрудника, открытии нового филиала, победе в конкурсе, корпоративе. Или же размещают пресс-релизы. В итоге образуется огромное количество проиндексированных страниц, которые изначально не были предназначены для поискового трафика.
То же самое с форумами. Пользователи создают темы о чем угодно, они индексируются, и это может быть источником как трафика, так и множества малоценных страниц на похожие темы.
2. Списки и товары
Представьте сайты недвижимости, сайты по продаже б/у автомобилей, доски объявлений о вакансиях или маркетплейсы. На них постоянно создаются и удаляются страницы-листинги. Большинство из них очень специфичны, имеют низкую ценность и никогда не получают трафика.
На крупных интернет-магазинах тоже много отдельных товарных страниц, которые из-за своей узкой направленности или схожести с другими страницами трафик не получают.
Как уменьшить индексное вздутие
Что же делать, если вы обнаружили эту проблему? Вот процесс, который я сам применял в прошлом и который давал хорошие результаты.
-
Выявите URL с почти нулевым трафиком
Первым делом найдите страницы, которые получают практически ноль трафика. Я часто пользуюсь таким правилом: страницы, которые получают в среднем меньше 1 клика в месяц. На сайтах с серьезной проблемой вы найдете множество страниц с абсолютно нулевым трафиком.
Важно: смотрите не только на органический трафик, чтобы случайно не удалить что-то важное для других каналов, например, email-рассылок или социальных сетей.
-
Улучшите страницы, которые того заслуживают
Проанализируйте найденные страницы. Возможно, некоторые из них раньше хорошо ранжировались, но устарели. Или на них есть качественный контент, но мешает какая-то техническая ошибка. Может, у страницы много внешних ссылок. Не стоит бездумно удалять весь этот массив. Найдите те страницы, с которыми можно и нужно поработать.
-
Объедините или удалите страницы, которые улучшить не удалось
С оставшимися страницами (которые не получают трафика и не представляют ценности) можно поступить несколькими способами, скорее всего, комбинируя их.
- Объединение (консолидация) и редирект. Если у вас есть очень специфические страницы (например, товара, которого нет в наличии), а также категория, отвечающая на тот же запрос, рассмотрите использование канонической ссылки (canonical) или 301-го редиректа. Редирект – если страница полностью устарела и не нужна. Каноническая – если страница должна оставаться доступной.
- Создание новой, качественной страницы. Вы можете взять лучший контент с нескольких старых малополезных страниц и создать одну новую, сильную страницу, которая будет хорошо ранжироваться по данной теме.
- Удаление (404) или запрет индексации (noindex). Для страниц, которые абсолютно бесполезны и никогда не несли ценности, можно использовать 404-ю ошибку (если доступ к странице больше не нужен) или тег noindex (если страница должна оставаться доступной для пользователей из других каналов). Это крайняя мера. Старайтесь избегать ее, когда возможны редиректы или объединение, так как в случае с 404 и noindex вы не передаете вес страницы.
Такой подход я и многие мои коллеги применяли с хорошими результатами, особенно после обновления Helpful Content и ранее, во времена Panda.
Вот как можно дополнить вашу статью на русском языке, от лица Ивана Захарова, используя материал из второй статьи и только нужные теги:
Помимо этого, есть еще ряд факторов, которые часто приводят к индексному вздутию на сайтах любого размера.
1. Плохо управляемая фасетная навигация и фильтры
Если сайт автоматически создает новые URL при фильтрации и сортировке информации, и все эти URL индексируются, это почти всегда ведет к индексному вздутию. Особенно это заметно на больших интернет-магазинах. В таких случаях лучше деиндексировать эти URL, оставив индексированной только основную страницу (canonical URL).
2. Параметризованные URL
Параметры в URL создаются по разным причинам: фильтры в интернет-магазинах, ID сессий, UTM-метки для аналитики. Если с ними неправильно работать, появляются дубли страниц в индексе, что увеличивает индексное вздутие.
3. Шаблоны CMS из коробки
Многие CMS автоматически создают страницы, которые не всегда нужны для SEO:
- Теги в WordPress. Часто блогеры используют и категории, и теги для одной и той же статьи, что создаёт дублирование.
- Страницы продуктов и коллекций в Shopify. Один товар может иметь несколько URL: в категории товара, в подборке коллекций, с параметрами фильтров.
4. Программный SEO без контроля
Программный SEO – это автоматическое создание страниц. Если при этом не добавлять уникальный контент и не управлять каноническими URL, легко получить сотни или тысячи страниц с низкой ценностью, что перегружает индекс и расходует краулинговый бюджет.
5. Автогенерируемые или дублирующие страницы
Поиск, архивы или страницы результатов поиска часто создают тонкий контент или дубли. Например, поисковая страница по ключевому слову может дублировать полезную страницу и не приносить ценности для SEO.
Технические методы борьбы с индексным вздутием
1. Используйте robots.txt для запрета индексации параметризованных URL
С помощью robots.txt можно указать поисковым системам, какие страницы не нужно сканировать. Если страница не сканируется, она не попадет в индекс.
2. Канонизация дублированных страниц
Если дубли страниц неизбежны (например, фильтры в интернет-магазине), используйте canonical, чтобы указать поисковикам, какая страница является основной.
3. Noindex для низкокачественных страниц
Тег noindex позволяет оставить страницу доступной пользователям, но не индексировать её в поисковых системах. Это полезно для архивов, страниц поиска, тестовых страниц.
4. Правильное использование hreflang и пагинации
Для международных сайтов и длинных списков продуктов или статей важно использовать hreflang и rel="prev/next" для правильного понимания поисковиками последовательности страниц и их региональной релевантности.
5. Контент-прунинг (очистка и консолидация контента)
Контент-прунинг включает:
- Оставить полезный контент без изменений
- Обновить и улучшить старый контент
- Объединить дублированные страницы в более ценные ресурсы
- Деиндексировать страницы, не приносящие ценности
- Редиректить устаревшие или лишние страницы
Мониторинг и автоматизация
Лучший способ предотвратить индексное вздутие – заранее настроить автоматизацию и правила для новых страниц:
- Добавляйте новые шаблоны страниц в noindex, если их не нужно индексировать
- Настройте канонизацию для коллекций и фильтров на сайте
- Управляйте генерацией sitemap так, чтобы в ней были только нужные страницы
Кроме того, периодический аудит сайта (раз в квартал) помогает отслеживать рост индексного вздутия и вовремя принимать меры.
Использование инструментов для контроля индексного вздутия
Я часто использую Semrush, чтобы держать сайт под контролем. С его помощью можно:
- Провести полный аудит сайта и получить список всех индексируемых URL
- Проанализировать краулинг и внутренние ссылки, чтобы понять, какие страницы мало важны и могут быть деиндексированы
- Выявить дублирующийся и тонкий контент
- Приоритизировать исправления по важности страниц и их трафику
- Автоматизировать оповещения о появлении новых низкокачественных страниц
Регулярно повторяя этот процесс, можно поддерживать чистый и управляемый индекс, что повышает эффективность SEO и улучшает видимость сайта в поиске.
Итог
Индексное вздутие – это не просто техническая мелочь. Оно влияет на авторитет сайта, качество сигналов для Google и эффективность всего SEO. Но с правильной стратегией, инструментами и периодическим аудитом его легко контролировать. Я рекомендую начать с аудита и внедрения канонических тегов, noindex и robots.txt, а затем следить за результатами регулярно.