как проверить индексацию сайта в гугл
Как проверить 100 тысяч страниц на вхождение в индекс Google — инструкция
О скрипте, который проверяет, проиндексировал ли бот Google нужные страницы огромного сайта, рассказывает SEO-специалист новостного проекта info-kurs.com Андрей Верстаков в своем материале для ppc.world.
Для специалиста по поисковой оптимизации понимание того, как Google и другие поисковые системы сканируют и индексируют веб-сайт, является одним из главных приоритетов. Однако получить необходимые данные для анализа сотен тысяч страниц не так просто, как хотелось бы.
Первое, о чем подумает опытный SEO-гуру, — это автоматическая обработка лог-файла визитов сайта, чтобы отследить посещения робота Google. Но само посещение еще не гарантирует добавление страницы в индекс. У нас сотни тысяч страниц находятся в индексе, поэтому мы задумались о разработке надежного способа получения данных о статусе индексации Google.
В этом материале мы поговорим:
Если вы крупный издатель, то наверняка хотите привлечь потенциальных пользователей или клиентов на сайт из поиска Google. Если веб-сайт (или его часть) не проиндексирован, вы не будете отображаться в результатах поиска и потеряете любой потенциальный органический трафик, конверсии или рекламный инвентарь останется невостребованным.
Но может быть и обратная проблема. Если веб-сайт создает URL-адреса в геометрической прогрессии (обычная проблема на сайтах электронной торговли) или допускает неконтролируемый пользовательский контент, то Google может сканировать и индексировать больше, чем следовало бы. Это может быстро привести к огромной неэффективности в ущерб основной архитектуре сайта. В этом случае страницы, которые представляют пользу для издателя будут отдаваться сервером медленнее, именно потому что сервер тратит много времени на отработку запросов бота Google. Поэтому реальный человек, когда зайдет на сайт, получит контент медленнее или вообще не получит, так как сервер сбросит его соединение по таймауту.
Скорее всего, для сбора данных индексации вы используете Google Search Console или стороннее решение. Однако оба варианта имеют свой набор недостатков, когда дело доходит до проверки индексирования сотен тысяч страниц. Обычно они связаны с доступностью данных и точностью результатов. Это те проблемы, с которыми столкнулись мы.
Google Search Console (GSC) — достоверный и точный источник данных о статусе индексации, ведь он подключен к системе индексирования Google. В GSC есть три суперполезных отчета, которые предоставляют данные о статусе индексации: инструмент URL Inspector, отчет о покрытии и отчет о файлах Sitemap.
Однако ни один из этих отчетов не подходит для крупномасштабных веб-сайтов, поскольку GSC ограничивает количество URL-адресов, которые вы можете проверять в день (50 URL для инспектора, и по 1000 URL в остальных отчетах).
Мы хорошо знаем об этом, потому что нам приходилось автоматизировать работу браузера для работы с URL Inspector Tool. Возможно, мы поделимся этим драгоценным опытом в новой статье.
Теоретически отчет о покрытии и отчет о файлах Sitemap могут помочь, но, к сожалению, Google Search Console ограничивает отчет об экспорте до 1000 строк данных, и сейчас нет доступа к API для извлечения большего количества.
GSC ограничивает экспорт до 1000 URL, но у нас сотни тысяч страниц. Спасибо Google 🙂
Наверное, единственный способ обойти это ограничение — разделить всю архитектуру сайта на XML-карты объемом не более 1000 URL-адресов. Следовательно, если на сайте есть 100 000 (известных / важных) URL-адресов, потребуется создать 100 XML-файлов Sitemap. Но этим было бы очень сложно управлять, и поэтому не вариант.
Кроме того, это не даст вам необходимых данных для индексации неконтролируемых URL-адресов, созданных с помощью фасетной навигации или пользовательского контента.
В некоторых случаях профилировщик URL был подходящим вариантом для сбора данных индексации. Хотя нам нравится этот инструмент для решения других задач, мы поняли, что у него много проблем с получением точных данных для «нечистых» URL.
Некоторые примеры включают параметризованные URL-адреса, URL-адреса с закодированными символами, URL-адреса с различным регистром букв и URL-адреса с небезопасными символами.
Что такое индексация сайта и как её проверить
Чем бы вы ни занимались, интернет-магазином, корпоративным порталом или лендингом, сделать сайт — лишь полдела. Дальше начинается самое интересное — продвижение. Индексация в этом деле — первый шаг на пути к топу поисковой выдачи. Рассказываем о том, как она происходит, как её проверить и ускорить.
Продвижение начинается с попадания страниц сайта в индекс поисковых систем (ПС). В эти базы данных Яндекс, Google и другие сервисы заносят информацию о содержимом страниц: использованных на них ключевых словах, размещённом на них контенте и другую информацию. Затем, когда пользователь обращается к ПС с запросом, сервис анализирует собранные данные и подбирает наиболее подходящие варианты ответа из списка проиндексированных страниц.
Чтобы ваш сайт проиндексировали, о нём нужно сообщить поисковикам. Это можно сделать несколькими способами.
1. С помощью инструментов поисковых систем. Почти у всех поисковиков есть собственные сервисы для веб-мастеров. У самых популярных из них на территории СНГ — Google и Яндекс — это Search Console и Яндекс.Вебмастер. В последнем даже есть специальный инструмент, позволяющий отправлять от 20 ссылок в день на страницы, которые нужно проиндексировать в приоритетном порядке.
Однако когда речь заходит не о нескольких десятках страниц, а об индексации сайта в целом, более эффективным решением будет добавить его в Яндекс и Google, а затем указать ссылку на карту сайта (файл Sitemap) в Search Console и Яндекс.Вебмастер. Тогда поисковики начнут самостоятельно и регулярно посещать ваш сайт и его новые страницы, чтобы затем добавить их в индекс. О том, как составить карту сайта вы можете узнать в руководстве Google. Что касается скорости попадания в выдачу, она зависит от многих факторов, но в среднем занимает одну—две недели.
2. С помощью ссылок с других сайтов. Быстро обратить внимание поисковых систем на вашу новую страницу можно, разместив ссылки на неё на других порталах. Если один из них будет новостным, скорее всего, страница быстро попадёт в выдачу, так как поисковики часто проверяют такие сайты и ссылки на них считают полезными. В некоторых случаях индексирование может занять меньше суток.
Попадёт ли страница в поисковую выдачу, зависит от её содержимого. Если с ней всё в порядке, робот проиндексирует её и в скором времени она появится в поисковой выдаче.
Есть несколько способов узнать были ли проиндексированы нужные вам страницы.
1. С помощью Яндекс.Вебмастера и Search Console. В первом для этого есть специальный инструмент — «Проверить статус URL». Достаточно добавить в него ссылку на нужную страницу, и в течение двух минут (иногда — нескольких часов) вы узнаете о статусе страницы в ПС.
Чтобы проверить статус страницы в Search Console, нужно ввести ссылку на неё в поисковой строке, которая отображается в верхней части экрана. На открывшейся форме вы узнаете, была ли страница проиндексирована поисковиком.
2. С помощью команды «site». Если вы не хотите добавлять сайт в сервисы для веб-мастеров, вы можете проверить сразу все попавшие в индекс поисковиков страницы с помощью специальной команды. Для этого введите в поиск Яндекс или Google запрос вида «site:mysite.ru» (без кавычек), и вы увидите все страницы, попавшие в выдачу.
3. С помощью сервисов. Самый простой способ проверить индексацию определённых страниц — воспользоваться для этого сторонними сервисами. Например, Серпхант позволяет проверить индексацию сразу 50 страниц в Яндекс и Google. Введите ссылки на них в специальную форму (не забудьте про http:// или https://) и нажмите «Начать проверку». Иногда инструмент долго выдаёт результаты проверки по одной—двум позициям, но существенно на функциональность это не влияет.
Ещё один сервис — плагин RDS Bar для Chrome, Firefox и Opera — позволяет получить подробную информацию о любой открытой в браузере странице, в том числе и о том, проиндексирована ли она.
Чем быстрее поисковые системы внесут страницу в индекс, тем быстрее на неё попадут посетители. Чтобы сократить время ожидания, следуйте следующим рекомендациям:
Не все страницы нравятся поисковым системам. Некоторым из них — например, служебным страницам и тем, которые пока что находятся в разработке, — не только нечего делать в выдаче, но и лучше вообще не попадаться на глаза поисковым роботам. Чтобы предотвратить попадание таких страниц в выдачу, лучше сразу запретить их индексацию. Сделать это также можно несколькими способами:
1. Использовать команду Disallow в файле robots.txt. В этом файле указываются правила для поисковых роботов: какие-то страницы в нём можно разрешить индексировать определённым ПС, а какие-то — запретить. Чтобы страница не попала в выдачу, используйте команду Disallow. Подробнее о работе с файлом robots.txt читайте в руководстве Яндекса.
Как проверить индексацию сайта: 4 проверенных способа
Если вы хотите узнать, есть ли определенная страница в индексе поисковой системы и сколько в целом страниц вашего сайта участвуют в поиске, вам стоит узнать о четырех самых простых способах поверки индексации сайта, которыми пользуются все SEO-специалисты.
В процессе индексирования портала, поисковый бот сначала сканирует его, то есть, обходит для изучения контента, а затем добавляет информацию о веб-ресурсе в базу данных. Затем поисковая система формирует поиск по этим базам. Не путайте сканирование с индексацией – это разные вещи.
Как узнать количество страниц на сайте?
Чтобы понимать, сколько еще страниц вашего проекта не проиндексировано, нужно знать их общее количество. Это позволит понять, как быстро индексируется ваш сайт. Сделать это можно несколькими способами:
Способы проверки индексации сайта
Предлагаем вашему вниманию 4 самых распространенных и простых способа, позволяющие проверить, какие страницы есть в индексе, а какие – нет.
1. Через панель вебмастера
Этим методом владельцы веб-ресурсов проверяют их наличие в поиске чаще всего.
Яндекс
Можно пойти и по другому пути:
И первым, и вторым способом вы сможете изучить динамику роста или спада числа страниц в поисковой системе.
2. Через операторов поисковых систем
Они помогают уточнить результаты поиска. Так, применение оператора «site» позволяет увидеть приблизительное число страниц, которые уже находятся в индексе. Чтобы проверить этот параметр, в строке поиска Яндекс либо Google укажите: «site:адрес_вашего_сайта».
Важно! Если результаты в Google и Яндекс сильно разнятся между собой, то значит ваш сайт имеет какие-то проблемы со структурой сайта, мусорными страницы, индексацией или на него наложены санкции.
Для поиска вы также можете использовать дополнительные инструменты, например, чтобы узнать, как изменялась индексация страниц за определенный период времени. Для этого под поисковой строкой нажмите на вкладку «Инструменты поиска» и выберите период, к примеру, «За 24 часа».
3. Посредством плагинов и расширений
Используя специальные программы, проверка индексации веб-ресурса произойдет автоматически. Это можно сделать с помощью плагинов и расширений, еще известных как букмарклеты. Они представляют собой javascript-программы, которые сохраняются в браузере в виде стандартных закладок.
Преимущество плагинов и расширений в том, что вебмастеру нет необходимости каждый раз по новой заходить в поисковик и вводить там адреса сайтов, операторы и прочее. Скрипты произведут все в автоматическом режиме.
Самым популярным плагином, применяемым в этих целях, является RDS bar, который можно скачать в магазине приложений любого браузера.
Стоит отметить, что в Mozilla Firefox у плагина куда больше возможностей, чем в других браузерах. RDS bar предоставляет информацию относительно и всего веб-сайта, и его отдельных страниц
На заметку. Есть платные и бесплатные плагины. И самый большой минус бесплатных плагинов в том, что в них регулярно нужно вводить капчу.
Нельзя оставить без внимания и букмарклет «Проверка индексации». Чтобы включить программу, просто перетяните ссылку на панель браузера, а затем запустите свой портал и нажмите на закладку расширения. Так вы откроете новую вкладку с Яндекс или Google, где изучите нужную информацию касательно индексации определенных страниц.
4. С помощью специальных сервисов
Я в основном пользуюсь сторонними сервисами, потому что в них наглядно видно какие страницы в индексе, а какие там отсутствуют.
Бесплатный сервис
Платный сервис
Вы загружаете в сервис все страницы вашего сайта и он вам покажет, какие находятся в индексе поисковых систем, а какие нет.
Заключение
Главная цель владельца любого веб-ресурса – добиться индексации всех страниц, которые будут доступны поисковым роботам для сканирования и копирования информации в базу данных. Реализовать эту задачу на большом сайте может быть очень непросто.
Но при правильном комплексном подходе, то есть, грамотной SEO-оптимизации, регулярном наполнении сайта качественным контентом и постоянном мониторинге процесса включения страниц в индекс поисковиков, можно добиться положительных результатов. Для этого мы в этой статье и рассказали о четырех методах проверки индексации сайта.
Знайте, что, если страницы слишком резко начали вылетать из поиска – с вашим ресурсом что-то не так. Но зачастую проблема таится не в процессе индексации, а в самой оптимизации. Желаете быстро индексироваться и попадать в ТОП выдачу поисковых запросов? Предлагайте целевой аудитории контент, превосходящий конкурентов.
Оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!
Рейтинг статьи: 4.8 / 5. Кол-во оценок: 14
Пока нет голосов! Будьте первым, кто оценит эту статью.
Как быстро проверить индексацию сайта в Google и Яндекс
Как оперативно узнать, попала ли важная для вас страница в индекс поисковых систем? Да и вообще, сколько страниц сайта «видят» поисковики? Я описала в этом посте способы, которые чаще всего используют SEO-специалисты.
При индексировании страницы робот поисковой системы добавляет сведения о сайте в базу данных. Дальнейший поиск происходит по проиндексированным страницам. Не стоит путать индексацию и сканирование.
Робот может просканировать весь сайт быстро. А добавлять в индекс медленно, не добавлять часть страниц или удалять страницы из индекса.
1. Проверьте индексацию сайта в консоли вебмастеров
Это базовый способ проверки для вебмастера или владельца сайта.
Google. Необходимо зайти в Search Console и на вкладке «Обзор» выбрать график «Покрытие»:
Зеленым цветом на графике отмечается количество страниц в индексе без ошибок, красным — с ошибками. Перейдя на вкладку «Покрытие», можно детально посмотреть: какие ошибки возникли при индексировании данных страниц и когда они были обнаружены.
Отдельно можно проверить есть ли в индексе конкретная страница. Для этого нужно только вставить интересующий вас URL в строку поиска:
Если все хорошо, вы увидите такое сообщение:
Если страница еще не в индексе сайта, вы увидите такое сообщение:
Если вы внесли изменения в страницу, на которой раньше были ошибки, ее можно отправить на переиндексацию с помощью кнопки «Запросить индексирование»:
После отправки запроса вы увидите сообщение:
Также с помощью этой кнопки можно самостоятельно отправить новые страницы в очередь на индексацию.
Яндекс. Проходим авторизацию в Яндекс.Паспорт, заходим в Яндекс.Вебмастер и переходим по пути «Индексирование сайта» — «Страницы в поиске». Еще один вариант: «Индексирование сайта» — «История» — «Страницы в поиске». Здесь можно посмотреть динамику изменения количества страниц в поиске.
Чтобы использовать этот метод, у вас должен быть определенный уровень доступа в панель вебмастера. Пример хорошего индексирования сайта. Количество качественных страниц без ошибок растет, и они добавляются в индекс.
Проблемы с индексацией выглядят так:
На скриншоте — сайт, закрытый от индексации в файле robots.txt
2. Используйте операторы поисковых запросов
Поисковые операторы позволяют уточнять результаты поиска. Оператор «site:» выдает информацию о приблизительном количестве проиндексированных страниц. Для проверки в строке поиска Google или Яндекс введите «site:[url вашего сайта]».
Иногда большая разница между результатами в Google и Яндекс свидетельствует о наличии проблем с сайтом.
Например, сайт cubing.com.ua находится под фильтром АГС.
С помощью дополнительных инструментов поисковых систем можно узнать данные об индексации за определенный период времени. Так, за последний час в индексе Google появились 49 страниц русскоязычной Википедии:
Также можно проверить индексацию и вид в поиске одной отдельной страницы с помощью оператора site: или просто добавив нужный вам URL в поисковую строку:
Если поисковые платформы наложили на сайт или страницу санкции и фильтры, то ссылка может не отобразиться. Тогда надежнее будет использовать специальные операторы. Для Google это оператор inurl:. Запрос будет таким:
Для Яндекса это оператор url:. Запрос будет выглядеть так:
Если страница показывается в выдаче, значит она проиндексирована, а если поиск выдал пустой результат — страницы в индексе нет.
3. Используйте плагины и букмарклеты
Плагины и букмарклеты (небольшие javascript-программы, сохраняемые как браузерные закладки) — автоматизированный вариант проверки. В этом случае не надо открывать поисковик отдельно и вводить что-либо в поиск.
Это делают плагины и скрипты:
На скриншоте — плагин RDS bar для Google Chrome. Возможности RDS bar для Mozilla Firefox еще круче. С помощью плагина можно проверить индексацию текущей страницы и общий индекс всего сайта. Но в бесплатных вариантах капча не даст спокойно работать.
Плагин Seo Magic также показывает количество страниц в индексе Яндекса и Google, при нажатии на интересующую цифру — откроет выдачу поисковой системы. Кроме этого, плагин показывает и другую полезную информацию:
Букмарклет «Проверка индексации». Перетащите ссылку из открытого файла на панель закладок. Дальше просто откройте нужный сайт и нажмите на эту закладку. Откроется новая вкладка с Google или Яндекс и нужными данными в выдаче.
4. Установите сервисы для проверки индексации
Это маленькие помощники SEO-специалистов. Их множество. Например, связка Netpeak Spider и Netpeak Checker.
Netpeak Spider позволяет просканировать весь сайт. Плюс в том, что вы получаете список страниц и много дополнительных данных: каноникал, код ответа, название, заголовки, метаописания, мета роботс, robots.txt, редиректы, внутренние и внешние ссылки. Также программа предупреждает об ошибках в этих данных.
Как только список всех URL сайта был получен, его можно загрузить в Netpeak Checker и уже проверить непосредственно на факт индексации поисковыми системами.
Существует огромное количество бесплатных сервисов для проверки индексации. На мой взгляд, самые удобные и популярные:
Также похожий инструмент существует в сервисах Топвизор и SeRanking, но при использовании платного тарифного плана.
Почему не индексируется сайт
1. Новый сайт. Иногда нужно просто подождать. Страницы в индекс не попадают все и сразу. Часто этот процесс растягивается на несколько месяцев.
2. Нет карты сайта (sitemap). Качественная карта сайта поможет поисковым роботам быстрее просканировать и проиндексировать ваш сайт. Ссылку на карту нужно добавить в панель вебмастеров и файл robots.txt.
3. Ошибки на сайте. Панели вебмастеров регулярно оповещают владельцев сайтов об ошибках. Заметили проблему в индексации? Смотрите, какие ошибки находит робот, и исправляйте их.
4. Ошибка с метатегом robots. Частая ошибка при несознательном изменении настроек CMS или хостинга. В коде страниц сайта появляется следующая строка:
5. Ошибка с X-Robot-Tag. X-Robots-Tag — HTTP-заголовок, но, в отличие от метатега robots, он находится не на странице, а непосредственно в файле конфигурации сервера. Вебмастера могут закрыть сайт, внося изменения или запуская тестовую версию, а потом забыть его удалить. Проверить, закрыт ли ваш сайт с помощью X-Robots-Tag, можно в Netpeak Spider или в консоли разработчика:
6. Ошибка с robots.txt. Часто советуют закрывать в robots.txt всё ненужное. Особенность файла robots.txt в том, что один лишний символ может открытый для сканирования сайт превратить в закрытый. Даже если вы правильно закрыли часть сайта, ненароком можно было зацепить нужные вещи, которые находятся глубже. Ваш сайт закрыт от сканирования, если вы видите у себя в robots.txt эту конструкцию:
Как ускорить индексацию сайта
Поисковый робот обходит ограниченное количество страниц за раз, в зависимости от размера краулингового бюджета. Но всем хочется, чтобы новые статьи, товары и категории как можно скорее попали в поисковую выдачу и начали приводить посетителей на сайт.
Страницы можно отправить на индексацию принудительно, но есть еще несколько методов для ускорения индексации сайта.
Все новые страницы должны автоматически попадать в карту сайта (sitemap). Благодаря этому файлу роботы лучше понимают структуру сайта и видят все страницы, которые необходимо посетить. Кроме того, в карте сайта можно указать приоритетность и частоту посещения страницы роботом.
Дубли страниц и неуникальный контент — враги индексации, так как они расходуют на себя краулинговый бюджет, и робот просто не доходит до нужных вам страниц. Необходимо следить, чтобы таких страниц на сайте не было.
Большое количество битых страниц, и внутренних редиректов также расходуют краулинговый бюджет. Робот попадает на нерабочие страницы или посещает те, на которых уже был из-за редиректа и не успевает просканировать новые, нужные страницы. Необходимо контролировать, чтобы битых ссылок и ссылок на страницы с внутренними редиректами было как можно меньше, или не было вообще.
Несмотря на то, что файл robots.txt является только рекомендацией, а не четкой инструкцией для роботов, пренебрегать им не надо. Новые страницы должны быть открыты для сканирования и доступны для роботов.
Скорость загрузки страницы — весомый показатель качества сайта. Время ответа сервера не должно превышать 200 мс, а скорость загрузки страницы — 3-5 секунд. Для проверки скорости загрузки страницы используйте PageSpeed Insights и выполняйте предложенные там рекомендации по оптимизации скорости.
Качественная перелинковка не только распределяет внутренний вес со страниц и увеличивает время пребывания посетителя на сайте. По ссылкам в тексте (или блоках «Новинки», «Популярное») переходит и робот, таким образом быстрее добавляя страницы в индекс и обновляя их.
Для этого же необходимо добавлять ссылку на новый материал, товар или категорию на главную страницу сайта: так их быстрее заметят и пользователи, и поисковые «пауки».
Влияние соцсетей на продвижение — спорный вопрос, но благодаря внешней ссылке на новую страницу начнут переходить пользователи, и это послужит для робота сигналом к индексации.
Важно, как часто вы добавляете на сайт новые товары, материалы и категории. Поисковые системы любят «живые» сайты. Поддерживайте актуальность сайта, публикуйте новый контент не реже раза в неделю; добавляйте ссылки на новые материалы в старых статьях; обновляйте информацию на сайте; настройте заголовки Last-Modified и If-Modified-Since или Etag и If-None-Match.
Запомнить
Цель владельца сайта — чтобы все страницы, открытые для индексации, были в индексе поисковой системы. Достичь этого сложно. К тому же важно следить за процессом занесения страниц в индекс: резкие изменения в положительную или отрицательную сторону — сигнал о проблеме. Мы описали четыре способа проверки индексации страниц сайта:
Сайт может плохо индексироваться из-за ошибок на сайте, отсутствия файла sitemap. Также важно проверить, не закрыт ли сайт от индексации с помощью метатега robots, x-robots tag или в robots.txt.
Улучшить индексацию поможет:
Часто дело не в индексации, а в подходе к оптимизации. Отвечайте на запрос пользователя лучше всех. В таком случае все советы пригодятся вам только для фиксации хорошего результата.