как сделать индексацию сайта в google
Об индексировании
При индексировании данных в Google учитываются как запросы пользователей, так и соответствие контента нашим стандартам качества. Скорость индексирования во многом зависит от того, насколько легко обнаружить URL страниц. Если у нас не получится найти их, мы не сможем просканировать страницы, проиндексировать их и, как следствие, показать в результатах поиска. В этой статье рассказано, как добиться того, чтобы Google было проще найти ваш контент и проиндексировать его.
Различные методы управления контентом
Принимая меры, призванные помочь Google в поиске вашего контента, вы можете придерживаться как активного, так и пассивного подхода. У каждого из них есть свои преимущества и недостатки. Далее вы прочитаете о том, какие действия лучше предпринимать, чтобы ваши страницы занимали более высокие позиции в результатах поиска.
Пассивный подход
Даже если у вас нет карты сайта, наши поисковые роботы все равно стараются индексировать его контент полностью (при условии, что доступ к нему не заблокирован). Также они регулярно определяют, сколько страниц ссылается на ваш ресурс. Более подробная информация доступна в специальном руководстве.
Преимущества. Не требуется дополнительных усилий: достаточно просто создавать контент. Этот вариант подойдет, если у вас несложный сайт и вам необязательно, чтобы его контент обновлялся в Поиске как можно скорее. | Недостатки. Во многих случаях не все материалы удается проиндексировать, особенно если ресурс создан недавно и на него ссылается мало сайтов. В результате пользователи могут не увидеть в Поиске ваш новый контент (например, если вы добавили разметку для показа расширенных результатов). |
Активное управление URL
Если вы предоставите карту сайта (то есть список его URL), мы сможем находить ваши страницы быстрее, так как не будем ограничены только ссылками с других ресурсов в Интернете. Как правило, карту сайта нужно размещать в том каталоге домена, доступ к которому есть у робота Googlebot.
Если несколько URL (например, AMP-страницы, HTML-страницы и мобильного приложения) содержат одинаковый контент, рекомендуется указать, как они взаимосвязаны. Это позволит определять, какую информацию с вашего сайта следует показать пользователю по его запросу (например, ссылку на приложение или AMP-страницу). Для этого выберите, какие страницы будут каноническими, а затем с помощью ссылок установите связи между ними и ресурсами с аналогичным контентом. Так вы позволите Google определять, какую информацию с вашего сайта следует показать пользователю по его запросу. Например, если он выполняет поиск с мобильного устройства, на котором установлено ваше приложение, то увидит ссылку на это приложение.
Преимущества. Вы повысите качество своих расширенных результатов. Кроме того, ваши новые материалы и страницы, на которые ссылается мало сайтов, будут добавляться в Google Поиск быстрее. Такой метод позволяет обойти ограничение, которое препятствует быстрой обработке в Google нового контента во всех вариантах его оформления. | Недостатки. Требуется предоставить метаданные ресурсов, то есть добавить карту сайта и установить связи между его страницами, их AMP-версиями и вашим приложением. |
Отправка новых и обновленных URL в Google
Предыдущий вариант предполагает, что вы размещаете карту сайта на своем ресурсе и ждете, пока Google обнаружит информацию. Но вы можете и сами прислать нам список новых URL.
Чтобы мы могли быстро находить новые URL, достаточно создать карту сайта. Если вам нужно, чтобы мы повторно проиндексировали URL, контент которых обновился, предоставьте XML-карту сайта с временными метками.
Получив список URL, мы определим время их следующего сканирования. Сначала система проверит, есть ли указанные материалы на сервере, и только потом начнется процесс их индексирования.
Преимущества. Новый контент на вашем сайте будет добавляться в Google Поиск максимально быстро. | Недостатки. Практически отсутствуют. Сложность лишь в том, чтобы создать файл Sitemap, а отправить его в Google очень просто. Многие системы управления контентом позволяют автоматически обновлять этот файл. |
Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.
10 действенных способов заставить Google индексировать ваш сайт
Статистика статьи
Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.
Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.
Количество ретвитов этой статьи в Twitter.
Поделиться этой статьей
Если вы читаете эту статью, то это вам уже и так известно. Так что перейдем сразу к делу.
Эта статья поможет вам решить три проблемы:
Но сперва давайте убедимся, что мы имеем в виду одно и то же, когда говорим об «индексировании».
Что такое краулинг и индексирование?
Google находит новые страницы при помощи паука, который ползает по Всемирной паутине («краулинг» дословно означает «ползание») и добавляет страницы в свою базу данных — индекс. Этот паук называется поисковым роботом, а у робота Google есть собственное имя — Гуглбот (Googlebot).
Запутались? Давайте дадим определения основным терминам.
Вот видео от Google, в котором этот процесс подробно объясняется:
Когда вы ищете что-то в поисковике Google, он выдает все релевантные страницы из своей базы данных — индекса. Поскольку часто запросу могут соответствовать миллионы страниц, алгоритм ранжирования Google делает все возможное, чтобы отсортировать их так, чтобы первыми шли страницы, которые лучше всего отвечают запросу.
Тут важно понимать, что индексирование и ранжирование — это совершенно разные вещи.
Индексирование — это регистрация на участие в гонке, а ранжирование — это распределение призовых мест.
Нельзя победить в гонке, не зарегистрировавшись сперва.
Как узнать, есть ли ваш сайт в индексе Google
Откройте сайт Google и введите в поиск site:ваш_сайт.com
Это число примерно показывает, сколько страниц вашего сайта содержится в индексе Google.
Если результатов не будет, значит, страницы нет в индексе.
Стоит заметить, что если вы пользуетесь Google Search Console, то можете воспользоваться отчетом «Покрытие», чтобы получить более точные сведения о состоянии индексирования вашего сайта. Просто перейдите в раздел:
Google Search Console > Индексирование > Покрытие
Посмотрите на число действительных страниц (с предупреждениями и без).
Если эти числа в сумме отличаются от нуля, значит, по крайней мере часть страниц вашего сайта содержится в индексе Google. Если же оба числа равны нулю, то у вас серьезная проблема, поскольку ни одна страница сайта не проиндексирована.
В Search Console можно также проверить, проиндексирована ли конкретная страница. Для этого вставьте ее URL-адрес в Инструмент проверки URL.
Если страница проиндексирована, то сервис выдаст сообщение «URL есть в индексе Google».
Если нет — то «URL нет в индексе Google».
Как сделать так, чтобы Google индексировал ваш сайт
Обнаружили, что Google не индексирует ваш сайт или страницу? Попробуйте следующее:
Это полезно делать, когда вы публикуете новую статью или страницу. Так вы напрямую сообщаете Google о том, что добавили что-то новое на свой сайт и что поисковику следует взглянуть на это.
Однако непосредственный запрос не поможет решить глубинные проблемы, которые препятствуют индексированию старых страниц. Если это ваш случай, то пройдитесь по приведенному ниже списку, чтобы диагностировать и решить проблему.
Вот ссылки на каждую тактику — на случай, если вы пробовали часть из них:
1) Удалите блокирующие условия из файла robots.txt
Google не индексирует весь ваш сайт? Причиной может быть блокирующее условие в файле robots.txt.
Чтобы проверить эту возможность, перейдите по адресу ваш_сайт.com/robots.txt.
Посмотрите, нет ли в тексте одного из этих фрагментов:
Оба этих фрагмента сообщают Гуглботу, что ему нельзя сканировать страницы вашего сайта. Чтобы исправить проблему, просто удалите их. И всё.
Блокирующее условие в файле robots.txt может быть виновным и в том случае, когда Google не индексирует отдельную страницу. Чтобы проверить этот вариант, вставьте адрес страницы в Инструмент проверки URL в Google Search Console. Откройте раздел «Покрытие» и поищите ошибку «Сканирование разрешено? Нет: заблокировано через robots.txt».
Эта ошибка указывает на то, что страница заблокирована в файле robots.txt.
В таком случае поищите в файле robots.txt любые правила «disallow», относящиеся к странице или содержащему ее подкаталогу.
Важная страница заблокирована для индексирования в файле robots.txt.
Если нужно, удалите эти правила.
2) Удалите шальные теги noindex
Google не станет индексировать страницы, если попросить об этом. Так вы можете оградить некоторые страницы от публичного доступа. Есть два способа сделать это:
Способ 1: тег meta
Страницы с одним из этих тегов meta в секции не индексируются Google:
Это мета-тег robots, который сообщает поисковым системам, следует ли им индексировать данную страницу.
Чтобы найти на своем сайте все страницы с мета-тегом noindex, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в отчет Indexability («Индексируемость»). Поищите предупреждения «Noindex page» («Неиндексируемая страница»).
Нажмите на одно из них, чтобы увидеть все такие страницы. Удалите мета-тег noindex со всех страниц, где он не нужен.
Способ 2: X‑Robots-Tag
Инструмент проверки URL в Search Console позволяет узнать, блокирует ли Google сканирование страницы из-за заголовка. Просто введите свой URL-адрес, а затем поищите ошибку «Индексирование разрешено? Нет: обнаружено значение ‘noindex’ в HTTP-заголовке X‑Robots-Tag».
Если вы хотите исправить эту проблему на своем сайте, запустите сканирование в сервисе Site Audit от Ahrefs, а затем примените фильтр «Robots information in HTTP header» («Информация для роботов в заголовке HTTP») в разделе Page Explorer:
Попросите своего разработчика исключить страницы, которые нужно индексировать, из числа тех, что возвращают такой заголовок
3) Добавьте адрес страницы в файл sitemap
Файл sitemap сообщает Google, какие страницы вашего сайта важны, а какие нет. Также он может рекомендовать, как часто следует повторно сканировать определенные страницы.
Google способен находить страницы на вашем сайте независимо от того, представлены ли они в файле sitemap, но хорошей практикой является указание важных страниц. В конце концов, нет смысла усложнять работу Google.
Чтобы проверить, указана ли страница в файле sitemap, используйте Инструмент проверки URL в Search Console. Если вы увидите ошибку «URL нет в индексе Google» и «Sitemap: н/д», значит, страницы нет в файле sitemap или индексе.
Не пользуетесь Search Console? Перейдите по URL-адресу своего файла sitemap — обычно этоваш_сайт.com/sitemap.xml — и поищите адрес страницы.
Либо, если вы хотите найти все сканируемые и индексируемые страницы, которых нет в файле sitemap, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в Page Explorer и примените следующие фильтры:
Вы получите список страниц, которые следует добавить в файл sitemap. Когда вы это сделаете, сообщите Google о том, что вы обновили свой файл sitemap, перейдя по этому URL:
Только подставьте туда URL-адрес своего файла sitemap. Вы увидите что-то подобное:
Это должно ускорить индексирование страницы поисковой системой.
4) Удалите шальные теги canonical
Тег каноничности (тег canonical) сообщает Google о канонической версии страницы. Выглядит он так:
Большая часть страниц либо не имеют тега canonical, либо содержат так называемый автореферентный тег canonical. Он сообщает поисковой системе о том, что страница сама является канонической, а возможно, и единственной версией. Другими словами, вы хотите, чтобы эта страница индексировалась.
Но если на страницу затесался шальной тег canonical, он может направить Google на каноническую версию страницы, которая на самом деле не существует. В таком случае страница не будет проиндексирована.
Чтобы проверить такую возможность, воспользуйтесь Инструментом проверки URL от Google. Если тег каноничности указывает на другую страницу, то вы увидите предупреждение «Альтернативная каноническая страница».
Если такого быть не должно, и вы хотите, чтобы страница индексировалась, удалите тег каноничности.
Имейте в виду, что теги каноничности не всегда плохи. Чаще всего они добавляются не просто так. Если вы видите, что ваша страница содержит такой тег, проверьте страницу, которая указана как каноническая. Если окажется, что это и правда приоритетная версия страницы, которую нужно индексировать, то тег canonical следует оставить.
Если вы хотите быстро найти все шальные теги canonical на своем сайте, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в раздел Page Explorer. Используйте такие настройки:
Они запустят поиск страниц в файле sitemap с неавтореферентными тегами каноничности. Если поиск с этим фильтром выдаст какие-либо результаты, вам следует разобраться с ними, поскольку вы наверняка хотели бы, чтобы эти страницы индексировались.
Высока вероятность того, что эти страницы либо содержат ошибочные теги каноничности, либо наоборот — не должны находиться в файле sitemap.
5) Проверьте, не является ли страница сиротой
Страницы-сироты — это такие страницы, на которые не ведет ни одной внутренней ссылки.
Поскольку Google находит новый контент, перемещаясь по Всемирной паутине от одной страницы к другой, он не может найти таким образом страницы-сироты. Точно так же их не смогут найти посетители сайта.
Чтобы найти страницы-сироты, просканируйте свой сайт при помощи сервиса Site Audit от Ahrefs. Затем откройте отчет Incoming links (Входящие ссылки) для ошибок «Orphan page (has no incoming internal links)» («Страница-сирота (не имеет входящих ссылок)»):
В нем показаны все индексируемые страницы, указанные в файле sitemap, на которые при этом не ведет ни одна внутренняя ссылка.
Чтобы это сработало, должны быть выполнены два условия:
Вы не уверены, что все страницы, которые вы хотите видеть индексированными, указаны в файле sitemap? Попробуйте следующее:
Все адреса, не найденные в процессе сканирования, принадлежат страницам-сиротам.
Вы можете решить проблему страниц-сирот двумя способами:
6) Почините внутренние nofollow-ссылки
Nofollow-ссылки — это ссылки с тегом rel=“nofollow”. Они препятствуют передаче показателя PageRank целевому URL-адресу. К тому же, Google не сканирует nofollow-ссылки.
По сути, использование атрибута nofollow заставляет Google не включать целевые ссылки в общий граф сети. Тем не менее, целевые страницы все равно могут попасть в наш индекс, если на других сайтах встретятся ссылки на них без атрибута nofollow либо если URL-адреса будут указаны в файле Sitemap.
Короче говоря, вам нужно убедиться, что внутренние ссылки на индексируемые страницы не должны иметь атрибута nofollow.
Для этого просканируйте свой сайт при помощи Site Audit от Ahrefs. В отчете Incoming links (Входящие ссылки) поищите индексируемые страницы с ошибками «Page has nofollow incoming internal links only» («На страницу ведут только внутренние nofollow-ссылки»):
Удалите атрибут nofollow из внутренних ссылок, если вы хотите, чтобы Google индексировал страницы, на которые они ведут. Если нет, то удалите страницы либо пометьте их тегом noindex.
7) Добавьте «сильные» внутренние ссылки
Google находит новый контент, сканируя ваш сайт. Если вы пренебрегаете созданием внутренних ссылок, то поисковик может и не найти некоторые страницы.
Одно из простых решений этой проблемы — добавить несколько внутренних ссылок, ведущих на нужную страницу. Разместить ссылки можно на любых других страницах, которые Google может сканировать и индексировать. Но если вы хотите, чтобы Google проиндексировал целевой контент как можно быстрее, то лучше всего разместить ссылку на одной из самых «сильных» страниц.
Почему? Потому что Google сканирует такие страницы чаще.
Для этого перейдите в Site Explorer от Ahrefs, введите адрес своего сайта, а затем откройте отчет Best by links (Лучшие по ссылкам).
В нем будут перечислены все страницы вашего сайта, отсортированные по показателю URL Rating (UR). Другими словами, он показывает первыми самые авторитетные страницы.
Пролистайте этот список, чтобы найти подходящие страницы, куда можно добавить внутренние ссылки на интересующую страницу.
Например, если мы хотим добавить внутреннюю ссылку на руководство по гостевому постингу, то руководство по линкбилдингу вполне подойдет для этого. Последняя страница очень кстати оказывается 11‑й по авторитетности в нашем блоге:
В следующий раз, когда Google будет сканировать эту страницу, он обнаружит новую ссылку и перейдет по ней.
Вставьте адрес страницы, на которой вы разместили внутреннюю ссылку, в Инструмент проверки URL от Google. Нажмите «Запросить индексирование», чтобы сообщить поисковой системе о том, что содержание страницы изменилось, и ее следует отсканировать заново. Это может ускорить процесс нахождения и индексирования той страницы, на которую ведет ссылка.
8) Убедитесь, что страница уникальна и обладает ценностью
Google, как правило, не индексирует некачественные страницы, которые не представляют ценности для пользователей. Вот что Джон Мюллер из Google говорил об индексировании в 2018 году:
Мы не индексируем все существующие URL-адреса, и это нормально. Сосредоточьтесь на том, чтобы делать сайт замечательным и вдохновляющим, и тогда у вас не будет проблем с индексированием.
То есть, если вы хотите, чтобы Google проиндексировал ваш сайт или страницу, их содержание должно быть «замечательным и вдохновляющим».
Если вы не находите технических причин отсутствия индексирования, возможно, виновником является отсутствие ценности. Поэтому нелишне будет взглянуть на страницу свежим взглядом и спросить себя, действительно ли эта страница имеет ценность и принесет ли она пользу тому, кто перейдет на нее из результатов поиска.
Если ответом будет «нет», значит, вам следует улучшить свой контент.
Вы можете использовать Site Audit от Ahrefs и URL Profiler, чтобы найти другие потенциально некачественные страницы, которые не индексируются. Для этого перейдите в раздел Page Explorer в Site Audit и установите такие настройки:
Так вы получите «слабые» страницы — индексируемые, но не приносящие в данный момент естественного трафика. Высока вероятность того, что они не проиндексированы.
Экспортируйте отчет, а затем вставьте все URL-адреса в URL Profiler и запустите проверку Google Indexation (Индексирование в Google).
Если вы выполняете эту проверку для большого числа страниц (больше 100), то рекомендуется использовать прокси. Иначе вы рискуете тем, что Google забанит ваш IP-адрес. Если вариант с прокси не подходит, то введите в поиск Google «массовая проверка индексации в google бесплатно». Есть целый ряд инструментов, но в большинстве из них нельзя проверить более 25 страниц за раз.
Проверьте качество страниц, которые не индексируются. Улучшите качество, где это необходимо, и запросите индексирование в Google Search Console.
Также следует проверить возможность дублирования контента. Google старается не индексировать страницы-копии и очень похожие страницы. Загляните в отчет Content quality (Качество контента) в сервисе Site Audit, чтобы проверить этот вариант.
9) Удалите некачественные страницы (чтобы оптимизировать «краулинговый бюджет»)
Слишком большое число некачественных страниц на сайте приводит к пустой трате краулингового бюджета.
[Страницы-с-низкой-ценностью] отвлекают на себя активность сканирования от страниц, которую действительно имеют ценность, что способно приводить к значительным задержкам в обнаружении хорошего контента на сайте.
Представьте, что учитель проверяет сочинения, одно из которых — ваше. Если ему нужно оценить десять сочинений, то он довольно быстро доберется до вашего. Если сочинений будет сто, то ему потребуется гораздо больше времени. Если их будут тысячи, то нагрузка будет слишком высокой, и учитель может вообще никогда не добраться до оценки вашего сочинения.
В Google заявляют, что «краулинговый бюджет […] — это не то, о чем большинству стоит беспокоиться», и что «если на сайте меньше нескольких тысяч адресов, то большую часть времени он будет сканироваться эффективно».
Тем не менее, удаление некачественных страниц с вашего сайта никогда не повредит. Это только пойдет на пользу краулинговому бюджету.
Вы можете использовать наш шаблон аудита контента, чтобы найти потенциально некачественные и нерелевантные страницы, которые можно удалить.
10) Получите качественные обратные ссылки
Обратные ссылки сообщают Google о том, что страница, на которую они ведут, важна. Раз кто-то дает на нее ссылку, значит, у нее должна быть некая ценность, верно? Поэтому Google индексирует страницы с обратными ссылками.
Для полной прозрачности Google индексирует не только страницы, имеющие обратные ссылки. Есть множество (миллиарды) проиндексированных страниц без обратных ссылок. Но поскольку Google считает страницы с качественными ссылками более важными, поисковик будет быстрее и чаще сканировать такие страницы, чем те, у которых нет обратных ссылок. То есть, индексирование страниц с качественными обратными ссылками происходит быстрее.
В нашем блоге есть много материалов по созданию качественных обратных ссылок.
Ниже приведены ссылки на некоторые из них.
Индексирование и ранжирование — это разные вещи
Наличие вашего сайта в индексе Google не означает, что он будет попадать в выдачу и приносить трафик.
Индексирование означает только то, что Google известно о существовании вашего сайта. Это не означает, что ваш сайт будет показан в топе выдачи по подходящим запросам.
Тут-то и вступает в дело SEO — искусство оптимизации веб-страниц для попадания в топ выдачи по определенным запросам.
В общих чертах поисковая оптимизация (SEO) включает в себя:
Вот видео, которое поможет разобраться в основах SEO:
…И несколько статей:
Напоследок
Есть только две возможные причины, почему Google не индексирует ваш сайт или веб-страницу:
Вполне возможно, что имеют место обе эти проблемы. Но, по моему опыту, технические проблемы встречаются гораздо чаще. Технические проблемы также могут стать причиной автоматического создания индексируемого некачественного контента (например, проблемы с фасетной навигацией). Это нехорошо.
Но проход по приведенному выше списку в девяти случаях из десяти должен решить проблемы индексирования.
Только не забывайте, что индексирование и ранжирование — это разные вещи. Выполнение поисковой оптимизации по-прежнему жизненно необходимо, если вы хотите вывести свои страницы в топ выдачи по подходящим поисковым запросам и привлечь стабильный поток естественного трафика.