▷ Jak naprawić błąd „Indeksowany, choć zablokowany przez plik robots.txt” w Google Search Console ✅

Jak naprawić błąd „Indeksowany, choć zablokowany przez plik robots.txt” w Google Search Console

Inhaltsverzeichnis

Jeśli w Google Search Console pojawiło się ostrzeżenie „Indeksowany, choć zablokowany przez plik robots.txt”, warto go jak najszybciej naprawić, ponieważ może to mieć wpływ na pozycję Twoich stron w ogóle w wyszukiwarce Strony wyników (SERPS).

Plik robots.txt to plik znajdujący się w katalogu Twojej witryny, który zawiera instrukcje dla robotów indeksujących wyszukiwarek, takich jak bot Google, określające, które pliki powinny, a których nie powinny przeglądać.

„Zaindeksowany, choć zablokowany przez plik robots.txt” oznacza, że Google znalazł Twoją stronę, ale znalazł także instrukcję ignorowania jej w pliku robots (co oznacza, że nie pojawi się ona w wynikach).

Czasami jest to zamierzone lub przypadkowe, z wielu powodów opisanych poniżej i można to naprawić.

Oto zrzut ekranu powiadomienia:

Zidentyfikuj strony lub adresy URL, których dotyczy problem

Jeśli otrzymałeś powiadomienie z Google Search Console (GSC), musisz zidentyfikować konkretne strony lub adresy URL, których dotyczy problem.

Możesz przeglądać strony z indeksem, choć zablokowane przez problemy z robots.txt w Google Search Console>>Zasięg. Jeśli nie widzisz etykiety ostrzegawczej, jesteś wolny i czysty.

Jednym ze sposobów przetestowania pliku robots.txt jest skorzystanie z naszego testera pliku robots.txt. Może się okazać, że nie przeszkadza Ci to, że wszystko, co jest blokowane, pozostaje „zablokowane”. Dlatego nie musisz podejmować żadnych działań.

Możesz także to śledzić Link do GSC. Następnie musisz:

Otwórz listę zablokowanych zasobów i wybierz domenę.
Kliknij każdy zasób. Powinieneś zobaczyć to wyskakujące okienko:

Określ powód powiadomienia

Powiadomienie może wynikać z kilku powodów. Oto najczęściej spotykane:

Ale po pierwsze, niekoniecznie jest to problem, jeśli istnieją strony zablokowane przez plik robots.txt. Mogło to zostać zaprojektowane z powodów takich jak chęć programisty do zablokowania niepotrzebnych stron/kategorii lub duplikatów. Jakie zatem są rozbieżności?

Zły format adresu URL

Czasami problem może wynikać z adresu URL, który tak naprawdę nie jest stroną. Na przykład, jeśli adres URL https://www.seoptimer.com/?s=digital+marketing, musisz wiedzieć, do której strony prowadzi ten adres URL.

Jeśli jest to strona zawierająca istotne treści, które naprawdę chcesz zobaczyć, musisz zmienić adres URL. Jest to możliwe w systemach zarządzania treścią (CMS), takich jak WordPress, gdzie można edytować plik błąd strony.

Jeśli strona nie jest ważna lub w naszym przykładzie /?s=digital+marketing jest to zapytanie z naszego bloga, to nie ma potrzeby naprawiania błędu GSC.

Nie ma znaczenia, czy jest on indeksowany, czy nie, ponieważ nie jest to nawet prawdziwy adres URL, ale wyszukiwane hasło. Alternatywnie możesz usunąć stronę.

Strony, które warto zaindeksować

Istnieje kilka powodów, dla których strony, które powinny być zaindeksowane, nie są indeksowane. Tu jest kilka:

Czy sprawdziłeś dyrektywy dotyczące robotów? Być może w pliku robots.txt zostały zawarte dyrektywy, które uniemożliwiają indeksowanie stron, które w rzeczywistości powinny zostać zaindeksowane, na przykład tagów i kategorii. Tagi i kategorie to rzeczywiste adresy URL w Twojej witrynie.
Czy wskazujesz Googlebotowi łańcuch przekierowań? Googlebot przegląda każdy link, na jaki natrafi, i stara się go przeczytać w celu zaindeksowania. Jeśli jednak skonfigurujesz wielokrotne, długie i głębokie przekierowanie lub jeśli strona będzie po prostu nieosiągalna, Googlebot przestanie szukać.
Poprawnie zaimplementowano link kanoniczny? Znacznik kanoniczny jest używany w nagłówku HTML, aby poinformować Googlebota, która strona jest preferowana i kanoniczna w przypadku zduplikowanej treści. Każda strona powinna mieć tag kanoniczny. Na przykład masz stronę przetłumaczoną na język hiszpański. Uczynisz kanoniczny hiszpański adres URL i chcesz przywrócić kanoniczną stronę do domyślnej wersji angielskiej.

Jak sprawdzić, czy plik Robots.txt jest poprawny na WordPress?

W przypadku WordPressa, jeśli plik robots.txt jest częścią instalacji witryny, użyj wtyczki Yoast, aby go edytować. Jeśli plik robots.txt powodujący problemy znajduje się w innej witrynie, która nie należy do Ciebie, skontaktuj się z właścicielami witryny i poproś ich o edycję pliku robots.txt.

Strony, które nie powinny być indeksowane

Istnieje kilka powodów, dla których strony, które nie powinny być indeksowane, są indeksowane. Tu jest kilka:

Dyrektywy w pliku Robots.txt, które „mówią”, że strona nie powinna być indeksowana. Pamiętaj, że musisz zezwolić na przeszukiwanie strony z dyrektywą „noindex”, aby roboty wyszukiwarek „wiedziały”, że nie powinna ona być indeksowana.

Upewnij się, że w pliku robots.txt:

Linia „disallow” nie następuje bezpośrednio po linii „user-agent”.
Nie ma więcej niż jednego bloku „user-agent”.
Niewidoczne znaki Unicode – musisz uruchomić plik robots.txt w edytorze tekstu, który przekonwertuje kodowania. Spowoduje to usunięcie wszelkich znaków specjalnych.

Strony są powiązane z innymi witrynami. Strony mogą zostać zaindeksowane, jeśli prowadzą do nich linki z innych witryn, nawet jeśli nie jest to dozwolone w pliku robots.txt. W tym przypadku jednak w wynikach wyszukiwania pojawia się jedynie adres URL i tekst zakotwiczenia. Oto jak te adresy URL są wyświetlane na stronie wyników wyszukiwania (SERP):

Źródło obrazu Webmasterzy StackExchange

Jednym ze sposobów rozwiązania problemu z blokowaniem pliku robots.txt jest zabezpieczenie hasłem plików na serwerze.

Możesz też usunąć strony z pliku robots.txt lub użyć poniższego metatagu, aby je zablokować

ich:

Stare adresy URL

Jeśli utworzyłeś nową treść lub nową witrynę i użyłeś dyrektywy „noindex” w pliku robots.txt, aby upewnić się, że nie zostanie on zaindeksowany, lub jeśli niedawno zarejestrowałeś się w GSC, istnieją dwie możliwości naprawienia problemu zablokowanego przez plik robots.txt wydanie:

Daj Google czas na ostateczne usunięcie starych adresów URL z indeksu
301 przekierowuje stare adresy URL na obecne

W pierwszym przypadku Google ostatecznie usuwa adresy URL ze swojego indeksu, jeśli jedyne, co zwróci, to błąd 404 (co oznacza, że strony nie istnieją). Nie zaleca się używania wtyczek do przekierowywania błędów 404. Wtyczki mogą powodować problemy, w wyniku których GSC będzie wysyłać ostrzeżenie „zablokowany przez plik robots.txt”.

Wirtualne pliki robots.txt

Istnieje możliwość otrzymania powiadomienia nawet jeśli nie posiadasz pliku robots.txt. Dzieje się tak, ponieważ witryny oparte na systemach CMS (Customer Management Systems), na przykład WordPress, mają wirtualne pliki robots.txt. Wtyczki mogą również zawierać pliki robots.txt. To właśnie one mogą powodować problemy w Twojej witrynie.

Te wirtualne pliki robots.txt należy zastąpić własnym plikiem robots.txt. Upewnij się, że plik robots.txt zawiera dyrektywę zezwalającą wszystkim botom wyszukiwarek na indeksowanie Twojej witryny. Tylko w ten sposób mogą określić, czy adresy URL mają być indeksowane, czy nie.

Oto dyrektywa, która pozwala wszystkim botom indeksować Twoją witrynę:

Agent użytkownika: *

Uniemożliwić: /

Oznacza to „niczego nie zabraniać”.

Podsumowując

Przyjrzeliśmy się ostrzeżeniu „Indeksowane, choć zablokowane przez plik robots.txt”, co ono oznacza, jak zidentyfikować strony lub adresy URL, których dotyczy problem, a także przyczynę ostrzeżenia. Przyjrzeliśmy się również, jak to naprawić. Pamiętaj, że ostrzeżenie nie oznacza błędu w Twojej witrynie. Jednak niezastosowanie się do tego może spowodować, że najważniejsze strony nie zostaną zaindeksowane, co nie będzie dobre dla wygody użytkownika.