Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji!

Co to jest plik Robots.txt i co można z nim zrobić? ) |

Co to jest plik robots.txt?

Robots.txt to krótki plik tekstowy instruujący roboty indeksujące (np. Googlebot), co mogą indeksować w Twojej witrynie.

Z punktu widzenia SEO plik robots.txt pomaga najpierw zaindeksować najważniejsze strony i zapobiega odwiedzaniu przez boty stron, które nie są ważne.

Oto jak może wyglądać plik robots.txt:

Gdzie znaleźć plik robots.txt

Znalezienie plików robots.txt jest dość proste – przejdź do strony głównej dowolnej domeny i dodaj na jej końcu „/robots.txt”.

Pokaże Ci prawdziwy, działający plik robots.txt, oto przykład:

https://twojadomena.com/robots.txt

Plik Robots.txt to folder publiczny, który można sprawdzić praktycznie na dowolnej stronie internetowej – można go znaleźć nawet na serwisach takich jak Amazon, Facebook czy Apple.

Dlaczego plik robots.txt jest ważny?

Celem pliku robots.txt jest poinformowanie robotów indeksujących, do których części Twojej witryny internetowej mogą uzyskać dostęp i w jaki sposób powinny wchodzić w interakcję ze stronami.

Ogólnie rzecz biorąc, ważne jest, aby treść witryny mogła zostać najpierw przeszukana i zaindeksowana – wyszukiwarki muszą znaleźć Twoje strony, zanim będą mogły pojawić się w wynikach wyszukiwania.

Jednakże w niektórych przypadkach lepiej uniemożliwić robotom indeksującym odwiedzanie określonych stron (np. pustych stron, strony logowania do Twojej witryny itp.).

Można to osiągnąć za pomocą pliku robots.txt, który roboty indeksujące zawsze najpierw sprawdzają przed faktycznym rozpoczęciem indeksowania witryny.

Notatka: Plik Robots.txt może uniemożliwić wyszukiwarkom indeksowanie, ale nie indeksowanie.

Chociaż odwiedzanie określonej strony może zostać uniemożliwione robotom indeksującym, wyszukiwarki mogą nadal go indeksować, jeśli wskazują na niego niektóre linki zewnętrzne.

Ta zaindeksowana strona może zatem pojawić się jako wynik wyszukiwania, ale bez żadnej przydatnej treści – ponieważ roboty indeksujące nie mogły zaindeksować żadnych danych ze strony:

Aby uniemożliwić Google indeksowanie Twoich stron, użyj innych odpowiednich metod (np. metatagu noindex), aby wskazać, że nie chcesz, aby niektóre części Twojej witryny pojawiały się w wynikach wyszukiwania.

Oprócz podstawowego przeznaczenia pliku robots.txt istnieją również pewne korzyści SEO, które mogą być przydatne w określonych sytuacjach.

1. Zoptymalizuj budżet indeksowania

Budżet indeksowania określa liczbę stron, które roboty indeksujące, takie jak Googlebot, będą indeksować (lub ponownie indeksować) w określonym okresie.

Wiele większych witryn internetowych zawiera zwykle mnóstwo nieistotnych stron, których nie trzeba często (lub wcale) przeszukiwać i indeksować.

Użycie pliku robots.txt informuje wyszukiwarki, które strony należy indeksować, a których należy całkowicie unikać – co optymalizuje wydajność i częstotliwość indeksowania.

2. Zarządzaj zduplikowanymi treściami

Plik robots.txt może pomóc Ci uniknąć indeksowania podobnych lub zduplikowanych treści na Twoich stronach.

Wiele witryn internetowych zawiera jakąś formę zduplikowanej treści – niezależnie od tego, czy istnieją strony z parametrami adresu URL, strony z www i bez www, identyczne pliki PDF itp.

Wskazując te strony za pomocą pliku robots.txt, możesz zarządzać treściami, które nie wymagają przeszukiwania, i pomóc wyszukiwarce indeksować tylko te strony, które mają być wyświetlane w wyszukiwarce Google.

3. Zapobiegaj przeciążeniu serwera

Korzystanie z pliku robots.txt może pomóc w zapobieganiu awariom serwera witryny.

Ogólnie rzecz biorąc, Googlebot (i inne szanowane roboty indeksujące) zazwyczaj dobrze potrafią określić, jak szybko powinny indeksować Twoją witrynę, nie obciążając jednocześnie wydajności jej serwera.

Możesz jednak chcieć zablokować dostęp robotom, które zbyt często i zbyt często odwiedzają Twoją witrynę.

W takich przypadkach plik robots.txt może wskazać robotom, na których konkretnych stronach powinny się skupić, pozostawiając inne części witryny w spokoju i zapobiegając w ten sposób przeciążeniu witryny.

Lub jako Martin Splittrzecznik deweloperów w Google wyjaśnił:

To jest szybkość indeksowania, czyli w skrócie, ile stresu możemy nałożyć na Twój serwer, nie powodując przy tym awarii ani nadmiernego niszczenia serwera.

Ponadto możesz chcieć zablokować określone boty powodujące problemy z witryną – niezależnie od tego, czy jest to „zły” bot przeciążający witrynę żądaniami, czy blokowanie skrobaków, które próbują skopiować całą zawartość Twojej witryny.

Jak działa plik robots.txt?

Podstawowe zasady działania pliku robots.txt są dość proste – składają się z 2 podstawowych elementów, które decydują, który robot sieciowy powinien coś zrobić i co dokładnie ma to być:

  • Klienci użytkownika: określ, które roboty będą kierowane w celu unikania (lub przeszukiwania) określonych stron
  • Dyrektywy: mówi agentom użytkownika, co powinni zrobić z określonymi stronami.

Oto najprostszy przykład tego, jak może wyglądać plik robots.txt z tymi 2 elementami:

Klient użytkownika: Googlebot Disallow: /wp-admin/

Przyjrzyjmy się bliżej obu z nich.

Klienci użytkownika

User-agent to nazwa konkretnego robota, który otrzyma instrukcje dotyczące indeksowania Twojej witryny.

Na przykład klient użytkownika ogólnego robota Google to „Googlebota”, w przypadku robota Bing jest to „BingBota”, dla Yahoo”Siorbnąć”itd.

Aby jednocześnie oznaczyć wszystkie typy robotów sieciowych dla określonej dyrektywy, możesz użyć symbolu „*” (tzw. symbolu wieloznacznego) – reprezentuje wszystkie boty, które „przestrzegają” pliku robots.txt.

W pliku robots.txt wyglądałoby to tak:

Agent użytkownika: * Disallow: /wp-admin/

Uwaga: należy pamiętać, że istnieje wiele typów programów użytkownika, a każdy z nich koncentruje się na indeksowaniu w różnych celach.

Jeśli chcesz zobaczyć, jakich klientów użytkownika używa Google, sprawdź to przegląd robotów Google.

Dyrektywy

Dyrektywy w pliku Robots.txt to reguły, których będzie przestrzegać określony klient użytkownika.

Domyślnie roboty indeksujące otrzymują polecenie indeksowania każdej dostępnej strony internetowej – plik robots.txt określa następnie, które strony lub sekcje witryny nie powinny być indeksowane.

Istnieją 3 najczęściej stosowane zasady:

  • Uniemożliwić – mówi robotom, aby nie uzyskiwały dostępu do niczego, co jest określone w tej dyrektywie. Możesz przypisać wiele instrukcji blokujących do agentów użytkownika.
  • Umożliwić – informuje roboty indeksujące, że mogą uzyskać dostęp do niektórych stron z już niedozwolonej sekcji witryny.
  • Mapa witryny – jeśli skonfigurowałeś mapę witryny XML, plik robots.txt może wskazywać robotom sieciowym, gdzie mogą znaleźć strony, które chcesz przeszukać, wskazując im mapę witryny.

Oto przykład, jak może wyglądać plik robots.txt z tymi 3 prostymi dyrektywami:

Klient użytkownika: Googlebot Disallow: /wp-admin/ Zezwól: /wp-admin/random-content.php Mapa witryny: https://www.example.com/sitemap.xml

W pierwszej linijce ustaliliśmy, że dyrektywa dotyczy konkretnego robota – Googlebota.

W drugim wierszu (dyrektywa) powiedzieliśmy Googlebotowi, że nie chcemy, aby miał dostęp do określonego folderu – w tym przypadku strony logowania do witryny WordPress.

W trzeciej linii dodaliśmy wyjątek – choć Googlebot nie ma dostępu do niczego, co znajduje się w folderze /wp-admin/, może odwiedzić jeden konkretny adres.

W czwartym wierszu poinstruowaliśmy Googlebota, gdzie znaleźć mapę witryny wraz z listą adresów URL, które mają być indeksowane.

Istnieje również kilka innych przydatnych reguł, które można zastosować do pliku robots.txt – zwłaszcza jeśli Twoja witryna zawiera tysiące stron wymagających zarządzania.

* (Dzika karta)

Symbol wieloznaczny * to dyrektywa wskazująca regułę dopasowywania wzorców.

Reguła jest szczególnie przydatna w przypadku witryn zawierających mnóstwo wygenerowanych treści, przefiltrowanych stron produktów itp.

Na przykład zamiast blokować każdą stronę produktu z osobna w sekcji /produkty/ (jak w poniższym przykładzie):

Klient użytkownika: * Disallow: /products/shoes? Nie zezwalaj: /produkty/buty? Nie zezwalaj: /produkty/trampki?

Możemy użyć symbolu wieloznacznego, aby uniemożliwić je wszystkie na raz:

Klient użytkownika: * Disallow: /products/*?

W powyższym przykładzie klient użytkownika otrzymuje polecenie, aby nie indeksować żadnej strony w sekcji /produkty/ zawierającej znak zapytania „?” (często używane w przypadku sparametryzowanych adresów URL kategorii produktów).

$

Symbol $ wskazuje koniec adresu URL — można poinstruować roboty indeksujące, że nie powinny (lub powinny) indeksować adresów URL o określonej końcówce:

Klient użytkownika: * Disallow: /*.gif$

Znak „$” informuje boty, że muszą ignorować wszystkie adresy URL kończące się na „.gif”.

#

Znak # służy jedynie jako komentarz lub adnotacja dla ludzkich czytelników – nie ma wpływu na żadnego klienta użytkownika ani nie służy jako dyrektywa:

# Nie chcemy, aby jakikolwiek robot odwiedzał naszą stronę logowania! Agent użytkownika: * Disallow: /wp-admin/

Jak utworzyć plik robots.txt

Tworzenie własnego pliku robots.txt nie jest czymś kosmicznym.

Jeśli używasz WordPressa na swojej stronie, będziesz mieć już utworzony podstawowy plik robots.txt – podobny do pokazanego powyżej.

Jeśli jednak planujesz wprowadzić w przyszłości dodatkowe zmiany, istnieje kilka prostych wtyczek, które pomogą Ci zarządzać plikiem robots.txt, takich jak:

Wtyczki te ułatwiają kontrolowanie tego, co chcesz zezwolić, a czego zabronić, bez konieczności samodzielnego pisania skomplikowanej składni.

Alternatywnie możesz także edytować plik robots.txt za pośrednictwem protokołu FTP – jeśli masz pewność, że możesz uzyskać do niego dostęp i edytować go, przesłanie pliku tekstowego jest całkiem łatwe.

Metoda ta jest jednak dużo bardziej skomplikowana i może szybko wprowadzić błędy.

Wskazówka: Jeśli chcesz dowiedzieć się więcej na temat przesyłania pliku robots.txt na swoją witrynę, zapoznaj się z dokumentacją Google na temat utworzenie i przesłanie pliku robots.txt.

Jak sprawdzić plik robots.txt

Istnieje wiele sposobów sprawdzenia (lub przetestowania) pliku robots.txt – po pierwsze, powinieneś spróbować samodzielnie znaleźć plik robots.txt.

Jeśli nie podałeś konkretnego adresu URL, Twój plik będzie przechowywany pod adresem „https://twojadomena.com/robots.txt” – jeśli korzystasz z innego kreatora stron internetowych, konkretny adres URL może być inny.

Aby sprawdzić, czy wyszukiwarki takie jak Google rzeczywiście mogą znaleźć plik robots.txt i go „przesłuchać”, możesz:

  • Skorzystaj z testera pliku robots.txt – proste narzędzie Google, które pomoże Ci sprawdzić, czy Twój plik robots.txt działa poprawnie.
  • Sprawdź Google Search Console – możesz poszukać błędów spowodowanych przez plik robots.txt w „Zasięg” w Google Search Console. Upewnij się, że nie ma adresów URL generujących wiadomości „zablokowane przez plik robots.txt„nieumyślnie.

Najlepsze praktyki w pliku robots.txt

Pliki Robots.txt mogą łatwo stać się skomplikowane, dlatego najlepiej jest zachować wszystko tak proste, jak to możliwe.

Oto kilka wskazówek, które mogą pomóc w tworzeniu i aktualizowaniu własnego pliku robots.txt:

  • Użyj oddzielnych plików dla subdomen – jeśli Twoja witryna posiada wiele subdomen, należy je traktować jako osobne witryny. Zawsze twórz osobne pliki robots.txt dla każdej posiadanej subdomeny.
  • Określ agenty użytkownika tylko raz – spróbuj połączyć w jedną całość wszystkie dyrektywy przypisane do konkretnego klienta użytkownika. Zapewni to prostotę i organizację pliku robots.txt.
  • Zapewnij konkretność – upewnij się, że podałeś dokładne ścieżki URL i zwróć uwagę na wszelkie końcowe ukośniki lub określone znaki, które są obecne (lub nie) w Twoich adresach URL.