Jeden ze specjalistów ds. SEO był zaniepokojony sposobem renderowania ciągów JavaScript w ich witrynie – a dokładniej ciągu znaków rozpoczynającego się od ukośnika, interpretowanego jako adres URL i śledzonego przez Googlebota.
W przypadku tych indeksowań czasami adres URL jest nieprawidłowy.
Widzą też różne błędy indeksowania w Search Console.
Ich główne pytanie brzmi: jakie są oficjalne zalecenia dotyczące nofollow takich adresów URL? Służą do dzielenia strun na dwie lub więcej części.
Czy posiadanie milionów stron zawierających tego typu ciągi ma negatywny wpływ na budżet indeksowania?
John odpowiedział, że nie muszą się martwić o budżet indeksowania.
Jeśli chodzi o indeksowanie, Google ustala priorytety na różne sposoby. Wszystkie są przypadkowymi odkryciami adresów URL, na które natrafiają, a ich adres URL jest wspomniany w tekście lub gdzieś w pliku JS, a te znajdują się niżej na liście.
Jeśli mają coś ważnego do rozpoznania w witrynie internetowej lub na nowych stronach powiązanych z jakąkolwiek nową treścią, która została utworzona, w pierwszej kolejności będą traktować nową treść priorytetowo.
Następnie, jeśli mają czas, przejrzą także wszystkie losowe inne wzmianki o adresach URL, które odkryli.
Z punktu widzenia budżetu przeszukiwania zwykle nie stanowi to problemu. Jeśli specjalista ds. SEO jest tym ogólnie zaniepokojony, a Google indeksuje zbyt dużą część witryny, może dostosować szybkość indeksowania w Search Console za pomocą ustawienia szybkości indeksowania.
Ponownie Google nadal będzie ustalać priorytety. Jeśli ustawisz to ustawienie na niskie, skupią się najpierw na ważnych rzeczach. A jeśli uda im się omówić najważniejsze rzeczy, spróbują przejść przez resztę.
Z tej perspektywy, jeśli zauważysz, że Google zbyt mocno atakuje serwer, możesz po dniu lub dwóch dostosować szybkość indeksowania i powinna ona ustabilizować się na nowym poziomie.
Wtedy powinni móc dalej się czołgać.
Jeśli chodzi o śledzenie tych adresów URL, w plikach JavaScript nie jest to możliwe. Google próbuje rozpoznawać adresy URL w języku JavaScript, ponieważ czasami adresy URL są wymieniane tylko w języku JavaScript.
Możliwe jest jednak umieszczenie tych adresów URL w pliku JavaScript, który będzie następnie blokowany przez plik robots.txt.
Jeśli adres URL jest blokowany przez plik robots.txt, nie będą mogli zobaczyć pliku JavaScript ani tych adresów URL.
Dzieje się to około 30:30 filmu.
Transkrypcja Hangouta Johna Muellera
Jana (zadane pytanie) 30:30
Widzimy, że każdy ciąg JavaScript rozpoczynający się od ukośnika jest interpretowany jako adres URL i następuje po nim Googlebot. Czasami adres URL jest nieprawidłowy i w Search Console widzimy różne błędy indeksowania. Czy istnieją oficjalne zalecenia dotyczące nofollow takich adresów URL? Zwykle dzieliliśmy struny na dwie lub więcej części. Posiadanie milionów stron zawierających takie ciągi znaków może negatywnie wpłynąć na budżet indeksowania.
Jan (30:58)
Myślę więc, podobnie jak ostatnie pytanie lub ostatnia część pytania dotyczącego budżetu przeszukiwania, to jedna rzecz, o którą zdecydowanie nie musisz się martwić. Ponieważ jeśli chodzi o raczkowanie, ustalamy priorytety na różne sposoby. Wszystkie tego rodzaju losowe odkrycia adresów URL, na które natrafiamy, gdy adres URL jest wymieniony w tekście lub gdzieś w pliku JavaScript, zwykle znajdują się dość nisko na liście.
Jeśli więc zauważymy coś ważnego w Twojej witrynie, wszelkie nowe strony, do których prowadzą linki, lub jakąkolwiek nową treść, którą utworzyłeś, nadamy temu priorytetowi priorytet. A potem, jeśli będziemy mieli czas, przejrzymy także wszystkie losowe inne wzmianki o adresach URL, które odkryliśmy. Zatem z punktu widzenia budżetu przeszukiwania zwykle nie stanowi to problemu. Jeśli ogólnie widzisz, że indeksujemy zbyt dużą część Twojej witryny, możesz dostosować szybkość indeksowania w Search Console za pomocą ustawienia szybkości indeksowania.
I znowu tutaj nadal ustalamy priorytety. Jeśli więc ustawisz ustawienie na dość niskie, nadal spróbujemy skupić się najpierw na ważnych rzeczach. A jeśli uda nam się omówić najważniejsze rzeczy, spróbujemy w pewnym sensie omówić resztę. Z tego punktu widzenia, jeśli naprawdę widzisz, że zbyt mocno uderzamy w Twój serwer, możesz po prostu to skorygować po dniu lub dwóch i powinno w pewnym sensie ustabilizować się w nowym tempie.
I powinniśmy móc, w pewnym sensie, czołgać się dalej. Jeśli chodzi o zakaz śledzenia tych adresów URL, tak naprawdę nie można tego zrobić w plikach JavaScript. Ponieważ staramy się rozpoznawać adresy URL w JavaScript, ponieważ czasami adresy URL są wymienione tylko w JavaScript. Możesz jednak umieścić te adresy URL w pliku JavaScript, który jest blokowany przez plik robots.txt. A jeśli adres URL zostanie zablokowany przez plik robots.txt, nie będziemy mogli zobaczyć pliku JavaScript ani tych adresów URL.
Jeśli więc myślisz, że Googlebot jest naprawdę bardzo ważny i całkowicie zagubił się w mojej witrynie, możesz użyć pliku robots.txt, aby zablokować ten plik JavaScript. Należy pamiętać, że witryna powinna nadal renderować się normalnie, a plik jest w pewnym sensie zablokowany. Uważam, że w Chrome możesz po prostu zablokować ten indywidualny adres URL i przetestować go. Jednak w szczególności należy zagwarantować przyjazność strony dla urządzeń mobilnych, nadal powinniśmy być w stanie prawidłowo widzieć układ strony przy zablokowanym pliku JavaScript.
Jeśli więc blokuje się tylko jakiś rodzaj interaktywnej funkcjonalności, zwykle nie stanowi to większego problemu. Jeśli blokuje cały JavaScript i Twoja strona w ogóle nie działa, to powiedziałbym, że być może musisz znaleźć inne podejście, aby sobie z tym poradzić.