Na Twitterze jeden ze specjalistów ds. SEO zapytał Johna Muellera o PageRank. Dla tych, którzy nie wiedzą, w SEO PageRank to algorytm Google służący do pomiaru „wartości witryny internetowej”, opracowany przez współzałożyciela Google, Larry’ego Page’a i dlatego nazwany na jego cześć.
Ich pytanie brzmiało: w zeszłym tygodniu odbyli debatę, której nie mogli rozstrzygnąć. Czy Page Rank (sok linków) jest dzielony pomiędzy wszystkie linki dofollow na stronie, czy tylko pomiędzy unikalne linki dofollow?
Zauważyli, że Google również nie udzieliło żadnych konkretnych odpowiedzi.
John zasugerował przejrzenie dokumentacji mówiącej o PageRank, a dokładniej dokumentacji dostępnej pod adresem Wikipedia.
Sprawdziłbym dokumentację dotyczącą PageRank, https://t.co/yv12xrlkWE ma ładny przegląd. To całkiem dobrze udokumentowany algorytm.
— 🐝 johnmu.csv (osobisty) 🐝 (@JohnMu) 23 czerwca 2022 r
Co mówi dokumentacja dotycząca PageRank?
Jeśli nie zrobiłeś tego wcześniej, w artykule w Wikipedii jest wiele do przetrawienia. Jednak pozbawione równań fragmenty artykułu mówią, co następuje:
“Algorytm
Algorytm PageRank generuje rozkład prawdopodobieństwa używany do przedstawienia prawdopodobieństwa, że osoba losowo klikająca łącza trafi na dowolną konkretną stronę. PageRank można obliczyć dla zbiorów dokumentów dowolnej wielkości. W kilku pracach naukowych przyjęto założenie, że na początku procesu obliczeniowego rozkład jest równomiernie rozłożony pomiędzy wszystkimi dokumentami w zbiorze. Obliczenia PageRank wymagają kilku przejść, zwanych „iteracjami”, przez kolekcję w celu dostosowania przybliżonych wartości PageRank, aby lepiej odzwierciedlały teoretyczną wartość prawdziwą.
Prawdopodobieństwo wyraża się jako wartość liczbową z zakresu od 0 do 1. Prawdopodobieństwo 0,5 jest powszechnie wyrażane jako „50% szansy”, że coś się wydarzy. Zatem dokument z PageRank wynoszącym 0,5 oznacza, że istnieje 50% szans, że osoba klikająca w losowy link zostanie przekierowana do tego dokumentu.
Uproszczony algorytm
Załóżmy, że istnieje mały wszechświat składający się z czterech stron internetowych: A, B, C i D. Linki prowadzące do strony internetowej są ignorowane. Wiele linków wychodzących z jednej strony na inną stronę traktuje się jako pojedynczy link. PageRank jest inicjowany tą samą wartością dla wszystkich stron. W pierwotnej formie PageRank suma PageRank wszystkich stron była całkowitą liczbą stron w Internecie w tamtym czasie, więc każda strona w tym przykładzie miałaby początkową wartość 1. Jednak późniejsze wersje PageRank i w pozostałej części tej sekcji załóżmy, że rozkład prawdopodobieństwa mieści się w przedziale od 0 do 1. Zatem początkowa wartość każdej strony w tym przykładzie wynosi 0,25.
PageRank przeniesiony z danej strony do celów jej linków wychodzących w kolejnej iteracji jest dzielony równo pomiędzy wszystkie linki wychodzące.
Współczynnik tłumienia
Teoria PageRank głosi, że wyimaginowany internauta, który losowo klika linki, w końcu przestanie je klikać. Prawdopodobieństwo, że na każdym etapie dana osoba będzie kontynuować, jest czynnikiem tłumiącym d. W różnych badaniach sprawdzano różne współczynniki tłumienia, ale ogólnie przyjmuje się, że współczynnik tłumienia będzie wynosić około 0,85.[5]
Współczynnik tłumienia odejmuje się od 1 (a w niektórych odmianach algorytmu wynik dzieli się przez liczbę dokumentów (N) w zbiorze), a następnie składnik ten dodaje się do iloczynu współczynnika tłumienia i sumy przychodzące wyniki PageRank.
Zatem PageRank dowolnej strony jest w dużej mierze pochodną rankingów PageRank innych stron. Współczynnik tłumienia koryguje uzyskaną wartość w dół.
Różnica między nimi polega na tym, że wartości PageRank w pierwszym wzorze sumują się do jeden, podczas gdy w drugim wzorze każdy PageRank jest mnożony przez N i suma staje się N. Stwierdzenie w artykule Page’a i Brina, że „suma wszystkich PageRank wynosi jeden ”[5] oraz roszczenia innych pracowników Google[29] popierają pierwszy wariant powyższej formuły.
Page i Brin pomylili te dwa wzory w swoim najpopularniejszym artykule „The Anatomy of a Large-Scale Hypertextual Web Search Engine”, w którym błędnie twierdzili, że ta druga formuła tworzy rozkład prawdopodobieństwa na stronach internetowych.[5]
Google ponownie oblicza wyniki PageRank za każdym razem, gdy indeksuje sieć i odbudowuje swój indeks. W miarę jak Google zwiększa liczbę dokumentów w swojej kolekcji, początkowe przybliżenie PageRank maleje dla wszystkich dokumentów.
Formuła wykorzystuje model losowego internauty, który po kilku kliknięciach trafia na stronę docelową, a następnie przełącza się na losową stronę. Wartość PageRank strony odzwierciedla szansę, że przypadkowy użytkownik trafi na tę stronę, klikając łącze. Można go rozumieć jako łańcuch Markowa, w którym stany są stronami, a przejścia są połączeniami między stronami – wszystkie są jednakowo prawdopodobne.
Jeśli strona nie zawiera linków do innych stron, staje się ujściem i dlatego kończy się proces losowego surfowania. Jeśli przypadkowy internauta dotrze do strony ujścia, wybiera losowo inny adres URL i ponownie kontynuuje surfowanie.
Przy obliczaniu PageRank zakłada się, że strony bez linków wychodzących prowadzą do wszystkich innych stron w kolekcji. Dlatego ich wyniki PageRank są równo podzielone pomiędzy wszystkie pozostałe strony. Innymi słowy, aby zachować uczciwość w przypadku stron, które nie są ujściami, te losowe przejścia są dodawane do wszystkich węzłów w sieci. To prawdopodobieństwo rezydualne d jest zwykle ustawiane na 0,85 i szacowane na podstawie częstotliwości, z jaką przeciętny internauta korzysta z funkcji zakładek w swojej przeglądarce.
To wszystko są starsze informacje i mogą nie odzwierciedlać dokładnie tego, co robi dzisiaj Google, ale warto je przeczytać, jeśli nie masz pojęcia o PageRank i sposobie jego obliczania.
Warto też zauważyć, że PageRank nie zniknął. Zostało to po prostu przeniesione do bardziej wewnętrznej wzmianki, aby Google nie musiało się o tym publicznie informować.
Googler Gary Illyes powiedział na ten temat tyle samo w 2017 roku:
DYK, że po 18 latach nadal używamy PageRank (i setek innych sygnałów) w rankingach?
Chcesz wiedzieć jak to działa?https://t.co/CfOlxGauGF pic.twitter.com/3YJeNbXLml
— Gary 鯨理/경리 Illyes (@methode) 9 lutego 2017 r