Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji!

Google odpowiada, czy lepiej jest OCR tekstu w plikach PDF, czy nie

Google odpowiada, czy lepiej jest OCR tekstu w plikach PDF, czy nie

Podczas hangouta specjalista ds. SEO zapytał Johna Muellera o osadzone pliki PDF.

Ich pytanie brzmiało: ich witryna używa ramek iframe i skryptu do osadzania plików PDF na swoich stronach. Czy jest jakaś korzyść z pobrania tekstu OCR z pliku PDF i wklejenia go do dokumentów HTML w celu SEO?

A może Google po prostu przeanalizuje zawartość pliku PDF pod kątem tej samej wagi i trafności, aby ją zaindeksować?

John wyjaśnił, że to pytanie na chwilę go wytrąciło z równowagi, ponieważ brzmiało, jakby chcieli pobrać tekst pliku PDF i po prostu ukryć go w kodzie HTML ze względów SEO. Jest to coś, czego John nie zalecał.

Powiedział, że jeśli chcesz, aby treść mogła być indeksowana, powinieneś udostępnić ją na stronie.

To pierwsza rzecz, którą powiedziałby na temat plików PDF.

Potwierdził, że Google rzeczywiście próbuje wyodrębnić tekst z plików PDF i zindeksować go pod kątem samych plików PDF.

Z praktycznego punktu widzenia plik PDF to jeden z pierwszych kroków, w którym Google konwertuje go na stronę HTML i próbuje zaindeksować go jak stronę HTML.

Zasadniczo tworzysz ramkę iframe i będzie to pośrednia strona HTML.

A jeśli chodzi o ramki iframe, Google uwzględnia tę treść podczas indeksowania na tej stronie głównej.

Ale może się również zdarzyć, że i tak indeksują plik PDF osobno. Z tego punktu widzenia naprawdę trudno powiedzieć, co dokładnie się stanie.

John odwracał pytanie i formułował je w formie „co chcesz, żeby się stało?” A jeśli chcesz, aby Twoje zwykłe strony internetowe były indeksowane zawartością pliku PDF, to zrób to tak, aby treść była od razu widoczna na stronie HTML.

Zamiast osadzać plik PDF jako główny element treści, ustaw treść HTML jako podstawowy element, a następnie utwórz łącze do pliku PDF.

Następnie pojawia się pytanie, czy chcesz, aby te pliki PDF były indeksowane osobno, czy nie?

Czasami chcesz, aby pliki PDF były indeksowane oddzielnie. A jeśli chcesz, aby były one indeksowane osobno, link do nich jest świetny.

Jeśli nie chcesz, aby były one indeksowane osobno, możesz użyć pliku robots.txt, aby zablokować ich indeksowanie.

Można także użyć nagłówka HTTP noindex, X-robots. Jest to nieco bardziej skomplikowane, ponieważ musisz podać to jako nagłówek plików PDF.

Dzieje się to mniej więcej w 17:30 na filmie.

Transkrypcja Hangouta Johna Muellera

Jan (pytanie)
Zobaczmy tutaj bardziej techniczny. Nasza witryna korzysta z ramek iframe i skryptu do osadzania plików PDF na naszych stronach. Czy jest jakaś korzyść z pobrania tekstu OCR z pliku PDF i wklejenia go gdzieś do kodu HTML dokumentu w celach SEO? A może Google po prostu przeanalizuje zawartość pliku PDF pod kątem tej samej wagi i trafności, aby ją zaindeksować?

Jan (odpowiedź)
Tak, więc jestem na chwilę, trochę wyrzucony, bo brzmi to tak, jakbyś chciał wziąć tekst z pliku PDF i po prostu ukryć go w kodzie HTML ze względów SEO. I jest to coś, czego zdecydowanie nie polecam robić. Jeśli chcesz, aby treść była indeksowalna, udostępnij ją jako widoczną na stronie. To w pewnym sensie pierwsza rzecz, którą chciałbym powiedzieć. Jeśli chodzi o pliki PDF, staramy się pobierać tekst z plików PDF i indeksować go dla samych plików PDF. Z praktycznego punktu widzenia plik PDF polega na tym, że w jednym z pierwszych kroków konwertujemy go na stronę HTML i staramy się go zaindeksować jak stronę HTML.

Zasadniczo robisz coś w rodzaju… tworzenia ramek pośredniej strony HTML. A jeśli chodzi o ramki iframe, możemy wziąć je pod uwagę przy indeksowaniu na stronie głównej. Ale może się też zdarzyć, że i tak indeksujemy plik PDF osobno. Z tego punktu widzenia naprawdę trudno dokładnie powiedzieć, co się stanie. Odwróciłbym pytanie i sformułował je w formie „co chciałbyś, żeby się stało?”

A jeśli chcesz, aby Twoje zwykłe strony internetowe były indeksowane zawartością pliku PDF, zrób to tak, aby treść ta była natychmiast widoczna na stronie HTML. Zamiast więc osadzać plik PDF jako podstawowy element treści, ustaw treść HTML jako element podstawowy i umieść łącze do pliku PDF. A następnie pojawia się pytanie, czy chcesz, aby te pliki PDF były indeksowane osobno, czy nie? Czasami chcesz, aby pliki PDF były indeksowane oddzielnie. A jeśli chcesz, aby były one indeksowane osobno, link do nich jest świetny.

Jeśli nie chcesz, aby były one indeksowane osobno, użycie pliku robots.txt do blokowania ich indeksowania również jest w porządku. Można także użyć nagłówka HTTP noindex X-robots. To trochę bardziej skomplikowane, ponieważ musisz podać to jako nagłówek plików PDF, jeśli chcesz, aby te pliki PDF były dostępne w ramce iframe, ale w rzeczywistości nie były indeksowane.