Ranking książek i innych długich dokumentów w wynikach wyszukiwania
Nowo przyznany patent Google mówi nam o wyszukiwaniu informacji i interfejsach wyszukiwania odpowiednich wyników wyszukiwania dla zapytania. Koncentruje się na dłuższych treściach organicznych, takich jak książki, biuletyny lub katalogi w wynikach wyszukiwania. Widziałem wyniki z Książek Google pomieszane z wynikami organicznymi. Wyniki z książek to często jeden duży dokument obejmujący wiele stron tej samej książki i mogą wyświetlać fragmenty tej książki w wynikach wyszukiwania. Oczywiście wyniki te nie różnią się tak bardzo od wyników organicznych, wyników w wiadomościach, wyników lokalnych lub wyników opartych na wiedzy. Ale ciekawie było zobaczyć patent skupiający się na większych dokumentach w SERPach.
Powiązana zawartość:
Specjalny proces dla dłuższych dokumentów tego typu mówi nam, że długość treści nie jest konkretnym sygnałem rankingowym. Wygląda na to, że Google chce, aby w wynikach wyszukiwania pojawiały się zarówno dłuższe, jak i krótsze dokumenty. Patent ten opisuje sposób, w jaki dłuższe dokumenty mogą być wyświetlane w znaczący sposób.
Ten patent mówi nam to o wyszukiwarkach, ponieważ wprowadza procesy, które sprawiają, że działają:
Nowoczesne sieci komputerowe i Internet sprawiły, że informacje są szeroko i łatwo dostępne. Bezpłatne wyszukiwarki indeksują wiele milionów dokumentów internetowych połączonych z Internetem. Osoba podłączona do Internetu może wprowadzić zapytanie, aby zlokalizować dokumenty internetowe zawierające odpowiednie wyniki wyszukiwania.
Kategoria treści, która nie jest powszechnie dostępna w Internecie, obejmuje bardziej tradycyjne drukowane dzieła autorskie, takie jak książki i czasopisma.
Utwory te nie są powszechnie dostępne ze względu na trudności w konwersji drukowanych wersji tych utworów do postaci cyfrowej.
Optyczne rozpoznawanie znaków (OCR) (optyczne urządzenie skanujące do obrazów tekstu konwertowanych na znaki w formacie czytelnym dla komputera, takim jak plik ASCII) to znana technika przekształcania drukowanego tekstu na użyteczną formę cyfrową.
Systemy OCR zazwyczaj obejmują skaner optyczny do generowania obrazów drukowanych stron oraz oprogramowanie do analizy obrazów.
W opisie podsumowującym działanie tego patentu rozbito go na cechy.
Jak zwrócić trafne wyniki wyszukiwania
Metoda zwracania odpowiednich wyników wyszukiwania z wyszukiwarki może obejmować:
- Otrzymanie zapytania wyszukiwania
- Identyfikacja dokumentu na podstawie zapytania
- Dostarczanie odpowiednich wyników wyszukiwania na podstawie dokumentu
Trafne wyniki wyszukiwania mogą obejmować:
- Obrazy powiązane z dokumentem
- Wyciągi z dokumentów związanych z zapytaniem
- Linki do innych fragmentów dokumentu powiązanych z zapytaniem
GUI (graficzny interfejs wyszukiwania) może zawierać odpowiednie wyniki wyszukiwania powiązane z zestawem dokumentów.
Wyniki wyszukiwania są prawdopodobnie generowane na podstawie wyszukiwanego hasła.
Jednym z wyników wyszukiwania może być:
- Obraz powiązany z dokumentem
- Fragment dokumentu zawierający wyszukiwane hasło
- Linki do innych fragmentów dokumentu zawierających wyszukiwane hasło
Graficzny interfejs użytkownika wyników wyszukiwania
Graficzny interfejs wyszukiwania może obejmować:
- Linki do fragmentów dokumentu
- Wyciągi z dokumentu, przy czym fragment może zawierać obraz tekstu z dokumentu
- Opisy zawartości dokumentu
- Informacje o dokumentach internetowych powiązanych z dokumentem
- Informacje bibliograficzne powiązane z dokumentem
GUI może zawierać stronę dokumentu, która zawiera:
- Wyszukiwane hasło
- Zestaw łączy do fragmentów dokumentu
- Link do następnej lub poprzedniej strony dokumentu zawierającej wyszukiwane hasło
GUI może zawierać:
- Pierwszy fragment, z fragmentem tekstu i miniaturą
- Drugi fragment z fragmentem tekstu i miniaturą
GUI może obejmować:
- Obrazy z dokumentu zawierające wyszukiwane hasło
- Linki powiązane z obrazami, przy czym linki mogą umożliwiać większy widok obrazu
- Linki do innych części dokumentu
Interfejs GUI może zawierać informacje o:
- Strona dokumentu
- Linki do wcześniej odwiedzanych stron, gdzie każdy link od wyszukiwarki uzyskującej dostęp do poprzedniej strony.
GUI może zawierać informacje o:
Strony otwierane wcześniej, powiązane z zestawem dokumentów.
Obraz powiązany z jednym z dokumentów.
Informacje mogą pochodzić od wyszukiwarki uzyskującej dostęp do wcześniej odwiedzanych stron.
Co powinien zawierać interfejs wyszukiwarki?
Nośnik odczytywalny komputerowo może zawierać instrukcje dotyczące:
- Identyfikacja dokumentu na podstawie zapytania.
- Zapewnienie wyniku wyszukiwania na podstawie dokumentu
Wynik wyszukiwania może zawierać:
- Fragment dokumentu zawierający wyszukiwane hasło powiązane z wyszukiwanym hasłem
- Linki do innych fragmentów dokumentu zawierających wyszukiwane hasło powiązane z wyszukiwanym hasłem
Patent ten znajduje się pod adresem:
interfejsy wyszukiwania dla wyszukiwarki dokumentów
Wynalazcy: Siraj Khaliq, Joe Sriver, Frederick GM Roebert, William Brougher, Adam Smith
Cesjonariusz: Google LLC
Patent USA: 11 023 550
Przyznano: 1 czerwca 2021 r
Zapisano: 26 października 2016 r
Dane z wcześniejszej publikacji
Abstrakcyjny
Metoda obejmuje otrzymanie zapytania wyszukiwania, identyfikację dokumentu na podstawie zapytania wyszukiwania i dostarczenie wyniku wyszukiwania na podstawie dokumentu.
Wynik wyszukiwania obejmuje na przykład obraz powiązany z dokumentem, fragment dokumentu powiązany z wyszukiwanym hasłem oraz łącza do innych fragmentów dokumentu z wyszukiwanym hasłem.
Metoda może obejmować także podanie innych informacji związanych z dokumentem.
Zwracanie trafnych wyników wyszukiwania z większych dokumentów
Coraz więcej rodzajów dokumentów można przeszukiwać za pomocą wyszukiwarek.
Obejmuje to książki, czasopisma i katalogi zeskanowane z tekstem rozpoznanym przez OCR.
Korzystne jest przedstawienie informacji o tych i innych dokumentach przydatnych osobom poszukującym takich informacji. Widziałem takie wyniki wyszukiwania ze źródeł takich jak książki uwzględnione w wynikach wyszukiwania. Ten patent przypomina mi wiele takich, które widziałem.
„Systemy i metody zgodne z zasadami wynalazku mogą dostarczać informacji o dokumentach zidentyfikowanych jako istotne dla zapytań wyszukiwania w sposób przydatny dla osób poszukujących, które podały zapytania.”
Pod wieloma względami przypominają one inne bezpłatne wyniki wyszukiwania, ale zawierają informacje z większych dokumentów, takich jak książki. Ilustracje z tego patentu przedstawiają patent przedstawiający fragmenty treści z książek i innych większych dokumentów istotnych dla zapytań.
Przykładowe przetwarzanie
Patent ten przedstawia przetwarzanie rozpoczynające się od wyszukiwarki używającej wyszukiwanego terminu (lub grupy wyszukiwanych terminów) jako zapytania do przeszukiwania repozytorium dokumentów. Repozytorium dokumentów może zawierać dokumenty dostępne w Internecie i bazie danych. Narzędziem do przeszukiwania tego repozytorium jest wyszukiwarka. Osoba wyszukująca może wprowadzić zapytanie za pośrednictwem przeglądarki internetowej na kliencie.
Zapytanie z wyszukiwarki może identyfikować dokumenty (np. książki, czasopisma, gazety, artykuły, katalogi itp.) powiązane z zapytaniem.
Identyfikowanie dokumentów związanych z wyszukiwanym hasłem
Istnieje wiele technik identyfikacji dokumentów związanych z wyszukiwanym hasłem. Na przykład można uwzględnić dokumenty identyfikujące zawierające wyszukiwane hasło lub jego synonimy. Poza tym, gdy wyszukiwane hasło zawiera więcej niż jedno wyszukiwane hasło, technika może obejmować identyfikację dokumentów zawierających wyszukiwane hasła jako frazę, zawierających wyszukiwane hasła, ale niekoniecznie razem, lub zawierających mniej niż wszystkie wyszukiwane hasła.
Może zostać wygenerowany wynik wyszukiwania informacji
Opcjonalnie może nastąpić punktacja dokumentów. Wynik ten może być wynikiem wyszukiwania informacji (IR). Istnieje kilka technik generowania wyniku IR. Na przykład wynik IR dla dokumentu może zostać wygenerowany na podstawie liczby wystąpień wyszukiwanych terminów w tekście dokumentu, jeśli wyszukiwane hasła występują w dokumencie (np. tytuł, treść, stopka, nagłówek itp.), lub cechy wystąpień wyszukiwanych haseł (np. czcionka, rozmiar, kolor itp.).
Wyniki wyszukiwania mogą opierać się na dokumentach i ich opcjonalnych wynikach i być prezentowane osobie wyszukującej. Wyniki wyszukiwania mogą zawierać informacje powiązane z dokumentami. Może to oznaczać linki do dokumentów oparte na punktacji dokumentów. Wyniki wyszukiwania mogą być dokumentem HTML, podobnie jak wyniki wyszukiwania dostarczane przez konwencjonalne wyszukiwarki. Wyniki wyszukiwania mogą być wyświetlane w innym formacie uzgodnionym przez wyszukiwarkę i klienta (np. Extensible Markup Language (XML) lub PDF).
Interfejsy wyszukiwarki do prezentowania wyników wyszukiwania
Załóżmy, że osoba wyszukująca podaje zapytanie zawierające wyszukiwany termin „pamięć” i wyszukiwanie oparte na tym zapytaniu w celu zidentyfikowania zestawu dokumentów powiązanych z zapytaniem.
Wynik wyszukiwania może zawierać:
- Tytuł dokumentu
- Informacje o autorze
- Wyciąg z dokumentu
- Adres powiązany z dokumentem
- Linki do innych odpowiednich fragmentów dokumentu
- Obrazy powiązane z dokumentem
Tytuł dokumentu może zawierać tytuł powiązany z dokumentem. Ponadto wybór tytułu dokumentu może spowodować wyświetlenie szczegółowych informacji, ewentualnie w formie strony referencyjnej (opisanej poniżej) lub strony wyciągowej (opisanej poniżej), powiązanej z dokumentem. Na przykład informacje o autorze mogą obejmować nazwisko(a) autora(-ów) dokumentu.
Fragment może zawierać część dokumentu zawierającą wyszukiwane hasło
Wyciąg może zawierać część dokumentu zawierającą wyszukiwane hasło. Opcjonalnie wystąpienia wyszukiwanego hasła mogą zostać wizualnie wyróżnione (np. podświetlone) w części dokumentu. Wyciąg może także zawierać numer strony z nim powiązany. Wybór numeru strony może skutkować prezentacją strony z fragmentem powiązanej z fragmentem.
Adres może zawierać adres przechowywania dokumentu. Linki mogą umożliwiać pokazanie jednemu lub większej liczbie innych fragmentów dokumentu osobie poszukującej. Obraz może zawierać obraz przedniej okładki (lub innej części) dokumentu (jeśli jest dostępny). Obraz może zawierać miniaturę przedniej okładki dokumentu.
Wynik wyszukiwania może zawierać:
- Tytuł dokumentu i informacje o autorze
- Pierwszy fragment dokumentu
- Drugi fragment dokumentu
- Opcjonalnie łącze do innych odpowiednich fragmentów dokumentu
- Obraz powiązany z dokumentem
Strony referencyjne, które mogą być prezentowane
Załóżmy, że osoba wyszukująca wprowadziła zapytanie zawierające wyszukiwany termin „pamięć”. Wyszukiwanie zidentyfikowało zestaw dokumentów powiązanych z wyszukiwanym hasłem.
Strona referencyjna może zawierać:
- Wyciąg z dokumentu
- Streszczenie dokumentu
- Opis obwoluty lub klapki powiązany z dokumentem
- Powiązana informacja
- Informacje bibliograficzne
- Linki do różnych części dokumentu
Fragment może zawierać tekst dokumentu, który może zawierać wyszukiwane hasło. Część tekstu może odpowiadać obrazowi tekstu dokumentu lub wersji tekstowej. Wystąpienie wyszukiwanego hasła można wizualnie wyróżnić (np. podświetlić) w części tekstu. Wyszukujący może wyświetlić trzy fragmenty dokumentu, wybierając obiekt do wybrania, np. „Następny” lub „Poprzedni”. W ten sposób osoba wyszukująca może przeglądać więcej lub mniej fragmentów.
Streszczenie może zawierać krótki opis zawartości dokumentu
Streszczenie może zawierać krótki opis zawartości dokumentu. Na przykład opis okładki lub klapki może zawierać tekst z okładki, okładki lub klapki powiązanej z dokumentem.
Powiązane informacje mogą obejmować informacje o dokumentach internetowych powiązanych z dokumentem lub o autorze powiązanym z dokumentem.
Powiązane informacje mogą obejmować:
- Informacje dotyczące dokumentów internetowych wraz z recenzją dokumentu
- Dokument(y) internetowy(e) z biografią autora
- Inne dokumenty internetowe powiązane z dokumentem
- Dokumenty internetowe i obrazy powiązane z autorem
- Artykuły prasowe związane z dokumentem lub autor lub produkt(y) związany z dokumentem
Informacje bibliograficzne mogą obejmować informacje takie jak ISBN, ISSN. Zawierałoby także nazwę wydawcy, kod kategorii identyfikujący kategorię tematycznej treści dokumentu, datę publikacji, tytuł, nazwisko autora powiązanego z dokumentem i format (np. twarda oprawa, książka w miękkiej oprawie itp.) powiązana z dokumentem. Informacje bibliograficzne mogą również zawierać więcej, mniej lub różne informacje. Łącza mogą zawierać łącza do różnych części dokumentu. Linki te mogą odnosić się do przedniej okładki, spisu treści, indeksu i tylnej okładki dokumentu.
Co zawierałaby strona referencyjna?
Strona referencyjna może zawierać także obraz i reklamę (reklamę) powiązaną z dokumentem. Obraz może zawierać na przykład obraz przedniej okładki (lub innej części) dokumentu (jeśli jest dostępny).
Obraz ten może zawierać miniaturę przedniej okładki dokumentu. Reklama może zawierać zestaw reklam związanych z firmą sprzedającą dokument, inne dokumenty powiązane z autorem oraz dokumenty powiązane z tym dokumentem. Reklama może również zawierać reklamę powiązaną lub pochodzącą z wyszukiwanego hasła, innych (powiązanych) dokumentów lub zachowań wyszukiwarki.
Strona referencyjna może także zawierać streszczenie dokumentu, opis okładki lub klapki powiązanej z dokumentem, powiązane informacje, informacje bibliograficzne, zestaw łączy do różnych części dokumentu, obraz powiązany z dokumentem oraz powiązaną reklamę. z dokumentem. Strona referencyjna może zawierać także zestaw wyciągów z dokumentu. Fragmenty mogą zawierać fragmenty tekstu dokumentu, które mogą zawierać wyszukiwane hasło. Fragmenty tekstu mogą odpowiadać obrazom tekstu dokumentu lub jego wersjom tekstowym. Wystąpienia wyszukiwanego hasła można wizualnie rozróżnić (np. podświetlić) w fragmentach tekstu. W tej realizacji może nastąpić prezentacja trzech fragmentów dokumentu.
Strony, do których uzyskano wcześniej dostęp
Patent mówi nam, że korzystne może być zapewnienie osobom wyszukującym łatwy dostęp do stron dokumentu, zanim osoby wyszukujące uzyskają do nich dostęp. Korzystne może być także zapewnienie użytkownikom łatwego dostępu do stron z różnych dokumentów przed uzyskaniem do nich dostępu. Każdy z nich pomoże poszukiwaczom w znalezieniu interesujących informacji. Poza tym istnieją techniki śledzenia stron otwieranych przez wyszukiwarki.
Strona z fragmentami może również zawierać zestaw linków powiązanych ze stronami, do których odwiedzono wcześniej. Na przykład łącza mogą obejmować łącza do stron, do których odwoływano się wcześniej, oraz łącza do wszystkich stron, do których odwoływano się wcześniej. Wybranie jednego z linków może spowodować wyświetlenie strony z fragmentami, jak strony z fragmentami. Wybór linków może spowodować prezentację wcześniej odwiedzanych stron.
Strona wcześniej odwiedzanych stron powiązana z dokumentem
Dokumenty zwracające odpowiednie wyniki wyszukiwania mogą zawierać tytuł dokumentu i informacje o autorze, obraz powiązany z dokumentem, łącza do różnych części dokumentu, zestaw fragmentów powiązanych z wcześniej odwiedzanymi stronami dokumentu oraz reklamę dokumentu.
Tytuł dokumentu i informacje o autorze mogą obejmować tytuł powiązany z dokumentem oraz nazwisko(a) autora(-ów) dokumentu. Obraz może zawierać obraz przedniej okładki (lub innej części) dokumentu (jeśli jest dostępny).
Obraz może zawierać miniaturę przedniej okładki dokumentu. Łącza mogą zawierać łącza do różnych części dokumentu. Na przykład łącza mogą odwoływać się do przedniej okładki, spisu treści, fragmentu, indeksu i tylnej okładki powiązanej z dokumentem. Poza tym linki mogą odwoływać się do większej, mniejszej liczby lub różnych części dokumentu. Na przykład reklama może zawierać zestaw reklam związanych z firmą sprzedającą dokument, inne dokumenty powiązane z autorem lub dokumenty powiązane z tym dokumentem. Reklama może również zawierać reklamę powiązaną lub pochodzącą z wyszukiwanego hasła, innych (powiązanych) dokumentów lub zachowań wyszukiwarki.
Fragmenty mogą zawierać fragmenty tekstu z wcześniej odwiedzanych stron dokumentu. Mogą one odpowiadać obrazom tekstu dokumentu lub jego wersji tekstowych. Wystąpienia wyszukiwanego hasła można wizualnie rozróżnić (np. podświetlić) w obrębie fragmentów tekstu. Każdy z fragmentów może zawierać numer strony powiązanej z fragmentem. W jednej realizacji wybranie numeru strony może spowodować wyświetlenie strony z fragmentem powiązanej z fragmentem. Liczbę fragmentów można skonfigurować w oparciu o czas (np. wszystkie strony odwiedzone w ciągu ostatnich 10 godzin) lub liczbę (np. ostatnie 20 odwiedzonych stron). Nawet dłuższe dokumenty mogą zostać zwrócone, jeśli zostały wyszukane w odpowiednich wynikach wyszukiwania.
O Billu Sławskim
Bill Sławski, posiadający ponad 26-letnie doświadczenie w SEO i stopień doktora nauk prawnych, jest czołowym ekspertem w dziedzinie patentów Google związanych z SEO. Eksploracja patentów to jeden z najszybszych i najbardziej szczegółowych sposobów wyszukiwania nowych informacji na temat SEO. Bill jest redaktorem SEO by the Sea, czołowego bloga poświęconego optymalizacji wyszukiwarek, na którym jest autorem ponad 1300 postów. Doświadczenie Billa obejmuje marki z listy Fortune 500 i niektóre z największych stron internetowych na świecie. Bill jest współautorem Moz, Search Engine Land i Search Engine Journal. W latach 2014-2021 prelegent na wiodących w branży konferencjach międzynarodowych poruszających tematy obejmujące m.in. algorytmy wyszukiwarek, wyszukiwanie uniwersalne i mieszane, personalizację w wyszukiwarkach, wyszukiwarkach i społecznościach, problemy z duplikacją treści, dane strukturalne i schematy