Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji

Mógłby ERNIE Baidu 3.0 Konkurencyjny BERT Google’a?

Uwaga: Poniższy artykuł pomoże Ci w: Mógłby ERNIE Baidu 3.0 Konkurencyjny BERT Google’a?

Jeśli Ty lub Twoje dzieci kiedykolwiek oglądaliście Ulica Sezamkowa, to imiona Bert i Ernie prawdopodobnie kojarzą się z przyjaźnią i głupimi piosenkami, a nie zaciekłą rywalizacją. Jednak w przypadku BERT Google’a i ERNIE Baidu rywalizacja jest nieunikniona.

Wraz z zaprezentowaniem w lipcu 2021 r. najnowszej wersji wstępnie wytrenowanego modelu językowego Baidu ERNIE 3.0konkurencja jest teraz bardziej zacięta niż kiedykolwiek.

Co to jest ERNIE Baidu 3.0?

W lipcu 5 2021, zespół ponad 20 badaczy z chińskiej wyszukiwarki Baidu opublikował artykuł zwany ERNIE 3.0: Szkolenie wstępne wzbogacone wiedzą na dużą skalę w zakresie rozumienia i generowania języka.

Chociaż tytuł artykułu nie jest zbyt chwytliwy, wnioski, jakie zawiera, z pewnością zapadają w pamięć. Jak wyjaśniają naukowcy, wstępnie wytrenowany model językowy Baidu, ERNIE 3.0oficjalnie przekroczył możliwości człowieka w najtrudniejszym obecnie dostępnym teście porównawczym przetwarzania języka naturalnego (NLP).

Ten test porównawczy nazywa się SuperGLUE i ocenia modele NLP, podając im serię trudne zadania związane ze zrozumieniem języka. Mają one na celu sprawdzenie umiejętności takich jak czytanie ze zrozumieniem, rozpoznawanie treści tekstowych i rozpoznawanie słów w kontekście:

Kiedy ludzie wykonują zadania SuperGLUE, zazwyczaj otrzymują wynik 89.8 procent. Ale kiedy ERNIE 3.0Ukończyła je angielska wersja, uzyskała 90 punktów.6 procent.

Jego chińska wersja również przewyższała najnowocześniejsze modele w 54 chińskich zadaniach NLP.

Ta wielojęzyczna biegłość jest jedną z cech ERNIE 3.0najbardziej imponujące cechy. Badacze z Baidu dołożyli wszelkich starań, aby zapewnić taką biegłość, kompilując wielkoskalowe korpusy tekstów w języku chińskim o łącznej wielkości 4 TB, co czyni je największymi tego typu.

A jak się ma ERNIE 3.0 pracować, dokładnie? Chociaż jego struktura jest niezaprzeczalnie złożona, dla ogólnego przeglądu można ją sprowadzić do trzech podstawowych elementów:

  • Nauka kilku strzałów, tj. zasilenie modelu niewielką ilością danych uczących;
  • Nauka od zera, tj. sprawienie, że model będzie klasyfikował dane na podstawie niewielkiej liczby przykładów lub nie będzie ich wcale; I
  • Strojenie, tj. ulepszanie już wytrenowanego modelu, aby jeszcze bardziej poprawić jego wydajność.

Wszystkie trzy elementy ułatwiają zarówno dane tekstowe na dużą skalę, jak i wykres wiedzy, jak pokazano na diagramie badaczy ERNIE 3.0ramy:

Rezultatem tego procesu jest model przedszkoleniowy, który potrafi poprawnie rozumieć zarówno angielski, jak i chiński na poziomie wyższym niż ludzie, a także potrafi tłumaczyć z angielskiego na chiński z dużą dokładnością.

Co to jest BERT Google?

Historia BERT-a zaczyna się bardzo podobnie jak historia ERNIEGO 3.0. 24 maja 2019 r. zespół czterech badaczy Google opublikował artykuł pod tytulem BERT: Wstępne szkolenie głębokich transformatorów dwukierunkowych w zakresie rozumienia języka.

Jak ujawnili naukowcy, model BERT uzyskał nowe, najnowocześniejsze wyniki w przypadku jedenastu zadań NLP, w tym wynik GLUE wynoszący 80.5 procent (wówczas ok Test porównawczy KLEJU nie został jeszcze przyćmiony przez trudniejszy SuperGLUE).

Podobnie jak SuperGLUE, GLUE ocenia modele NLP za pomocą kilku zadań mających na celu sprawdzenie zrozumienia języka:

W przeciwieństwie do ERNIEGO 3.0z trzech podstawowych elementów szkolenia, BERT ma dwa:

  • Trening wstępny, w którym model jest szkolony na nieoznakowanych danych; I
  • Strojenie, w którym model jest dalej szkolony przy użyciu oznakowanych danych.

Fazę przedszkoleniową przeprowadza się poprzez podanie BERT nieoznaczonych par zdań A i B, natomiast fazę dostrajania przeprowadza się poprzez podanie par pytań i odpowiedzi. Najlepiej ilustruje to diagram sporządzony przez badaczy Google:

Do zbierania danych sprzed szkolenia Google wykorzystał BookCorpus (zbiór niepublikowanych powieści anglojęzycznych zawierający wówczas 800 milionów słów) i angielską Wikipedię (która składała się z 2.5 miliardów słów w tym czasie).

W związku z tym BERT był początkowo stosowany tylko do wyszukiwań w języku angielskim. W grudniu 2019 r. Google ogłosił, że BERT jest wprowadzany na rynek w ponad 70 językach na całym świecie, choć nie jest jasne, czy model został wytrenowany na zbiorach danych w innych językach, czy też został po prostu zastosowany do innych języków przy użyciu istniejącej technologii tłumaczenia.

Czy ERNIE wyprzedzi BERT?

Wraz z odkryciem ERNIEgo 3.0niesamowitych możliwości NLP, porównania do BERT są nieuniknione. Aby jednak zrozumieć, czy ERNIE będzie BERT, musisz najpierw zrozumieć, jak Baidu i Google porównują się pod względem krajobrazu wyszukiwarek.

Co najważniejsze, Baidu jest dominującą wyszukiwarką w Chinach, podczas gdy Google ma ten sam status w pozostałych częściach świata. w globalny rynek wyszukiwarekGoogle może poszczycić się udziałem w rynku wynoszącym ponad 90 procent. Ale w Chiński rynek wyszukiwarekBaidu ma udział w rynku wynoszący około 80 procent:

A ponieważ populacja Chin pojawia się prawie o godz 1.5 osób według stanu na lipiec 2021 r. (to ponad 18 proc. światowej populacji), potęgi Baidu nie można lekceważyć.

Zatem w pewnym sensie logiczne jest, że Baidu stworzył model szkolenia przedszkoleniowego NLP, który może konkurować z modelem Google — firma ma po swojej stronie ogromną ilość zasobów oraz zespół światowej klasy badaczy i inżynierów.

A biorąc pod uwagę, że Baidu jest używany głównie w kraju, w którym mniej niż jeden procent populacji mówi po angielsku, co jest naprawdę niezwykłego w ERNIE 3.0 jest jego zdolność do dokładnego tłumaczenia języka chińskiego na angielski i odwrotnie.

Podsumowując sytuację, Google nie musi martwić się o ERNIEgo 3.0 wyprzedzając algorytm BERT, przynajmniej na razie. Dopóki Google i Baidu pozostaną na odrębnych rynkach, nie będzie żadnej bezpośredniej konkurencji – będzie to jedynie rodzaj rywalizacji na odległość, który już znamy.

Jeśli jednak Google kiedykolwiek wejdzie na rynek Baidu lub odwrotnie, obie firmy będą musiały przygotować się na bitwę modeli NLP.

Jak zoptymalizować pod kątem Baidu

Jeśli Twoja witryna jest skierowana do odbiorców z Chin, optymalizacja pod kątem Baidu jest absolutnie konieczna. W świetle ERNIEgo 3.0szczególnie ważne jest, aby cała zawartość Twojej witryny brzmiała jak najbardziej naturalnie.

W pozostałych działaniach SEO Baidu pomocne mogą być nasze wskazówki dotyczące optymalizacji Baidu — oto niektóre z najważniejszych:

  • Zamów tłumaczenie wysokiej jakości aby mieć pewność, że Twoje wiadomości dotrą głośno i wyraźnie.
  • Zoptymalizuj metaopis każdej strony ponieważ Baidu użyje go jako sygnału rankingowego.
  • Unikaj JavaScriptu aby zmaksymalizować indeksowalność Twojej witryny.
  • Zoptymalizuj tekst alternatywny każdego obrazu ponieważ będzie on używany do ustalania rankingów.
  • Unikaj tematów kontrowersyjnych może to spowodować ukrycie Twojej witryny zgodnie z chińskimi ograniczeniami dotyczącymi treści online.
  • Umieść najważniejsze treści na pierwszym miejscu aby mieć pewność, że roboty Baidu to zobaczą.
  • Hostuj swoją witrynę na serwerach lokalnych aby poprawić czas ładowania Twojej witryny.
  • Udoskonal swój profil linków zwrotnych z linkami do renomowanych chińskich stron internetowych.

BERT i ERNIE to łeb w łeb

Baidu może wciąż jest mniejszy od Google na poziomie globalnym, ale od ponad 20 lat doskonali swoje zaawansowane technologicznie narzędzia i imponujące możliwości ERNIEgo 3.0 są tego dowodem. A jako wyszukiwarka numer jeden najludniejszego kraju świata, z pewnością ma duże doświadczenie w działaniu na dużą skalę.

Oznacza to, że chociaż Baidu może nie być jeszcze gotowe do wejścia na rynek zachodni, fakt, że stworzył model uczenia maszynowego NLP tak zaawansowany jak BERT, mówi wiele. Aby dowiedzieć się, co to oznacza dla Google, będziemy musieli po prostu być na bieżąco.

Kredyty obrazowe

Zrzuty ekranu autorstwa autora / lipiec 2021
StatCounter / czerwiec 2021

Table of Contents