Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji

Jak działa ChatGPT? Popularny AI Chatbot 2023!

Uwaga: Poniższy artykuł pomoże Ci w: Jak działa ChatGPT? Popularny AI Chatbot 2023!

Dzisiaj wielu z was może korzystać z najnowszych narzędzi AI i natknąć się na ChatGPT. Większość ludzi też używając ChatGPT do zarabiania pieniędzy. Ale jak działa ChatGPT? Jaka technika jest używana w działaniu ChatGPT? W jaki sposób informacje zwrotne od ludzi pomagają ChatGPt generować trafniejsze wyniki?

OpenAI niedawno uruchomiła nowy duży model językowy, ChatGPT, który jest zaawansowanym członkiem GPT-3 rodzina. OpenAI ChatGPT używa tych samych metod, których używa InstructGPT. Ale co sprawia, że ​​ChatGPT jest wyjątkowy? To uczenie się przez wzmacnianie odróżnia go od starszych GPT-3.

ChatGPT działa w oparciu o uczenie się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF), aby zredukować szkodliwe, fałszywe i stronnicze wyniki poprzez informacje zwrotne od ludzi w pętli szkoleniowej. Twórcy ChatGPT połączyli dwie techniki uczenia się: Supervised Learning i Reinforcement Learning, w celu dopracowania ChatGPT.

Czy jesteś zainteresowany poznaniem działania ChatGPT? Jeśli tak, to jesteś we właściwym miejscu. Ten artykuł zapewni dogłębne zrozumienie, jak działa ChatGPT, jakie są podstawy rozwoju dużych modeli językowych, jakie są wady GPT-3i jak ChatGPT je pokonuje. Czytaj dalej!

Jak działa ChatGPT?

ChatGPT opiera się na metodach używanych w InstructGPT. Możesz zobaczyć różnicę tylko w konfiguracji zbierania danych.

OpenAI wydało swoje nowe narzędzie AI, ChatGPT, 30 listopada 2023 r. ChatGPT jest znany z budowania konwersacji AI. Możesz nawet zintegrować ChatGPT ze Slackiem, Facebook, WhatsApp, WeChat, chatbot, Twoje strony internetowei inne platformy. Jeśli jesteś profesjonalistą bankowym, możesz łatwo korzystaj z ChatGPT w bankowości.

Większość z was mogła używać ChatGPT i zastanawiać się, jak działa to niesamowite narzędzie i daje dokładne wyniki w ciągu kilku sekund.

Aby wiedzieć, jak działa ChatGPT, musisz znać podstawową koncepcję i duży model językowy oraz wady GPT-3 przed przejściem do działania RLHF używanego przez ChatGPT.

Aby zrozumieć pełne działanie ChatGPT, zostaną omówione następujące koncepcje:

  • Model dużego języka – możliwości a wyrównanie
  • Niedopasowania spowodowane strategiami szkolenia modeli językowych
  • ChatGPT pracuje nad uczeniem się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF)
  • ChatGPT – Ocena wydajności

Omówmy teraz szczegółowo wszystkie te koncepcje i poznajmy podstawowy mechanizm działania ChatGPT, w tym sposób, w jaki informacje zwrotne od ludzi pomagają zwiększyć wydajność ChatGPT. Czytaj dalej!

Model dużego języka – możliwości a wyrównanie

Mówiąc o dużych modelach językowych, należy wziąć pod uwagę możliwości i wyrównanie modelu, ponieważ są to najważniejsze czynniki dla takich modeli.

Czym są te terminy w kontekście uczenia maszynowego? Oto szczegółowe informacje na temat możliwości i ustawienia modelu:

Możliwości dużego modelu językowego

Zdolność modeli odnosi się do ich zdolności do wykonania określonego zadania lub zestawu powiązanych zadań.

Rozważmy przykład modelu używanego do przewidywania ceny akcji dowolnej firmy. Jeśli model dokładnie przewiduje cenę akcji, to model ma dużą zdolność do tego zadania.

Wyrównanie dużego modelu językowego

Wyrównanie modelu językowego jest oparte na rzeczywistym zadaniu, które ma wykonać model, oraz zadaniu, dla którego jest szkolony.

Na przykład, jeśli model jest szkolony w zakresie klasyfikowania materiału jako „szkło” lub „drewno”, utrata kłód jest używana jako cel szkolenia, mimo że celem jest wysoka dokładność.

Utrata dziennika oblicza różnicę między rzeczywistymi i przewidywanymi rozkładami możliwości. Niska strata logarytmiczna oznacza, że ​​model ma duże możliwości, ale słabą dokładność. Podczas klasyfikowania zadań utrata dziennika nie jest bezpośrednio związana z dokładnością.

W rezultacie dochodzi do rozbieżności, ponieważ model może zoptymalizować cel szkolenia, ale nie jest idealnie dopasowany do celu ostatecznego. GPT-3 model jest źle wyrównany, a ten problem został rozwiązany w ChatGPT.

Jeśli chcesz dowiedzieć się więcej o tym, w jaki sposób strategie uczenia modeli językowych powodują rozbieżności, musisz przeczytać następną sekcję.

Niedopasowania spowodowane strategiami szkolenia modeli językowych

Zanim nauczysz się, jak ChatGPT działa na RLHF, musisz znać ograniczenia GPT-3 i niewspółosiowości, które występują w GPT-3.

Mimo że GPT-3 jest przeszkolony w zakresie obszernych danych tekstowych dostępnych w Internecie, aby prowadzić konwersacje AI przypominające ludzkie, nie zawsze daje wynik zgodny z ludzkimi oczekiwaniami. Prowadzi to do niewspółosiowości modelu językowego.

Niedopasowanie modelu może stanowić problem w przypadku aplikacji wymagających wysokiego poziomu zaufania lub niezawodności, takich jak systemy konwersacyjne lub inteligentni asystenci osobiści.

W dużych modelach językowych problem z wyrównaniem zwykle występuje w następujących formach:

  • Model nie przestrzega dokładnie instrukcji użytkownika.
  • Model ma halucynacje na podstawie niewłaściwych danych i podaje błędne fakty.
  • Ludziom trudno jest zrozumieć, w jaki sposób model doszedł do konkretnego wniosku lub prognozy.
  • Nawet jeśli nie zostało to wyraźnie poinstruowane, język, który został wyszkolony na toksycznych danych, może generować to na wyjściu.
Rekommenderad:  Jak dodawać, edytować i usuwać przejścia iMovie na komputerach Mac i iOS

Modele językowe są szkolone na podstawie dwóch podstawowych technik: przewidywania następnego tokenu i modelowania języka maskowanego.

Następna prognoza tokena

W technice przewidywania następnego tokena, jak sama nazwa wskazuje, model przewiduje następne słowo, które pojawi się w danej serii słów jako dane wejściowe.

Przykład: Wejście jest podane jako „Tabela składa się z”

W tym przypadku model może przewidzieć słowo „drewno”, „szkło” lub „plastik”, ponieważ są to prawdopodobne słowa, które pojawią się obok danej sekwencji tekstu. Te słowa mają duże prawdopodobieństwo, ale mogą nie być dokładne zgodnie z ludzkimi wymaganiami.

Model języka z przewidywaniem następnego tokena może obliczyć prawdopodobieństwo, że każde słowo ze swojego słownika znajdzie się obok podanej sekwencji.

Modelowanie języka maskowanego

Technika modelowania języka maskowanego jest odmianą przewidywania następnego tokena. W tej technice specjalny żeton, [MASK]jest używany zamiast niektórych słów w sekwencji wejściowej, a model musi przewidzieć odpowiednie słowo, które zastąpi [MASK].

Przykład: Wejście jest podane jako „The [MASK] siedzi na”

Tutaj model językowy może przewidzieć słowo „pies”, „papuga” lub „kot” zamiast maski.

Dzięki tej technice model języka może nauczyć się statystycznej struktury języka, która obejmuje częste sekwencje słów i wzorce użycia. Ponieważ pomaga modelowi w generowaniu bardziej realistycznego i płynnego tekstu, jest to najważniejszy krok w procesie wstępnego szkolenia modeli językowych.

Myślisz, że ten problem został rozwiązany w ChatGPT, czy nie? Kontynuuj prace mające na celu usunięcie tego problemu z niewspółosiowością.

Badacze i programiści opracowali różne strategie rozwiązania problemu wyrównania w dużych modelach językowych.

Działanie ChatGPT opiera się na zaawansowanym GPT-3 wzór rodziny. Aby zminimalizować problemy z niewspółosiowością modelu, ChatGPT pracuje nad procesem uczenia się, który jest osiągany za pomocą informacji zwrotnych od ludzi do trenowania GPT-3.5 wersja. Ta technika jest określana jako uczenie się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF).

Wiadomość o tym, że ta technika została po raz pierwszy zastosowana w produkcji modelu ChatGPT, z pewnością cię zaskoczy.

Pierwsze pytanie, które nasuwa się na myśl po przeczytaniu tego, dotyczy tego, w jaki sposób ChatGPT działa na uczeniu się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi. Zanurzmy się, aby uzyskać pełne informacje na temat działania ChatGPT!

Jak ChatGPT działa na modelu uczenia się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF)?

ChatGPT działa na modelu RLHF, a kroki są następujące: Nadzorowany model dostrajania (SFT) > Model nagrody (RM) > Proximal Policy Optimization Model (PPO).

ChatGPT OpenAI wykorzystuje model Reinforcement Learning from Human Feedback (RLHF), co czyni go wyjątkowym w stosunku do wcześniej dostępnych GPT. Aby dowiedzieć się, jak działa ChatGPT, musisz wiedzieć, że model ChatGPT składa się z trzech kroków:

  1. Model nadzorowanego dostrajania (SFT).
  2. Model nagrody (RM) używany do naśladowania ludzkich preferencji
  3. PPO – Proximal Policy Optimization Model

Spośród wszystkich powyższych kroków, pierwszy krok SFT występuje tylko raz, ale pozostałe dwa są powtarzane. Dane po porównaniu są zbierane z modelu PPO, który jest przekazywany z powrotem do RM w celu wytrenowania go, a następnie przekazywany do nowego modelu PPO.

Aby szczegółowo zrozumieć wszystkie te kroki, czytaj dalej poniższe sekcje. Pomoże Ci dowiedzieć się, jak działa ChatGPT.

1. Nadzorowany model dostrajania — model SFT w ChatGPT

Model SFT w ChatGPT działa w obszarze Zbieranie danych > Wybór modelu do wstępnego szkolenia.

Model SFT w ChatGPT jest modelem bazowym. Aby zrozumieć działanie tego nadzorowanego modelu dostrajania, który wykorzystuje wybraną listę monitów do generowania danych wyjściowych, osoby etykietujące skupiają się na dostrajaniu wstępnie wytrenowanego modelu językowego w oparciu o stosunkowo niewielką ilość danych demonstracyjnych.

Oto schemat blokowy dla modelu SFT i szczegółowe wyjaśnienie wszystkich tych etapów działania modelu SFT w ChatGPT:

Krok 01: Zbieranie danych demonstracyjnych

Pierwszym krokiem modelu SFT jest zebranie danych demonstracyjnych do szkolenia nadzorowanego modelu polityki. Do zbierania danych ChatGPT korzysta z dwóch źródeł: danych próbkowanych z żądań API OpenAI (odpowiedź z GPT-3 użytkowników) oraz programistów lub wydawców etykiet. Ci ludzie, którzy etykietują, dają oczekiwane odpowiedzi wyjściowe dla wybranej listy monitów.

Ponieważ cały proces jest czasochłonny i kosztowny, uzyskany wynik to mały, wyselekcjonowany zbiór danych o wysokiej jakości (prawdopodobnie 12-15 tys. punktów danych). Ten wynik będzie dalej używany do dostrajania wstępnie wytrenowanego modelu językowego.

Krok 02: Wybór modelu uczenia nadzorowanego

Twórcy ChatGPT postanowili dopracować wstępnie wytrenowany model w GPT-3.5 serii zamiast wybierać poprzednio używany GPT-3. Model kodu GPT został użyty zamiast modelu czysto tekstowego do dostrojenia modelu bazowego w celu stworzenia bota ChatGPT.

Rekommenderad:  Jak odłączyć konto Bethesda

Dane wyjściowe uzyskane z tego modelu SFT nadal nie są zbyt uważne dla użytkownika i prowadzą do niedopasowania, ponieważ używany tutaj zestaw danych zawiera ograniczone dane.

Jedynym ograniczeniem tego nadzorowanego uczenia się jest to, że skalowanie modelu SFT jest kosztowne. Ograniczenie to można przezwyciężyć, umożliwiając podmiotom etykietującym uszeregowanie wyników generowanych przez model SFT zamiast tworzenia większego zbioru danych. Takie podejście prowadzi do rozwoju Modelu Nagród.

Zobaczmy teraz, czym jest model nagrody (RM) i jak działa.

2. Model nagrody – RM w ChatGPT

Etykieciarki oceniają wyniki modelu SFT, aby naśladować ludzkie preferencje w oparciu o istotność wyników dla ludzi. Nowy zestaw danych jest tworzony przy użyciu tych danych porównawczych, a nowy model, RM, jest szkolony na tym zestawie danych.

Jak działa model nagród w ChatGPT?

Przepływ Modelu Wynagrodzenia działającego w ChatGPT to Wiele danych wyjściowych z modelu SFT > Ranking wyników > Dane używane do trenowania RM.

Działanie modelu nagród ChatGPT zaczyna się od wyników SFT. Model SFT wyjaśniony w poprzedniej sekcji generuje wiele danych wyjściowych dla pojedynczego monitu z listy.

Teraz spójrz, co dokładnie dzieje się w RM. Szczegóły przepływu pracy modelu nagrody pokazanego na powyższym obrazku to:

Krok 01: Po pierwsze, wiele wyjść z modelu SFT jest doprowadzanych do wejścia RM.

Krok 02: Teraz osoby etykietujące przypisują te wyniki SFT w rankingach (od najlepszego do najgorszego).

Krok 03: Wynikiem tego rankingu jest utworzenie nowego zestawu danych z etykietami, w którym rangi są określane jako etykiety. Oznaczony zestaw danych jest prawie 10 razy większy niż wyselekcjonowany zestaw danych używany w modelu SFT.

Krok 04: Wreszcie, nowe dane uzyskane po uszeregowaniu są wykorzystywane do trenowania Modelu Wynagradzania w ChatGPT.

Zaobserwowano, że łatwo jest uszeregować wyniki zamiast generować je od początku, a technika ta zwiększa efektywność modelu.

Czy to nie niesamowite, że ten zestaw danych jest tworzony przy użyciu podpowiedzi 30-40 000? Wiadomo, że zbiór danych wygenerowany po fazie rankingu będzie dziesięciokrotnie większy. Wyobraź sobie, jak duży będzie nowy zestaw danych, który jest dalej wykorzystywany do szkolenia RM w ChatGPT.

Być może zastanawiasz się nad następnym krokiem po Modelu Nagród i tym, jak jest on dalej wykorzystywany do uzyskania zoptymalizowanych wyników końcowych. Kontynuuj czytanie następnej sekcji, aby dowiedzieć się więcej o modelu optymalizacji i dostrajaniu modelu SFT za pomocą PPO.

3. Proksymalny model optymalizacji polityki – wykorzystanie PPO do dostrojenia modelu SFT

Działanie modelu PPO w ChatGPT opiera się na funkcji wartości, a SFT i Reward Model inicjalizują model polityki. Całe środowisko opiera się na prawdopodobieństwie i uczeniu maszynowym, co daje oczekiwaną odpowiedź na losowy monit.

Jaki jest model polityki w ChatGPT? Model Polityki to wynik generowany, gdy Model Wynagradzania jest używany do ulepszania i dostrajania modelu SFT.

Być może słyszałeś o uczeniu się ze wzmocnieniem. Jest to etap uczenia się, w którym oprogramowanie wchodzi w interakcję z otoczeniem i otrzymuje nagrody lub kary za różne zadania. Na tej podstawie oprogramowanie uczy się generować dokładniejsze wyniki i poprawia swoją wydajność.

Proximal Policy Optimization to algorytm używany do szkolenia ChatGPT poprzez uczenie się przez wzmacnianie.

Oto kilka faktów na temat metody optymalizacji, PPO:

  • PPO dostosowuje bieżącą politykę i jest również nazywany algorytmem „on-policy”, ponieważ wykorzystuje działania użytkownika i informacje zwrotne od ludzi do trenowania modelu.
  • Metodą optymalizacji stosowaną w PPO jest metoda regionów zaufania. Aby zapewnić stabilność, zmiany w polityce muszą być dokonywane w pewnej odległości od starej polityki.
  • PPO wykorzystuje „funkcję wartości” do obliczenia przewidywanego wyniku polecenia lub działania.

Ale jak działa ta funkcja wartości w PPO ChatGPT? Możesz zobaczyć, jak działa model PPO w ChatGPT z powyższego obrazu pokazującego schemat blokowy polityki optymalizacji.

Następujące kroki są omówione w działaniu funkcji wartości używanej przez model PPO:

Krok 01: Funkcja wartości oblicza funkcję przewagi, która odzwierciedla różnicę między wynikiem oczekiwanym a bieżącym.

Krok 02: Teraz funkcja przewagi aktualizuje politykę, porównując działania poprzednich i bieżących zasad.

Krok 03: Na koniec polityka jest aktualizowana o dokładniejsze wyniki, biorąc pod uwagę szacunkowe wartości działań.

To wszystko, co musisz wiedzieć o Proximal Policy Optimization używanej do dostrajania modelu SFT (Supervised Fine Tuning). Proces to PPO, Proximal Policy Optimization, a ostateczny, dopracowany model jest znany jako model PPO.

ChatGPT – ocena wydajności

Ostatnią czynnością do wykonania jest ocena wydajności ChatGPT. Ponieważ szkolenie modelu opiera się na ocenie nadanej przez osoby etykietujące jakość wytwarzanych wyników, najważniejsza część oceny wydajności opiera się na wkładzie ludzkim.

Rekommenderad:  Jak zintegrować ChatGPT z Tinderem? Kompletny przewodnik!

Zestaw testowy wykorzystuje monity od użytkowników OpenAI, którzy utknęli w martwym punkcie, ale nie są zdefiniowani w danych treningowych, aby uniknąć nadmiernego dopasowania do oceny osoby, która brała udział w fazie szkolenia.

Kryteria, na podstawie których oceniany jest model ChatGPT to:

  • Przydatność: Zdolność modelu jest oceniana na podstawie tego, jak postępuje zgodnie z instrukcjami podanymi przez użytkownika i je rozwiązuje.
  • Prawdomówność: Prawdziwość modelu jest sprawdzana na zbiorze danych TruthfulQA. Skłonność modelu do tworzenia faktów jest oceniana podczas wykonywania zadań w domenie zamkniętej.
  • nieszkodliwość: Etykieciarki oceniają wydajność danych wyjściowych modelu, aby określić, czy są one odpowiednie, zmniejszają klasę chronioną lub zawierają obraźliwe treści.
  • Wydajność strzału zerowego: Standardowe zadania AI, takie jak odpowiedzi na pytania, podsumowania i czytanie ze zrozumieniem, są oceniane pod kątem wydajności zerowej.

Podczas uczenia modelu PPO przy użyciu spadku gradientu aktualizacje gradientu są obliczane przez połączenie gradientów modeli SFT i PPO. Ta metoda jest znana jako miks przedtreningowy i skutecznie zmniejsza nawroty wydajności w tych zestawach danych.

To wszystko o tym, jak działa ChatGPT w modelu uczenia się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF). Omówiono wszystkie kroki, w tym ocenę wydajności.

Nasze inne przewodniki na temat ChatGPT, które musisz przeczytać

  1. Jak inwestować w ChatGPT? Zainwestuj w sztuczną inteligencję!
  2. Jak pobrać ChatGPT na Androida? Krótki przewodnik po Chatgpt Pobierz!
  3. ChatGPT Messenger Bot | Jak to zintegrować?
  4. Jak zintegrować ChatGPT z Midjourney? Kroki wyjaśnione!
  5. Jaki jest koszt prowadzenia OpenAI ChatGPT? Fakty na temat kosztów GPT na czacie w 2023 r.!
  6. Jak naprawić ChatGPT Err_Too_Many_Redirects | Szczyt 4 Poprawki 2023!
  7. Jak naprawić błąd ChatGPT dotyczący tylko jednej wiadomości na raz w 2023 r.? 4 Proste poprawki komunikatu o błędzie czatu GPT!
  8. Jak pobrać aplikację ChatGPT Desktop na komputer Mac, WindowsA Linux?
  9. Jak oszukać ChatGPT? Wszystkie sztuczki na rok 2023!
  10. W jaki sposób napastnicy używają ChatGPT do pisania złośliwego kodu?
  11. Jak naprawić błędy ChatGPT 1 Błąd limitu godzin w 2023 r.? Poprawki do wypróbowania !!
  12. ChatGPT jest teraz w pełni sprawny i jak to naprawić w 2023 roku?
  13. Bot handlowy ChatGPT | Kroki związane z tworzeniem bota handlowego!
  14. Wykorzystanie ChatGPT w edukacji | 13 skutecznych zastosowań!
  15. 7 Możliwe zastosowanie ChatGPT w opiece zdrowotnej | Kompletny przewodnik!
  16. Jak naprawić błąd ChatGPT 404?

Podsumowanie

Badacze nieustannie pracują nad ulepszeniem działania modeli AI, usuwając problemy ze starszymi wersjami GPT. ChatGPT działa na zaawansowanym członku GPT-3 opinie rodziny i ludzi. Być może zastanawiasz się, jak działa ChatGPT i czy ma problem z wyrównaniem GPT-3 z niego usunięty.

W tym artykule omówiono wszystkie wgląd w prace ChatGPT, począwszy od podstawowych pojęć związanych z dużymi modelami językowymi i problemem niedopasowania do modeli przedszkolnych ChatGPT. Cóż, na tym się nie skończy, OpenAI wkrótce wyda GPT-4. Podążać Deasilex aby uzyskać więcej informacji na temat technologii sztucznej inteligencji.

Często Zadawane Pytania

P. Jak działa ChatGPT?

ChatGPT działa na górnym GPT-3 członek rodziny, czyli GPT-3.5i jest przeszkolony do pracy nad procesem uczenia się z wykorzystaniem informacji zwrotnych od ludzi. Dzięki ChatGPT możesz rozmawiać z modelami językowymi zadając pytania.

P. Jak korzystać z ChatGPT?

Aby skorzystać z ChatGPT, przejdź do witryny OpenAI ChatGPT > Zaloguj się lub Zarejestruj za pomocą swojego konta Microsoft lub Google albo adresu e-mail > Nowy czat > Wpisz, o co chcesz zapytać chatbota ChatGPT > Zobacz odpowiedź na swoje pytanie > Zapisz konwersację AI .

P. Co to jest ChatGPT?

ChatGPT to chatbot, który został uruchomiony przez OpenAI w listopadzie 2023 roku. GPT to skrót od Generative Pretrained Transformer. Działa na przetwarzaniu języka naturalnego (NLP) i odpowiada za tworzenie realistycznych rozmów AI.