Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji!

Co to jest uczenie się przez wzmacnianie i jak działa?

Uczenie maszynowe to jedna z głównych gałęzi sztucznej inteligencji, która sama w sobie ma różne podkategorie, z których wszystkie są sklasyfikowane w formie trzech głównych paradygmatów uczenia się pod nadzorem, uczenia się bez nadzoru i uczenia się przez wzmacnianie.

Uczenie maszynowe bez nadzoru i nadzorowane są bardzo podobne, podczas gdy uczenie przez wzmacnianie działa inaczej niż w dwóch wspomnianych przykładach.

Co to jest uczenie się przez wzmacnianie?

Nauczanie maszynowe odnosi się do nauki o projektowaniu maszyn, które mogą automatycznie wykonywać przydzielone zadania na podstawie dostarczonych im danych lub próbek danych w oparciu o wcześniejsze doświadczenia, bez uczenia się wszystkich czynności poprzez jawne programowanie. Nauczanie maszynowe Algorytmy dzielą się na trzy podstawowe grupy: nadzorca, nienadzorowany i wzmocnienie.

Uczenie się przez wzmacnianie jest nauką o podejmowaniu decyzji i odnosi się do określonego rodzaju optymalnego procesu uczenia się w środowisku w celu uzyskania maksymalnych nagród. To optymalne zachowanie opiera się na interakcji z otoczeniem i obserwacji domeny, podobnie jak dzieci eksplorują otaczający je świat i uczą się robić rzeczy, które pomogą im osiągnąć swoje cele.

Bez przełożonego uczeń (model) musi samodzielnie szukać działań, które pozwolą mu otrzymać maksymalną nagrodę. Ten proces odkrywania opiera się na metodzie prób i błędów.

Rodzaj nagrody zależy od jakości wykonanych czynności i może zostać wypłacona natychmiast lub z opóźnieniem, co wskazuje, że model powinien włożyć więcej wysiłku w poprawę jakości swojej pracy.

Uczenie się przez wzmacnianie jest przekonującym paradygmatem w sztucznej inteligencji, ponieważ modele oparte na uczenie się przez wzmacnianie może robić rzeczy, które na ogół nie są widoczne bez przełożonego lub przełożonego. W swojej książce „Psychologia: wiedza o umyśle i zachowaniu” Richard Gross definiuje uczenie się jako zdobywanie lub modyfikowanie wiedzy, zachowania, umiejętności, wartości lub wyników.

Opierając się na powyższej definicji, powinniśmy powiedzieć uczenie się przez wzmacnianie. Jest to istotna gałąź nauczanie maszynowe w którym agent uczy się, jak zachować się w otoczeniu, wykonując działania i obserwując ich rezultaty. W uczenie się przez wzmacnianieagent uczy się metodą prób i błędów i stara się uzyskać jak największą nagrodę, wykonując działania środowiskowe. Ogólnie rzecz biorąc, uczenie się przez wzmacnianie służy do rozwiązywania problemów opartych na nagrodach.

Algorytmy stosowane w nauczanie maszynowe dzieli się na trzy główne grupy: uczenie się nadzorowane, bez nadzoru i uczenie się przez wzmacnianie. Uczenie się nadzorowane opiera się na informacji zwrotnej, która wskazuje, czy przewidywanie jest prawdziwe, czy fałszywe, podczas gdy uczenie się bez nadzoru nie wymaga informacji zwrotnej; Algorytm próbuje klasyfikować dane na podstawie ich podstawowej struktury.

Uczenie się przez wzmacnianie jest podobne do uczenia się nadzorowanego w tym sensie, że otrzymuje informację zwrotną, ale nie ma zastosowania do każdego wejścia lub stanu. Inteligentne modele są zazwyczaj opracowywane w celu poprawy ich wydajności lub zachowania. Na rysunku 1 widać różnicę między tymi trzema nauczanie maszynowe modele i różnice funkcjonalne każdego modelu.

rysunek 1

W uczeniu nadzorowanym do modelu dostarczany jest zbiór danych z pożądanymi etykietami; Aby funkcja mogła obliczyć wielkość błędu w przypadku predykcji.

Monitorowanie ma miejsce, gdy dokonuje się prognozy, a błąd (rzeczywisty lub pożądany) jest mapowany w celu zmiany wydajności i uczenia się.

W przypadku uczenia się bez nadzoru mamy zbiór danych, który nie zawiera pożądanych wyników; Dlatego nie ma możliwości monitorowania wydajności. Z tego powodu funkcja stara się podzielić zbiór danych na klasy, tak aby każda lekcja zawierała część zbioru danych o wspólnych cechach.

W uczenie się przez wzmacnianie, algorytm próbuje nauczyć się działań, które można wykonać na stanach, aby osiągnąć stan docelowy. W powyższym paradygmacie agent uczący się otrzymuje informację zwrotną w formie nagrody lub kary po ocenie każdego działania.

Na podstawie tej definicji powinniśmy powiedzieć uczenie się przez wzmacnianie to ogólne ramy rozwiązywania problemów związanych z uczeniem się, które wymagają podejmowania decyzji sekwencyjnych oraz rozwiązanie umożliwiające wdrożenie matematycznych ram rozwiązywania problemów. Można na przykład zastosować, aby znaleźć dobrą politykę, metody oparte na wartościach, takie jak uczenie się jakościowe, badające zgodność działania z daną sytuacją.

Informacja zwrotna nie jest koniecznie przekazywana w przypadku wszystkich działań i jest nagradzana tylko wtedy, gdy jest to konieczne lub gdy wykonano świetną pracę. Z drugiej strony zastosowanie technik opartych na polityce umożliwia identyfikację kroków, które można wykonać w różnych sytuacjach bezpośrednio i niezależnie od stopnia koordynacji między ruchem a sprawą. Należy zauważyć, że humanistyczne i sekwencyjne podejście do edukacji jest inspiracją dla metody opartej na nagrodzie i karze.

Przyjrzyjmy się teraz każdemu modelowi i przeanalizujmy jego krytyczne podejścia i algorytmy.

Na jakiej podstawie działają algorytmy uczenia się przez wzmacnianie?

Najprawdopodobniej masz doświadczenie w graniu w gry wideo, takie jak Call of Duty, Battlefield lub podobne przykłady. Podczas gry wykonujesz powtarzalne zadania; na przykład sprawdzasz sytuację, podejmujesz decyzję i coś robisz, a na koniec oceniasz, co zrobiłeś, aby sprawdzić, czy podjąłeś właściwe decyzje.

Ten iteracyjny proces pomaga zdobyć doświadczenie w oparciu o to, co zrobiłeś, i uświadomić sobie, co zrobiłeś dobrze, a co źle. Dzięki takiemu podejściu stopniowo będziesz coraz lepszy w grze. Ten powtarzalny proces wykonywania czynności nie ogranicza się do grania w gry wideo; używamy tego samego wzorca w większości codziennych czynności.

Proces ten jest stosowany w uczenie się przez wzmacnianie do trenowania maszyn, a agent uczy się metodą prób i błędów i stara się osiągnąć maksymalną nagrodę, wykonując pewne czynności w otaczającym środowisku.

Załóżmy, że mamy sklep i zatrudniamy pracownika. Pracownik ten może wykonywać różne zadania, takie jak kontakt z klientami i zwiększanie wskaźnika sprzedaży w zamian za otrzymanie prowizji. Teraz wyobraź sobie, że ten pracownik jest agentem naszego hipotetycznego sklepu. Agent ten pracuje w firmie; Mając taki opis, powinniśmy wyobrazić sobie firmę jako otoczenie.

Agent jest w stanie. Za każdym razem, gdy w środowisku wykonywana jest operacja, stan agenta zmienia się i przybiera nową formę. Zatem za każdą wykonaną pracę zostanie nagrodzona lub ukarana osoba ją wykonująca. Przykładowo, jeśli pracownik zaliczył całkowicie udany dzień sprzedaży zgodnie z planem, otrzyma prowizję, a jeśli zrobi coś złego i sprzedaż nie przebiegnie zgodnie z oczekiwaniami, prowizji nie otrzyma.

Agent stale uczy się, jak zapewnić najlepszą obsługę w powyższym przykładzie. Podczas procesu superagenta zna wskazówki dotyczące zadań i działań, które prowadzą do nagród, i stopniowo jego wydajność poprawia się, aż do osiągnięcia ostatecznego celu.

Teraz skorzystajmy z powyższego przykładu uczenie się przez wzmacnianie.

W uczenie się przez wzmacnianie, agent istnieje w środowisku i może robić różne rzeczy, zupełnie jak my, ludzie. Agent stara się zmaksymalizować swoje nagrody. Każde jego działanie ma dla niego konsekwencje. Rezultatem każdego działania jest pozytywna lub negatywna nagroda lub kara.

Z biegiem czasu agent uczy się na podstawie tych wyników, jak wykonywać swoją pracę z większym zyskiem; Dlatego możemy tak powiedzieć wzmocnienie uczenie się to uczenie się oparte na informacjach zwrotnych. W świecie sztucznej inteligencji inteligentny agent to automatyczny byt, który za pomocą swoich czujników otrzymuje informacje o środowisku, wykonuje działania za pomocą bodźców i kieruje działaniami w kierunku osiągnięcia celów.

Inteligentni agenci wykorzystują zdobytą wiedzę lub naukę do osiągnięcia celów. Czynniki te mogą być proste lub złożone. Zachowaj ostrożność przed wdrożeniem deep środek do uczenia się przez wzmocnienie; badacze muszą mieć pełne informacje na temat ważnych kwestii, takich jak różne podejścia do uczenia się przez wzmacnianieidea nagradzania i słowo głęboko w głębi uczenie się przez wzmacnianie zaprojektować i opracować dokładny model.

Załóżmy, że nie masz wiedzy o płomieniu i zbliżasz się do niego. Geneza powstawania uczenia się przez wzmacnianie opiera się na interakcji człowieka z otoczeniem i edukacji opartej na własnych doświadczeniach. Koncepcja krytyczna w uczeniu się przez wzmacnianie paradygmat jest taki, że agent działający w tle kończy proces uczenia się, wchodząc z nim w interakcję i otrzymując nagrody za swoje działania.

Płomień jest gorący, uważany za pozytywny i wywołuje to pozytywne uczucie; teraz już wiesz, że ogień to pozytywna rzecz. Potem próbujesz dotknąć ognia, a twoja ręka płonie. Teraz rozumiesz, że ogień jest pozytywną rzeczą, ale gdy znajdziesz się w odpowiedniej odległości, możesz przyjąć jego ciepło, a zbliżenie się do niego spowoduje oparzenie.

W ten sposób ludzie uczą się różnych rzeczy poprzez interakcję ze środowiskiem. Uczenie się przez wzmacnianie to podejście przetwarzające, w oparciu o które agent uczy się, robiąc coś, a dokładniej, działając.

Uczenie się przez wzmacnianie i uczenie maszynowe

Mówiąc dokładniej na ten temat, powinniśmy tak powiedzieć uczenie się przez wzmacnianie jest jednym z podstawowych paradygmatów uczenia się, w którym agent uczy się osiągać cel w niepewnym i złożonym środowisku. W wzmocnienie, modele uczenia się stawiają czoła tym samym warunkom, co gry wideo. Komputer wykorzystuje metodę prób i błędów, aby znaleźć rozwiązanie problemu. Aby maszyna zrobiła to, czego chce programista, za jej działania grozi nagroda lub kara. W tym przypadku celem urządzenia jest maksymalizacja otrzymywanych nagród. Chociaż programista określa zasady (zasady i instrukcje gry) dotyczące otrzymywania bonusów, nie dostarcza modelowi żadnych sugestii dotyczących sposobu grania w grę. Maszyna musi wymyślić, jak wykorzystać wyniki uzyskane w każdym działaniu, aby osiągnąć ostateczny cel.

Agent, sytuacja i środowisko

Załóżmy, że agent uczy się gry wideo takiej jak Super Mario, pracując nad przykładami (rysunek 2). Kroki, na których opiera się model uczenie się przez wzmacnianie które muszą przejść, aby osiągnąć umiejętności grania w tę grę, są następujące:

  1. Agent otrzymuje od otoczenia stan S0 (w powyższym przykładzie odbierana jest pierwsza klatka (stan) gry Super Mario (atmosfera)).
  2. Na podstawie stanu S0 agent wykonuje akcję A0, która jest równoznaczna z ruchem w prawo.
  3. Środowisko zostaje przeniesione do ramki lub nowego stanu S1.
  4. Otoczenie nagradza agenta R1.

Rysunek 2

To wzmocnienie uczenia się pętla opiera się na iteracyjnym procesie stanu, akcji i nagrody. Celem agenta jest maksymalizacja oczekiwanego skumulowanego wynagrodzenia.

Jaka jest hipoteza nagrody?

Dlaczego celem agenta jest maksymalizacja łącznej nagrody? To dlatego uczenie się przez wzmacnianie został opracowany w oparciu o tę teorię. Maksymalna skumulowana nagroda, którą należy wziąć pod uwagę w uczenie się przez wzmacnianie aby osiągnąć najlepsze zachowanie. Skumulowaną nagrodę w każdym kroku t można zapisać w oparciu o następujący wzór:

Gt= Rt+1 + Rt+2 + …..

co jest równe:

Subtelną kwestią, na którą powinieneś zwrócić uwagę w odniesieniu do nagradzania, jest to, że powyższy proces opiera się na obliczeniach ze świata statystyk. Im szybciej nagroda zostanie przyznana (na początku gry), tym większe prawdopodobieństwo, że tak się stanie; Ponieważ są bardziej przewidywalne niż przyszłe długoterminowe nagrody. Aby lepiej zrozumieć powyższe zdanie, zwróć uwagę na następujący przykład:

Jest to hipotetyczny przykład, w którym agentem jest malutka mysz, a konkurentem jest kot. Celem jest, aby mysz zjadła jak najwięcej sera, zanim kot będzie mógł zjeść mysz. Jak pokazano na rysunku 3, prawdopodobieństwo zjedzenia sera w pobliżu myszy jest wyższe niż w przypadku zjedzenia sera w pobliżu kota (im bliżej kota, tym większe ryzyko).

Rysunek 3

W sekwencji nagroda w pobliżu kota jest nadal dyskontowana, nawet jeśli jest bardziej znacząca (więcej serów); Ponieważ ciężko je zdobyć, a agent nie jest pewien, czy będzie w stanie je zjeść. Aby zdyskontować nagrody, postępujemy w następujący sposób:

  • Definiujemy stopę dyskontową zwaną gamma, mieszczącą się w przedziale od 0 do 1. Im większa gamma, tym mniejszy rabat. W rezultacie podmiot uczący się przywiązuje większą wagę do nagród długoterminowych. I odwrotnie, im mniejsza wartość gamma, tym większa wartość; Oznacza to, że agent zwraca większą uwagę na nagrody krótkoterminowe. Zdyskontowane skumulowane oczekiwane wynagrodzenie oblicza się w oparciu o następujący wzór.

  • Dla uproszczenia każda nagroda jest dyskontowana o współczynnik gamma do potęgi kroku czasowego. W miarę upływu czasu kot zbliża się do myszy, przez co kolejne wskazówki stają się mniej prawdopodobne.

Zadania epizodyczne lub ciągłe

Zadanie jest przykładem a uczenie się przez wzmacnianie problem. W tym przypadku odcinek składa się z luźno powiązanych części lub wydarzeń. W uczenie się przez wzmacnianieistnieją dwa rodzaje funkcji, epizodyczne i ciągłe.

W podejściu do zadań epizodycznych istnieje punkt początkowy i punkt końcowy, który tworzy odcinek: lista stanów, akcji, nagród i nowych stanów. Przykładowo w naszym modelu (gra Super Mario) atak rozpoczyna się wraz z przybyciem nowego Mario, a gdy Mario zostaje zabity lub dotrze do końca etapu, wszystko się kończy.

W podejściu zadań ciągłych badania takie trwają wiecznie. W tej sytuacji agent musi nauczyć się wybierać najlepsze działanie i jednocześnie wchodzić w interakcję z otoczeniem. Konkretnym przykładem związanym z zadaniami ciągłymi jest agent, którego zadaniem jest ciągłe monitorowanie zmian w stanie zapasów. Dla tego zadania nie ma punktu początkowego ani końcowego. Agent kontynuuje pracę, dopóki ekspert nie zdecyduje się go przerwać.

Stosowane terminy uczenia się przez wzmacnianie

Jeśli jesteś zainteresowany skupieniem się na uczeniu się przez wzmacnianie paradygmatu, lepiej poznać kilka istotnych terminów z tej dziedziny. Ponieważ liczba razy jest znacząca, poniżej wymienimy kilka istotnych elementów:

  • Agent: Jest to algorytm lub model, który musi działać i uczyć się na nich w miarę upływu czasu.
  • Środowisko: Jak sama nazwa wskazuje, słowo to oznacza środowisko, z którym agent komunikuje się i wykonuje w tym środowisku zadania.
  • Działanie: To właśnie robi agent. Działania i reakcje agenta zachodzą w środowisku.
  • Nagroda: Wynik akcji. Każda akcja ma bonus. Kompensacja może być dodatnia lub ujemna.
  • Stan: pokazuje bieżący stan agenta w środowisku. Działania wykonywane przez agenta mogą zmieniać jego kształt, jak chociażby wspomniana gra Super Mario.
  • Polityka to strategia lub zachowanie oparte na tym, co się robi i co agent musi zrobić, aby osiągnąć wymagany wynik.
  • Funkcja wartości: Ta funkcja informuje agenta o maksymalnej nagrodzie, jaką otrzyma za każdy przyszły stan.

ostatnie słowo

Uczenie się przez wzmacnianie jest niewątpliwie najbardziej zaawansowanym paradygmatem uczenia maszynowego oraz sztuczną inteligencję, która ma ogromny potencjał zrewolucjonizowania świata technologii informatycznych.

Statystyki to pokazują uczenie się przez wzmacnianie to najskuteczniejszy sposób zaszczepienia koncepcji kreatywności w maszynach, ponieważ znajdowanie nowych i innowacyjnych sposobów wykonywania zadań jest formą kreatywności; Dlatego musimy to powiedzieć uczenie się przez wzmacnianie może być następującym procesem w rozwoju sztucznej inteligencji.

Pobieranie premium motywów WordPressPobierz bezpłatne motywy WordPress PremiumPobierz motywy WordPress za darmoBezpłatne pobieranie motywów WordPressdarmowy płatny kurs Udemy do pobraniapobierz oprogramowanie intexPobierz motywy WordPressdarmowy płatny kurs Udemy do pobrania