Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji!

W jakich obszarach stosuje się uczenie się przez wzmacnianie?

Uczenie się przez wzmacnianie, znane w świecie uczenia maszynowego jako model uczenia się częściowo nadzorowanego, to technika, która pozwala agentowi na interakcję z otoczeniem w oparciu o zestaw działań i otrzymywanie najwyższych nagród w oparciu o czynności, które wykonuje.

Z drugiej strony, jeśli zrobi coś złego lub złego, nie otrzyma nagrody.

W większości przypadków algorytmy uczenia się przez wzmacnianie modelowane są w oparciu o model decyzyjny Markowa (MDP).

Biorąc pod uwagę, że uczenie się przez wzmacnianie jest jednym z potężnych paradygmatów uczenia maszynowego, pojawia się pytanie, w jakich dziedzinach jest ono wykorzystywane, a dokładniej, jakie są zastosowania wspomnianej technologii w realnym świecie?

W tym artykule przyjrzymy się pokrótce najważniejszym zastosowaniom uczenia się przez wzmacnianie w świecie rzeczywistym.

Automatyczne rozpoznawanie mowy

Automatyczne rozpoznawanie mowy (ASR) to funkcja wykorzystująca przetwarzanie języka naturalnego (NLP) do przetwarzania ludzkiej mowy. Powyższa technologia służy głównie do łączenia się z urządzeniami mobilnymi i wykonywania zadań takich jak wyszukiwanie głosowe. Konkretnym przykładem w tym zakresie jest Siri firmy Apple.

obsługa klienta

Asystenci głosowi i wirtualni, boty napisane dla platform społecznościowych, boty do aplikacji do przesyłania wiadomości, takich jak Slack i Facebook i podobne przykłady, to dopiero początek inteligentnych algorytmów wkraczających w świat obsługi klienta. Chatboty internetowe będą służyć klientom podczas interakcji ze stronami firmowymi czy sklepami internetowymi i w praktyce zastąpią człowieka. Odpowiadają na najczęściej zadawane pytania dotyczące produktów, usług, czy rekrutacji w bardziej zaawansowanych przypadkach. Zapewniają także użytkownikom osobiste porady i rekomendacje oraz starają się pomóc użytkownikom w lepszej interakcji ze stronami internetowymi lub platformami mediów społecznościowych.

Wizja komputerowa

Ten sztuczna inteligencja technologia umożliwia komputerom i systemom uzyskiwanie znaczących informacji z cyfrowych obrazów, filmów i innych danych wejściowych oraz podejmowanie działań w oparciu o te dane wejściowe. Wizja komputerowa wykorzystująca splotowe sieci neuronowe jest wykorzystywana w takich obszarach, jak tagowanie obrazów w mediach społecznościowych, obrazowanie radiologiczne w opiece zdrowotnej oraz samochody autonomiczne w przemyśle motoryzacyjnym.

Silniki rekomendujące

Uczenie się przez wzmacnianie jest obecnie używany w systemach rekomendujących, takich jak wiadomości, aplikacje muzyczne, Netflix itp. Programy te działają zgodnie z ustawieniami użytkownika. Przykładowo w przypadku aplikacji takich jak Netflix, podczas oglądania różnych seriali i filmów, tworzona jest lista zainteresowań, która jest przetwarzana przez silniki rekomendacyjne. Obecnie większość firm działających w obszarze świadczenia usług lub sprzedaży produktów korzysta z silników rekomendacyjnych. Uwzględniają wiele parametrów, takich jak preferencje użytkownika, popularne filmy, pokrewne gatunki itp., a następnie model pokazuje użytkownikowi najnowsze filmy zyskujące popularność zgodnie z tymi kryteriami.

Powyższe podejście stosuje się w celu zapewnienia klientom rekomendacji o wartości dodanej podczas procesu realizacji transakcji w sklepach internetowych. Uczenie się przez wzmacnianie algorytmy Wykorzystując dane o zachowaniach konsumentów, można odkryć określone trendy danych, dzięki którym strategie marketingowe i sprzedażowe będą skuteczniejsze. Można zatem powiedzieć, że jako użytkownicy pośrednio korzystamy z uczenia się przez wzmacnianie poprzez platformy informacyjno-rozrywkowe.

Zautomatyzowany handel akcjami

Jedno z najważniejszych zastosowań zbrojenia nauczanie maszynowe zajmuje się platformami handlowymi oraz kupnem i sprzedażą akcji. Obecnie większość transakcji przeprowadzanych na giełdach papierów wartościowych i pozagiełdowych odbywa się przy użyciu inteligentnych algorytmów zdolnych do identyfikacji kamieni milowych w handlu. Algorytmy te wykonują tysiące, a nawet miliony transakcji dziennie bez interwencji człowieka.

Biznes, marketing i reklama

Technologia może odegrać wpływową rolę w każdej dziedzinie związanej z rynkami finansowymi. Na przykład, Modele uczenia się przez wzmacnianie firmy może analizować zainteresowania klientów i pomóc lepiej promować produkty. Wiemy, że biznes potrzebuje odpowiedniej strategii, aby przynosić zyski. Uczenie się przez wzmacnianie pomaga sformułować te strategie, badając wszystkie przyszłe możliwości, aby osiągnąć maksymalne korzyści. Kiedy nauka przez wzmacnianie modele kosztują dużo, większość dużych firm korzysta z algorytmów w tym zakresie, aby uzyskać maksymalny zysk.

Artykuł badaczy Alibaba zatytułowany Licytacja w czasie rzeczywistym za pomocą Uczenie się przez wzmacnianieOpublikowana w 2018 r. publikacja Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising (Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising) ukazała się w 2018 r. i pokazała, że ​​udało się wynaleźć rozwiązanie dla „rozproszonego, skoordynowanego licytowania wielu agentów” (DCMAB). ) Aukcja. wykazały obiecujące wyniki po wdrożeniu w systemie TaoBao.

System reklamowy Taobao to lokalna platforma, która wyświetla klientom odpowiednie reklamy po rozpoczęciu aukcji przez sprzedawców. Powyższa sytuacja może stanowić problem wieloagentowy, ponieważ aukcja dotyczy każdego sprzedającego w punkcie przeciwnym do drugiego sprzedającego, a działania każdego agenta zależą od kroków pozostałych agentów. W powyższym badaniu sprzedawcy i klienci zostali podzieleni na kilka grup, aby zmniejszyć złożoność obliczeniową. Co więcej, przestrzeń stanów każdego agenta opisuje jego koszt i korzyść, a przestrzeń akcji jest taka sama jak aukcja.

branża gier

Jedno z głównych zastosowań uczenie się przez wzmacnianie zajmuje się tworzeniem gier. Obecnie w tej dziedzinie stosowane są różne algorytmy wysokiego poziomu. Spójrz na gry różnych generacji. Wyraźnie zrozumiecie, że zabawy z 11. i 12. generacji nie da się porównać z oryginalnymi przykładami, ponieważ studia gier wykorzystały uczenie się przez wzmacnianie aby postacie w grach były inteligentne. Najbardziej dochodowa jest dziś branża gier, która rozwija się równolegle ze światem technologii.

Widzimy, że obecnie gry stają się coraz bardziej realistyczne i dodano więcej szczegółów. Na przykład mamy uczenie się przez wzmacnianie środowiskach, takich jak PSXLE, które skupiają się na budowaniu lepszych środowisk do gier.

Ponadto mamy głęboka nauka algorytmy, takie jak AlphaGo i AlphaZero, które są algorytmami gier takich jak Chess, Shogi i Go. Nie szkodzi wiedzieć, że do szkolenia algorytmu Alphago zebrano niezliczone dane z procesu ludzkich gier i dostarczono do modelu jako kanał.

Wykorzystując technikę wyszukiwania drzew Monte Carlo (MCTS) i inne technologie, algorytm ten osiągnął lepszą wydajność niż ludzie. Algorytmy te pomagają zespołom tworzącym gry dodawać więcej funkcji do gier i czynić je bardziej realistycznymi.

Uczenie się przez wzmacnianie w nauce

Sztuczna inteligencja i uczenie maszynowe są niezbędne dla postępu badań naukowych i identyfikacji nowych leków. Na przykład podczas pandemii Covid-19 nauczanie maszynowe algorytmy mogłyby rozróżnić zwykły kaszel od wirusa koronowego, identyfikując wzorce. Jest wiele dziedzin nauki, w których uczenie się przez wzmacnianie może być pomocny. Przeprowadzono wiele badań nad fizyką atomów i ich właściwościami chemicznymi z wykorzystaniem uczenia się przez wzmacnianie. Dziś najwięcej mówi się o fizyce kwantowej.

Uczenie się przez wzmacnianie pomaga lepiej zrozumieć reakcje chemiczne, co ma wpływ na szybszą identyfikację nowych leków. Jeśli w przeszłości diagnoza, produkcja i testowanie nowych leków wymagały cyklu wieloletniego, nauczanie maszynowe skrócił ten cykl.

Dla każdej cząsteczki lub atomu zachodzą różne reakcje, a wzorce ich wiązania możemy zrozumieć dzięki uczeniu maszynowemu. Obecnie badacze z różnych dziedzin korzystają z algorytmów głębokiego uczenia się, takich jak LSTM, aby osiągać szybsze wyniki.

Zarządzanie zasobami w przetwarzaniu klastrowym

Projektowanie algorytmów w celu przydzielania ograniczonych zasobów do różnych zadań jest trudne i wymaga algorytmów heurystycznych. Artykuł „Zarządzanie zasobami poprzez głębokie wzmacnianie Uczenie się ” (Zarządzanie zasobami z głębokim wzmacnianiem uczenia się) pokazał, jak system może wykorzystać uczenie się przez wzmacnianie algorytmy automatycznie uczące się przydzielania i planowania zasobów obliczeniowych oraz prawidłowego przydzielania zasobów do projektów.

Minimalizuj stracony czas. We wspomnianym artykule przestrzeń stanów jest wyznaczana i formułowana w postaci aktualnej alokacji zasobów oraz specyfikacji wymaganych zasobów dla każdego projektu. W przestrzeni akcji zastosowano również unikalne rozwiązanie, które pozwala agentowi wybrać więcej niż jedną akcję w każdym kroku czasowym.

Następnie za pomocą algorytm uczenia się przez wzmacnianie i na podstawie wartości bazowej obliczany jest gradient polityki i uzyskiwany jest najlepszy parametr polityki, jakim jest rozkład prawdopodobieństwa działań zmierzających do minimalizacji celu. Więcej informacji na temat powyższego projektu można znaleźć na stronie https://github.com/hongzimao/deeprm.

Sterowanie sygnalizacją świetlną

W artykule „Wzmocnienie uczenie się oparty na wieloagentowym systemie kontroli sygnalizacji świetlnej w sieci” – badacze zaprezentowali rozwiązanie umożliwiające sterowanie sygnalizacją świetlną w czasie dużego natężenia ruchu na ulicach. Oczywiście innowacyjny algorytm tych ekspertów został przetestowany jedynie w symulowanym i nierealistycznym środowisku. Mimo to zapewniła lepsze wyniki niż tradycyjna metoda ruchu i ujawniła potencjalne zastosowania wieloagentowego uczenia się przez wzmacnianie w projektowaniu systemu ruchu. (rysunek 1)

W tej sieci drogowej z pięcioma skrzyżowaniami, 5-agent uczenie się przez wzmacnianie stosowany jest algorytm, w którym na skrzyżowaniu centralnym zlokalizowany jest jeden agent odpowiedzialny za kontrolę i kierowanie sygnalizacją świetlną. W tym scenariuszu stan jest 8-wymiarowym wektorem, którego każdy element opisuje względny przepływ ruchu na jednym z pasów.

Zatem agent ma osiem opcji, z których każda jest kombinacją rozmytą opartą na funkcji nagrody. Nagroda jest funkcją skrócenia czasu opóźnienia w porównaniu z poprzednim krokiem czasowym. Badacze piszący ten artykuł wykorzystali sieć DQN do określenia wartości jakościowej każdej pary (stan, działanie).

robotyczny

Kolejna branża, w której uczenie się przez wzmacnianie odgrywa znaczącą rolę jest robotyka. Naukowcy mogą korzystać uczenie się przez wzmacnianie szkolić roboty w celu poznania zasad niezbędnych do porównywania i dopasowywania surowych obrazów wideo do zautomatyzowanych działań.

Aby kolory RGB były dostarczane do konwolucyjnej sieci neuronowej (CNN) w celu obliczenia wymaganego algorytmu momentu obrotowego silnika i uzyskania wyniku, algorytm wyszukiwania zasad ze wskazówkami, uważany za element uczenia się przez wzmacnianie, generuje niezbędne dane szkoleniowe dotyczące rozkładu stanu samego algorytmu.

Konfiguracja systemu internetowego

W systemie sieciowym istnieje ponad 100 regulowanych parametrów, których proces regulacji wymaga wykwalifikowanego operatora i licznych prób opartych na próbach i błędach. Głęboka nauka naukowcom udało się opracować rozwiązanie tego problemu, zwane „ uczenie się przez wzmacnianie podejście do automatycznej konfiguracji internetowego systemu sieciowego”, Jest to pierwsza próba w tej dziedzinie automatycznej rekonfiguracji parametrów w wielowarstwowych systemach sieciowych w dynamicznych środowiskach maszynowych.

Proces rekonfiguracji można sformułować jako ograniczony proces decyzyjny Markowa (MDP). We wspomnianych badaniach przestrzeń stanów to konfiguracja systemu, a przestrzeń działania (zwiększanie, zmniejszanie, utrzymywanie) dla każdego parametru. Dodatkowo nagroda wyliczana jest jako różnica pomiędzy założonym docelowym czasem reakcji a szacowanym czasem.

W tym projekcie badacze wykorzystali algorytm Q-learning. W powyższym projekcie zamiast łączyć uczenie się przez wzmacnianie z sieciami neuronowymi badacze zastosowali inne strategie, takie jak inicjowanie polityki w celu modyfikacji przestrzeni stanów i złożoności obliczeniowej problemu, ponieważ wierzyli, że utoruje to drogę do dalszych badań w przyszłości.

Chemia

Nauczanie maszynowe można wykorzystać do optymalizacji reakcji chemicznych. W związku z tym grupa badaczy osiągnęła znaczące osiągnięcia w artykule zatytułowanym Optimizing Chemical Reactions with Deep Uczenie się przez wzmacnianie.

W poprzednich badaniach funkcja polityczna sieci LSTM i uczenie się przez wzmacnianie Algorytmy zostały zintegrowane w taki sposób, że uczenie się przez wzmacnianie agent mógłby przeprowadzić proces optymalizacji reakcji chemicznej w oparciu o proces decyzyjny Markowa.

W powyższych badaniach model Markowa definiuje się jako {S, A, P, R}, gdzie S jest zbiorem warunków eksperymentalnych (takich jak temperatura, pH itp.), a A jest zbiorem wszystkich możliwych działań, które mogą zmienić warunki eksperymentu.

P to prawdopodobieństwo przejścia od warunku testowego do następnej sytuacji, a R to nagroda zdefiniowana jako funkcja problemu. To badanie to pokazało uczenie się przez wzmacnianie radzi sobie dobrze z czasochłonnymi zadaniami wykonywanymi metodą prób i błędów w niemal stabilnym środowisku.

Spersonalizowane rekomendacje

Do dziś wiele pracy włożono w dziedzinie sugestii wiadomości i większość z nich borykała się z tymi samymi problemami, takimi jak brak dużej prędkości w związku z publikowaniem nowych wiadomości, niezadowolenie użytkowników i nieodpowiednie kryteria. Dzięki temu użytkownicy przeglądając informacje przechodzą obok nich obojętnie, a tym samym spada współczynnik klikalności. W tym względzie naukowcy wykorzystali uczenie się przez wzmacnianie w systemie rekomendacji aktualności.

Wyniki ich osiągnięć opublikowała w czasopiśmie „DRN, a deep uczenie się przez wzmacnianie ramy rekomendacji wiadomości”, która próbuje przezwyciężyć typowe problemy.

W tym projekcie badawczym naukowcy zdefiniowali cztery grupy cech w następujący sposób:

  • Charakterystyka użytkownika.
  • Funkcje tekstowe oparte na cechach sytuacyjnych stworzonych w środowisku.
  • Funkcje wiadomości dla użytkowników.
  • Wiadomości jako parametry działania.

Cztery wymienione powyżej funkcje zostały dostarczone do Deep Q-Network jako dane wejściowe do obliczenia odpowiedniej wartości jakości. Na podstawie jakości przygotowałem listę polecanych nowości.

W algorytmie, jak wspomniano powyżej, kliknięcia użytkowników w wiadomości są częścią nagrody dla agenta, którą uczenie się przez wzmacnianie agent otrzymuje. Ponadto badacze wykorzystali techniki takie jak modele analizy przeżycia, replikacja pamięci, gradient gradientu Dueling Bandit itp., aby rozwiązać inne problemy.

Pobierz najlepsze motywy WordPress do pobrania za darmoPobierz motywy WordPressPobierz bezpłatne motywy WordPress PremiumPobierz motywy WordPress za darmodarmowy kurs on-linepobierz oprogramowanie HuaweiPobieranie premium motywów WordPressZG93bmxvYWQgbHluZGEgY291cnNlIGZyZWU=