Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji!

Jaka jest przyszłość sieci neuronowych?

Głębokie uczenie się to rozległa dziedzina, która opiera się na scentralizowanym algorytmie modyfikowanym przez miliony, a nawet miliardy zmiennych.

Ten duży algorytm nazywa się siecią neuronową. Statystyki pokazują, że co roku wkraczają na tę dziedzinę nowe techniki i metody, z których każda ma genialne zalety.

Jednak głębokie uczenie się w obecnej epoce można podzielić na trzy podstawowe paradygmaty uczenia się.

W sercu każdego z tych paradygmatów nowe podejście do uczenia się ma swój potencjał i subtelności i stara się zwiększyć siłę wiedzy i głębię zrozumienia.

W tym artykule poznamy trzy paradygmaty, które w ciągu najbliższych kilku lat mają zostać dostrzeżone przez badaczy i firmy.

uczenie się hybrydowe

Czy jest możliwe, abyśmy wynaleźli techniki i metody w dziedzinie głębokiego uczenia się, aby pokonać ograniczenia otaczające uczenie się nadzorowane i nienadzorowane, abyśmy mogli dopasowywać i wykorzystywać duże ilości nieoznaczonych i nieużywanych danych? ? Na pozór zrobienie czegoś takiego wydaje się skomplikowane, ponieważ potrzebujemy bardziej zaawansowanych i oczywiście bardziej złożonych paradygmatów.

uczenie się złożone

Jak można kreatywnie połączyć różne modele lub komponenty, aby stworzyć model złożony zawierający inne części?

Ograniczona nauka

W jaki sposób można zmniejszyć rozmiar modeli i przepływ danych, aby poprawić wydajność i uprościć proces wdrażania, zachowując lub poprawiając moc predykcyjną?

Perspektywa głębokich sieci neuronowych pokazuje, że przyszłość głębokiego uczenia się wynika z trzech wspomnianych przez nas paradygmatów i co ciekawe, każdy z nich jest ze sobą powiązany.

uczenie się hybrydowe

Paradygmat ten stanowi próbę przezwyciężenia ograniczeń związanych z uczeniem się pod nadzorem i bez nadzoru (samonadzoru). Nadzorowane i nienadzorowane modele uczenia maszynowego borykają się z problemami, takimi jak brak dostępu do źródeł danych wysokiej jakości, wysoki koszt dostępu do oznaczonych etykietami danych oraz brak wystarczających informacji na temat konkretnej domeny biznesowej. Uczenie się mieszane ma na celu znalezienie odpowiedzi na pytanie, w jaki sposób możemy wykorzystać metody nadzorowane do rozwiązywania problemów związanych z modelami bez nadzoru.

Na przykład uczenie się częściowo nadzorowane (uczenie się częściowo nadzorowane) przyciągnęło uwagę społeczności uczących się maszyn ze względu na jego doskonałą skuteczność w rozwiązywaniu problemów z nadzorowanymi wzorcami, a zwłaszcza z mniej oznakowanymi danymi. Na przykład dobrze zaprojektowana, częściowo nadzorowana, kontradyktoryjna sieć generatywna może zapewnić prawidłowe wyniki z ponad 90% dokładnością w zbiorze danych MNIST (obszerna baza danych pisma ręcznego) po obejrzeniu zaledwie 25 przykładów szkoleniowych.

Uczenie się częściowo nadzorowane jest przeznaczone dla zbiorów danych, w których dostępnych jest niewiele danych bez nadzoru, a badacze mają dostęp tylko do niewielkiej ilości nadzorowanych informacji. Podczas gdy model uczenia się z nadzorem jest tradycyjnie szkolony na jednej części danych, a model bez nadzoru na drugiej, model częściowo nadzorowany może łączyć dane oznaczone etykietami ze spostrzeżeniami uzyskanymi z danych nieoznaczonych.

Pokazuje problem. Półnadzorowana generacyjna sieć kontradyktoryjna SGAN jest adaptacją standardowego modelu generatywnej sieci kontradyktoryjnej. W tym przypadku dyskryminator, który pokazuje oba wyniki 1/0 i określa, czy obraz jest generowany, wskazuje wynik klasy (trening z wieloma wynikami).

Powyższą technikę opracowano w oparciu o założenie, że model może rozpoznać różnicę między obrazami naturalnymi i wytworzonymi za pomocą technik uczenia się dyskryminacyjnego, a następnie zrozumieć ich strukturę bez użycia oznakowanych danych.

Następnie, aby poprawić wyniki, do modelu dostarczana jest niewielka ilość oznakowanych danych w celu zwiększenia wydajności, tak aby modele częściowo nadzorowane mogły zapewnić najwyższy poziom wydajności przy najmniejszej ilości nadzorowanych danych.

Ponadto kontradyktoryjne sieci generatywne są skuteczne w innej dziedzinie uczenia się hybrydowego, uczenia się samonadzorowanego, w którym problemy nienadzorowane są wyraźnie dostarczane do modelu jako nadzorowane.

Generacyjne sieci kontradyktoryjne sztucznie generują nadzorowane dane, wprowadzając generator i tworząc etykiety w celu identyfikacji rzeczywistych/wygenerowanych obrazów, tak aby proces pracy polegający na samoobserwacji mógł zostać ukończony jako nadzorowany proces pracy. Jest to prawie podobne do tego, co robimy podczas sesji testów z matematyki dyskretnej i staramy się uzyskać odpowiedź za pomocą argumentów i indukcji.

Inną metodą jest użycie modeli kodera-dekodera do kompresji. W najprostszej formie powyższa technika opisuje sieci neuronowe z ograniczoną liczbą węzłów pośrednich tworzących gęste wąskie gardła. Tutaj dwa komponenty znajdują się po obu stronach tego wąskiego gardła i są znane jako koder i koder.

Sieć jest szkolona tak, aby generować taki sam wynik, jak wejście wektorowe (syntetyczne nadzorowane zadanie na podstawie nienadzorowanych danych). Ponieważ wąskie gardło jest celowo umieszczone pośrodku, sieć nie może pasywnie przekazywać informacji.

Zamiast tego musi określić najlepsze sposoby przechowywania treści wejściowych w małej jednostce, tak aby dekoder mógł logicznie dekodować informacje po drugiej stronie wąskiego gardła.

Aby wyjaśnić to zagadnienie, przytoczmy przykład. Jeśli masz praktyczne doświadczenie w pracy z językiem programowania takim jak C Plus Plus i zdecydujesz się na studia licencjackie z oprogramowania, nauczyciel C Plus Plus poruszy problem na zajęciach. Szybko rozwiążesz zadanie w oparciu o swoją wcześniejszą wiedzę, nawet jeśli rozwiązanie, które podasz nie jest optymalne. Kiedy jednak nauczyciel ogranicza Cię do rozwiązania zadania wyłącznie w oparciu o informacje, których do tej pory przekazał, to musisz trochę pomyśleć, aby możesz zapewnić najlepsze rozwiązanie problemu. Technika kodowania i dekodera jest taka sama.

Po ukończeniu szkolenia następuje rozdzielenie kodera i dekodera. Tutaj można go używać do odbierania skompresowanych lub zaszyfrowanych danych w celu przesłania mniejszej ilości danych bez ich utraty. Można ich również używać do zmniejszania wymiarów danych.

Weź pod uwagę obszerny zbiór tekstów, na przykład komentarze wprowadzone na platformę cyfrową. Stosując pewne metody grupowania lub wiele metod uczenia się, możemy wygenerować etykiety klastrów dla tekstu, które będziemy mogli później wykorzystać jako etykiety (pod warunkiem, że grupowanie zostanie wykonane dobrze).

Być stosowane. Dane nie są tutaj oznaczone i używana jest najniższa możliwa wartość. Po zinterpretowaniu każdego skupienia (na przykład skupienie A reprezentuje komentarze odzwierciedlające skargi dotyczące produktu, skupienie B odzwierciedla pozytywne opinie itp.), następuje architektura głębokiego przetwarzania języka naturalnego, taka jak BERT można wykorzystać do klasyfikowania nowych tekstów w te grupy.

Tutaj podwójnym celem jest stworzenie aplikacji umożliwiającej konwersję procesów nienadzorowanych na procesy nadzorowane. W erze, w której większość danych nie jest oznakowana, musimy zastosować kreatywne podejście, aby pokonać ograniczenia algorytmów uczenia się pod nadzorem i bez nadzoru, opierając się na uczeniu hybrydowym.

Uczenie się złożone

Blended learning różni się podejściem od trybu łączonego i jak sama nazwa wskazuje, nie ma na celu wykorzystania wiedzy o jednym modelu, ale zrozumienia kilku modeli. Ideą powstania techniki uczenia złożonego jest to, że jeśli możemy trenować głębokie uczenie się w sposób ciągły poprzez unikalne kombinacje informacji statycznych i dynamicznych, w końcu uzyskamy głębsze zrozumienie i lepszą wydajność.

Uczenie się transferowe jest wyraźnym przykładem uczenia się złożonego. Podkreśla ideę, że ciężary modelu można zapożyczyć od modelu już przeszkolonego do podobnego zadania i zredagować w taki sposób, aby wykonać i wykorzystać je do wyjątkowej pracy. Wstępnie wytrenowane modele, takie jak Inception czy VGG-16, mają architekturę i wagi zaprojektowane tak, aby rozróżniać kilka różnych klas obrazów.

Załóżmy na przykład, że zamierzamy wytrenować sieć neuronową w zakresie rozpoznawania zwierząt (kotów, psów itp.). W takim przypadku naturalne jest, że nie uczymy od początku splotowej sieci neuronowej, ponieważ osiągnięcie pożądanych rezultatów będzie wymagało czasu. Natomiast wybieramy wstępnie wytrenowany model taki jak Incepcja, który ma już podstawy rozpoznawania obrazu, a następnie dostarczamy modelowi jeszcze kilka zbiorów danych do treningu.

Podobnie, umieszczając słowa w sieciach neuronowych przetwarzających język naturalny, staramy się używać ich fizycznie i semantycznie bliżej siebie w zamkniętym zbiorze uczącym, który ma opisywać relacje (na przykład słowa jabłko i pomarańcza są mniej odległe semantycznie) – w porównaniu do jabłek i ciężarówek dla tego samego modelu).

Celem jest uczynienie procesu rozpoznawania semantycznego i mapowania bardziej znaczącym i szybszym. Dlatego w modelu złożonym próbuje się wykorzystać możliwości kilku modeli do zbudowania solidnego modelu.

W takim paradygmacie modele lepiej rozumieją koncepcje konkurencji, aby zapewnić wyniki. W scenariuszu opartym na złożonych, kontradyktoryjnych sieciach generatywnych, które opierają się na dwóch sieciach neuronowych, celem produktywnym jest oszukanie dyskryminatora, a celem dyskryminatora jest nie dać się oszukać.

Konkurencja między modelami nazywa się uczeniem kontradyktoryjnym i nie należy go mylić z innym rodzajem uczenia się kontradyktoryjnego, które odnosi się do projektowania destrukcyjnych danych wejściowych i wykorzystywania ograniczonych granic decyzyjnych w modelach. W negatywnych przykładach mogą być przygotowane wejścia dla szkodliwej sieci. Konceptualnie nie da się rozpoznać ich ważności i poprawności dla modelu, jednak model w dalszym ciągu błędnie je klasyfikuje.

Uczenie się kontradyktoryjne może stymulować różne modele, tak że działanie innych modeli pokazuje interpretację jednego modelu. Należy wyjaśnić, że nadal prowadzi się wiele badań w dziedzinie uczenia się kontradyktoryjnego.

Z drugiej strony istnieje uczenie się konkurencyjne, podobne do uczenia się kontradyktoryjnego, ale odbywa się w skali od węzła do węzła, tak że węzły konkurują ze sobą o prawo do reagowania na podzbiór danych wejściowych.

Konkurencyjne uczenie się jest realizowane w warstwie konkurencyjnej, w której zestaw neuronów jest identyczny, z wyjątkiem niektórych losowo rozłożonych wag. Wektor wag każdego neuronu jest porównywany z wektorem wejściowym i neuron o największym podobieństwie jest aktywowany jako neuron zwycięski (wyjście = 1), a pozostałe są nieaktywne (praca = 0).

Ta nienadzorowana technika jest głównym elementem samoorganizujących się map i odkrywania obiektów.

Innym ekscytującym przykładem nauczania mieszanego jest poszukiwanie architektury neuronowej. Mówiąc prościej, (zwykle iteracyjna) sieć neuronowa uczy się w środowisku uczenia się przez wzmacnianie, aby utworzyć najlepszą sieć neuronową dla zbioru danych i znaleźć najlepszą dla siebie architekturę.

Metody zespołowe są jednym z podstawowych elementów nauczania mieszanego. Wykazano, że metody Deep Ensemble sprawdzają się dobrze, co prowadzi do rosnącej popularności kompleksowych modeli, takich jak kodery i dekodery.

Duża część uczenia złożonego polega na znajdowaniu unikalnych sposobów tworzenia powiązań między różnymi modelami. Opiera się na założeniu, że pojedynczy model, nawet ogromny, nie może działać tak dobrze w każdych warunkach, jak wiele mniejszych modeli/elementów, każdy po części. Specjalizują się w swojej pracy. Rozważmy na przykład zadanie zbudowania chatbota dla restauracji.

Proces ten możemy podzielić na trzy części: przyjemności/chatboty, pobieranie danych i wykonanie. Następnie zaprojektujmy model specjalizujący się w obsłudze tych procesów lub stwórzmy model, w którym każda część jest odpowiedzialna za zarządzanie konkretnym zadaniem.

Sugeruję, aby badacze skupili się na budowaniu modeli złożonych do przetwarzania różnych typów danych, takich jak filmy i dane 3D. Co zaskakujące, model hybrydowy może działać lepiej, zajmując mniej miejsca. Co więcej, tego typu topologie nieliniowe można łatwo tworzyć za pomocą narzędzi takich jak interfejsy programowania aplikacji (API) bibliotek takich jak Keras.

Ograniczona nauka

Rozmiar modeli, szczególnie w przetwarzaniu języka naturalnego, stał się jednym z najgorętszych tematów głębokiego uczenia się i jak dotąd przeprowadzono wiele badań w tej dziedzinie. Najnowszy model GPT-3 ma 175 miliardów parametrów; porównanie go z modelem BERT jest jak porównanie roweru z samolotem (rys. 5).

Rysunek 5

Jak widać na rysunku 5, GPT-3 jest dość potężny. Zmierzamy w stronę świata napędzanego sztuczną inteligencją, w którym inteligentna lodówka może automatycznie zamawiać artykuły spożywcze, a drony mogą przejmować wiele miejskich zadań.

Ponadto jesteśmy świadkami stopniowego wprowadzania potężnych metod uczenia maszynowego do komponentów sprzętowych komputerów osobistych, smartfonów, a nawet sprzętu Internetu rzeczy. Wszystkie te komponenty wymagają lekkiego, inteligentnego algorytmu. Algorytm, który może budować mniejsze sieci neuronowe przy zachowaniu wydajności.

Wydaje się, że bezpośrednio lub pośrednio prawie wszystko w badaniach nad głębokim uczeniem się zmierza w stronę zmniejszenia liczby parametrów związanych z lepszą generalizacją, a co za tym idzie, poprawioną wydajnością.

Na przykład wprowadzenie warstw splotowych pomogło zmniejszyć liczbę parametrów wymaganych przez sieci neuronowe do przetwarzania obrazów. Próbuje się więc łączyć te same wagi, a sieci neuronowe przetwarzają sekwencje lepiej i z mniejszą liczbą parametrów.

Osadzone warstwy wyraźnie odwzorowują jednostki na wartości liczbowe o znaczeniu fizycznym, dzięki czemu parametry nie są dodatkowo obciążane.

Na przykład można zastosować technikę regularyzacji, gdy uważasz, że dane są nadmiernie dopasowane i wydajność spadła. Na przykład, jeśli warstwy odrzucane napotkają awarię, możliwa jest ocena kryteriów i wprowadzenie zmian w parametrach w warstwach L1 i L2.

Można zastosować technikę regularyzacji pierwszej warstwy i drugiej warstwy, aby sieć optymalnie wykorzystała wszystkie swoje parametry i miała pewność, że żadna z warstw nie stanie się zbyt duża i aby każda z nich zapewniała najwyższy i najwyższy poziom jakości informacji.

Tworząc wyspecjalizowane warstwy, sieci wymagają coraz mniejszej liczby parametrów dla większych i bardziej złożonych danych. Inne nowsze metody również wyraźnie starają się kompresować sieć.

Kolejnym krytycznym problemem związanym z ograniczeniem uczenia się jest przycinanie. Przycinanie sieci neuronowej ma na celu usunięcie synaps i komórek nerwowych, które nie mają wartości dla wydajności sieci. Dzięki przycinaniu sieci mogą utrzymać swoją wydajność.

Wszystkie te wysiłki mają na celu kompresję i miniaturyzację modeli, które mają być wdrażane na urządzeniach konsumenckich, takich jak smartfony.

Te rozważania sprawiły, że system Google Neural Machine Translation (GNMT) poprawił wydajność usługi Tłumacz Google. Dziś jest to więc usługa o dużej dokładności tłumaczenia, z której można korzystać nawet offline.

Dziś część badań nad głębokim uczeniem się koncentruje się wokół uczenia się dedukcyjnego i starają się zastosować najlepsze kryteria wydajności dla konkretnego problemu, aby proces tworzenia modelu przebiegł jak najlepiej.

Konieczne jest zmniejszenie obciążenia modeli; na przykład wrogie dane wejściowe, o których wspominaliśmy wcześniej, to złośliwe dane wejściowe zaprojektowane w celu oszukania sieci. Na przykład farba w sprayu lub naklejki na znakach mogą nakłonić samochody autonomiczne do przekroczenia prędkości. Aby rozwiązać ten problem, upewnij się, że model może zinterpretować i zrozumieć rzeczy, które mogą nie być uwzględnione w zbiorze danych.

ostatnie słowo

Nauczanie mieszane ma na celu przekroczenie granic uczenia się pod nadzorem i bez nadzoru. Metody takie jak uczenie się częściowo nadzorowane i samonadzorowane mogą wydobyć cenne spostrzeżenia z nieoznakowanych danych i pomóc nam efektywniej i optymalnie wykorzystywać dane bez nadzoru.

W miarę jak zadania stają się coraz bardziej złożone, nauczanie mieszane dzieli je na prostsze komponenty. Kiedy te elementy współpracują ze sobą lub kontrastują, efektem jest mocny i wydajny model.

Na obecnym etapie uczeniu się ograniczonemu nie poświęca się zbyt wiele uwagi, ponieważ oczy są skierowane na głębokie zrozumienie. Jednak wkrótce, gdy paradygmaty będą skłaniać się ku projektowaniu opartemu na wdrożeniu, będziemy świadkami rozwoju badań w tej dziedzinie.

Pobierz motywy WordPressBezpłatne pobieranie motywów WordPressPobierz motywy WordPress za darmoPobierz zerowe motywy WordPresskurs udemy do pobrania za darmopobierz oprogramowanie SamsungaPobierz bezpłatne motywy WordPress Premiumdarmowy płatny kurs Udemy do pobrania