Najprostszym mechanizmem, którego używają ludzie do komunikowania się ze sobą, jest rozmowa. Rozpoznawanie mowy jest podzbiorem lingwistyki obliczeniowej. W świecie technologii informatycznych rozpoznawanie mowy odnosi się do zdolności systemów do rozumienia ludzkich rozmów, przetwarzania, interpretowania i przekształcania mowy na tekst.
Automatyczne rozpoznawanie mowy. Podkategoria ta jest związana z technologiami odbierającymi i analizującymi dane audio jako dane wejściowe. Rozpoznawanie mowy to jedna z najważniejszych technologii, nad którą pracują duże firmy.
Jak wspomniano, rozpoznawanie mowy to proces, dzięki któremu program komputerowy rozumie znaczenie i koncepcję mowy w świecie cyfrowym. Algorytmy rozpoznawania mowy pozwalają użytkownikom używać mowy jako prostego i wydajnego mechanizmu komunikacji do interakcji z inteligentnymi aplikacjami.
Automatyczne rozpoznawanie mowy (ASR) technologia, tytuł Automatyczne rozpoznawanie mowy, jest starożytny i poczynił znaczne postępy. Aby aplikacje lepiej niż dotychczas rozumiały mowę i zapewniały bardziej humanitarne odpowiedzi, wszystkie te osiągnięcia zostały osiągnięte dzięki dużym zbiorom danych i wydajnemu przetwarzaniu. Nie należy jednak zapominać o roli potężnych procesorów w analizowaniu informacji. Interakcje głosowe i wyszukiwanie za pomocą smartfonów za pomocą narzędzi takich jak Apple Siri, Microsoft Bing na platformie Windows, Google Now w systemie operacyjnym Android oraz sterowanie głosowe za pomocą technik takich jak Amazon Alexa i Google Home – wszystko to pracuje nad przetwarzaniem informacji o użytkownikach i przemówienie.
Automatyczne rozpoznawanie mowy wykorzystuje algorytm programu komputerowego; konwertuje sygnały lub dźwięki audio na serię słów. Te inteligentne algorytmy oparte na aplikacjach i produktach sprzętowych, będąc w stanie rozumieć mowę, mogą korygować błędy ortograficzne i komunikować się z użytkownikami domowymi w domu, a nawet w samochodzie, ponieważ otrzymują oni polecenia głosowe. Są one konwertowane na kody wykonywalne, które wykonują określone funkcje, takie jak włączanie i wyłączanie świateł, otwieranie i zamykanie drzwi, sterowanie urządzeniami i tym podobne. We wszystkich tych przypadkach nie musisz używać rąk i oczu; wszystko odbywa się poprzez przetwarzanie mowy, co jest doskonałą zaletą dla osób niepełnosprawnych fizycznie. W dalszej części zapoznamy się z najsłynniejszymi algorytmami ASR, które zrewolucjonizowały dziedzinę rozpoznawania mowy i które wykorzystują specjaliści sztucznej inteligencji przy projektowaniu aplikacji.
Podejście akustyczno-fonetyczne
Metoda akustyczno-fonetyczna opiera się na fonetyce akustycznej. Stwierdza, że język mówiony ma skończone i odrębne jednostki fonetyczne; dlatego właściwości akustyczne jednostek fonetycznych ujawniają się w czasie w sygnale mowy lub jego widmie. Metoda akustyczno-fonetyczna rozpoczyna się od analizy widmowej mowy, a następnie koncentruje się na rozpoznawaniu i rozpoznawaniu dźwięków, aby przekształcić właściwości widmowe w unikalne właściwości fonetyczne. Po wykonaniu tego kroku nadszedł czas na rozdzielenie i etykietowanie. Sygnał mowy jest dzielony na stabilne obszary akustyczne, a do każdego podzielonego obszaru przypisany jest jeden lub więcej znaczników fonetycznych, określając w ten sposób charakterystykę zestawu dźwięków związanych z mową. Po utworzeniu sekwencji posegmentowanych i oznaczonych dźwięków, w ostatnim procesie powstają znaczące słowa lub frazy.
Metoda rozpoznawania wzorców
Uczenie i porównywanie wzorców to dwa niezbędne kroki w dopasowywaniu wzorców. Na etapie porównywania wzorców niejednoznaczne i niejasne wypowiedzi są bezpośrednio porównywane z dowolnym wzorcem uzyskanym na etapie szkolenia, aby zidentyfikować niejasną mowę na podstawie bliskości praktyki. Powyższa metoda wykorzystuje ramy matematyczne, a dokładniej zestaw reguł matematycznych, aby utworzyć zintegrowaną reprezentację wzorca mowy w oparciu o zestaw oznaczonych przykładów instruktażowych. Celem jest, aby proces porównywania i dopasowywania wzorców charakteryzował się najwyższą niezawodnością. Rozpoznawanie wzorców może klasyfikować dane wejściowe w znane klasy poprzez wyodrębnianie istotnych cech lub atrybutów. Klasa szablonowa to kategoria wyróżniająca się pewnymi wspólnymi cechami i cechami. Charakterystyką klasy wzorców są atrybuty typu wspólne dla wszystkich wzorców w tej klasie. Atrybuty wyrażające różnice pomiędzy klasami szablonów są często określane jako atrybuty wzorca zainteresowań. Szablon to opis elementu kategorii, który udostępnia klasę szablonu. W większości przypadków, dla wygody, wzory są reprezentowane przez wektor. Dopasowywanie wzorców jest najsłynniejszą metodą rozpoznawania mowy od sześciu dekad.
Podejście oparte na sztucznej inteligencji
Podejście oparte na sztucznej inteligencji wykorzystuje kombinację metod akustyczno-fonetycznych, rozpoznawania wzorców i koncepcji związanych z powyższymi dwiema metodami. W automatyczne rozpoznawanie mowyistnieją dwie główne metody dopasowywania wzorców: standardowe dopasowywanie wzorców przy użyciu dynamicznych krzywych czasu (mechanizm dopasowywania czasu zajętości) i losowe dopasowywanie wzorców przy użyciu ukrytych modeli Markowa.
Następnie w powyższej metodzie jeden lub więcej wzorców reprezentuje klasy, które powinny zostać zidentyfikowane w oparciu o mechanizm dynamicznego dopasowania czasu (DTW). Ponadto, aby poprawić rozpoznawanie przez model wymowy i konwersacji, w każdej klasie stosuje się więcej niż jeden wzorzec odniesienia, aby przeprowadzić proces identyfikacji z najniższym poziomem błędów. Obliczana jest odległość pomiędzy odebraną sekwencją mowy a wzorcami klasowymi w momencie identyfikacji. Mechanizm dynamicznego dopasowywania czasu to rozwiązanie, które identyfikuje optymalne dopasowanie między dwiema liniami czasu z określonymi ograniczeniami i rozwiązuje niedopasowanie między wzorcami eksperymentalnymi i referencyjnymi. Sekwencje są zakrzywiane na osi czasu w celu uzyskania kryterium ich podobieństwa niezależnego od nieliniowych zmian na osi czasu. Ta metoda dopasowania sekwencji jest czasami stosowana w klasyfikacji szeregów czasowych. Zazwyczaj ta metoda rozpoznaje słowa kluczowe w pliku mowy w oparciu o tryb ciągły i dyskretny. W obu przypadkach rozpoznawania słów kluczowych w mowie stałej i dyskretnej stosuje się metodę dynamicznego dopasowywania czasowego, która różni się od stosowanych współcześnie systemów opartych na modelu ukrytym Markowa. Rozpoznawanie słów kluczowych w trybie ciągłym odpowiadającym dynamicznemu dopasowaniu czasowemu jest podstawową metodą obliczania podobieństwa dwóch sekwencji zmieniających się w czasie. Na etapie przetwarzania sygnał mowy jest dzielony na krótkie ramki, przy czym każda ramka jest reprezentowana jako skwantowany wektor cech. W przypadku dyskretnego rozpoznawania słów kluczowych wektory cech są wyodrębniane z różnych próbek określonego słowa kluczowego wyrażonego przez jednego lub więcej mówców i mają różną długość. Jako próbkę referencyjną wybierane jest słowo z najkrótszą odległością. Następnie identyfikowana jest ścieżka dopasowania z próbką referencyjną i innymi próbkami. Na podstawie tej ścieżki konstruowane są wymiary macierzy cech różnych próbek na podstawie próbki referencyjnej. W nowoczesnych systemach metoda dopasowywania wzorców modelu ukrytego Markowa jest preferowana od dynamicznego dopasowywania czasowego, ponieważ lepiej obsługuje funkcje, które można uogólnić i wymaga mniej pamięci.
Generatywne podejście do uczenia się
Ukryte modele Markowa oparte na mieszaninie Gaussa są najpowszechniejszą metodą produktywnego uczenia się w systemach rozpoznawania mowy ASR i są stosowane od dawna. Model mieszany Gaussa jest jednym z najpopularniejszych algorytmów grupowania. Algorytm grupowania hybrydowego Gaussa zakłada, że każdy klaster danych jest generowany w oparciu o (standardowy) rozkład Gaussa, a dane są przykładem mieszanego rozkładu Gaussa. Model ten szacuje parametry rozkładu każdego klastra i oznacza obserwacje. W ten sposób określa się, do której kolekcji należy dany komentarz.
W powyższej metodzie mowę można szacować jako proces statyczny w skali krótkotrwałej. Ponieważ sygnał mowy może być postrzegany jako niekompletny lub krótkotrwały sygnał statyczny, w rozpoznawaniu mowy wykorzystywane są ukryte modele Markowa. Każdy ze stanów modelu ukrytego Markowa jest widmową reprezentacją fali dźwiękowej reprezentowanej przez mieszany model Gaussa. Hybrydowy model Gaussa reprezentowany jest przez sekwencyjną strukturę sygnałów mowy opartą na ukrytym modelu Markowa.
Chociaż podejście Markowa do ukrytego modelu mieszanego Gaussa stało się standardem w branży automatycznego rozpoznawania mowy, ma ono swoje zalety i wady. Utajone modele Markowa są interesujące dla ekspertów, ponieważ mogą łatwo wykrywać i kontrolować sekwencje danych ze zmiennymi podłużnymi w oparciu o zmieniającą się kolejność słów, szybkość mowy i akcent. Systemy rozpoznawania mowy oparte na ukrytym mieszanym modelu Gaussa Markowa są proste i zautomatyzowane. Jednak jedną z wad hybrydowych modeli Gaussa jest to, że statystycznie modelowanie danych na rozmaitości nieliniowej lub w jej pobliżu w przestrzeni danych jest nieefektywne.
Uczenie się dyskryminacyjne
Model odróżniający się od produktywnego to odrębny paradygmat uczenia się. W latach 90. XX wieku uwagę wielu ekspertów przykuło zastosowanie wielowarstwowych sieci neuronowych perceptronowych (MLP) z nieliniową funkcją softmax w warstwie końcowej. Kiedy wynik wielowarstwowego perceptronu zostanie wstawiony do ukrytego modelu Markowa, możliwe jest utworzenie doskonałego modelu odrębnej sekwencji lub kombinacji MLP-HMM, ponieważ wynik można zinterpretować jako prawdopodobieństwo warunkowe. Naukowcy przeprowadzili wiele badań w tej dziedzinie, dzięki czemu wielowarstwowa perceptronowa sieć neuronowa może szybko wygenerować podzbiór cech w połączeniu ze starymi i tradycyjnymi częściami generatora ukrytego modelu Markowa. Pod koniec lat 80. sieci neuronowe trenowano za pomocą mechanizmu propagacji wstecznej (algorytm w dziedzinie uczenia się regulacji sieci neuronowych wykorzystujący gradient redukcyjny). W tej metodzie obliczany jest kąt funkcji błędu względem wag sieci neuronowej dla sztucznej sieci neuronowej i określonej funkcji błędu. W przeciwieństwie do ukrytego modelu Markowa sieci neuronowe nie mają pojęcia o statystycznych właściwościach właściwości. Stały się najpopularniejszą metodą modelowania akustycznego do rozpoznawania mowy.
Głęboka nauka
Uczenie głębokie, znane również jako uczenie się oparte na funkcjach bez nadzoru lub uczenie się poprzez reprezentację, to stosunkowo nowa gałąź uczenia maszynowego. Głębokie uczenie szybko staje się standardową technologią rozpoznawania mowy i z powodzeniem zastąpiło takie metody, jak mieszanka Gaussa do rozpoznawania mowy i kodowanie cech na dużą skalę. Architektury głębokiego generowania mogą najpierw zidentyfikować właściwości korelacji lub partycypacyjnych rozkładów statystycznych z widocznymi danymi i powiązanymi klasami. Tutaj prawo Bayesa może posłużyć do skonstruowania tego typu charakterystycznej architektury. W tym celu można wykorzystać głębokie automatyczne kodery, głębokie maszyny Boltzmanna, sieci Sum-Product, Deep Belief Network itp.
Celem jest uczynienie interakcji cyfrowej z cyfrowej i nieelastycznej, tak aby systemy mogły zrozumieć znaczenie naszych zdań i reagować na nas jak ludzie. Narzędzia do rozpoznawania scen są wykorzystywane do różnych zadań, takich jak pisanie wiadomości tekstowych, odtwarzanie muzyki, korzystanie z wirtualnych asystentów itp.
Pobierz zerowe motywy WordPressPobieranie premium motywów WordPressPobieranie premium motywów WordPressPobieranie premium motywów WordPressbezpłatny kurs onlinepobierz oprogramowanie intexPobierz bezpłatne motywy WordPress Premiumdarmowy kurs Udemy do pobrania