Asystenci głosowi i inne technologie rozpoznawania mowy w dalszym ciągu zapewniają bardziej osobiste doświadczenia i poprawiają rozróżnianie dźwięków.
Technologia rozpoznawania mowy umożliwia sterowanie smartfonami, głośnikami, a nawet pojazdami w różnych językach bez użycia rąk. Jest to rozwiązanie, o którym marzyliśmy od dziesięcioleci i nad którym pracowaliśmy, aby uczynić nasze życie łatwiejszym i bezpieczniejszym.
Historia technologii rozpoznawania mowy
Rozpoznawanie mowy jest cenne, ponieważ oszczędza czas i pieniądze konsumentów i firm.
Średnia prędkość pisania na komputerze stacjonarnym wynosi około 40 słów na minutę. Wskaźnik ten nieznacznie maleje w przypadku pisania na smartfonach i urządzeniach mobilnych.
Możemy jednak zebrać od 125 do 150 słów na minutę dotyczących mowy. To gwałtowny wzrost. W ten sposób rozpoznawanie mowy pomaga nam szybciej wykonywać zadania – niezależnie od tego, czy tworzymy dokument, czy rozmawiamy z automatycznym przedstawicielem obsługi klienta.
Istotą technologii rozpoznawania mowy jest język naturalny, który inicjuje działanie. Nowoczesna technologia mowy rozpoczęła się w latach pięćdziesiątych XX wieku i rozwijała się przez dziesięciolecia.
- Lata pięćdziesiąte: Bell Labs opracowuje Audrey, system zdolny do wykrywania liczb od 1 do 9, które mówią jednym głosem.
- W latach sześćdziesiątych IBM opracował pudełko na buty, które potrafi rozpoznać i rozróżnić 16 mówionych angielskich słów.
- Lata 70. XX w.: Prowadzi to do systemu Harpia firmy Carnegie Mellon, który może obsłużyć ponad 1000 słów.
- Lata 90.: pojawienie się komputerów osobistych oznacza szybsze procesory i otwiera drzwi do technologii dyktowania. Bell został ponownie wybrany za pomocą interaktywnych systemów rozpoznawania głosu.
- Lata 2000: rozpoznawanie mowy osiąga 80% dokładności, a potem głos Google wkracza na scenę, udostępniając technologię milionom użytkowników i umożliwiając Google gromadzenie cennych danych.
- 2010: Apple wprowadza Siri, a Amazon wprowadza na rynek usługę Alexa, aby konkurować z Google. Ci trzej duzi nadal rządzą.
Dzisiejsze wiodące systemy rozpoznawania mowy – Google Assistant, Amazon Alexa i Apple Siri – bez pierwszych pionierów, którzy utorowali drogę, nie byłyby tam, gdzie są dzisiaj.
Dzięki integracji nowych technologii, takich jak przetwarzanie w chmurze i ciągłemu doskonaleniu dzięki gromadzeniu danych dotyczących mowy, te systemy mowy stale doskonalą swoją zdolność „słyszenia” i rozumienia szerszej gamy słów, języków i akcentów .
Jak działa rozpoznawanie głosu?
Teraz, gdy jesteśmy otoczeni inteligentnymi samochodami, inteligentnym sprzętem AGD i asystentami głosowymi, łatwo jest zobaczyć, jak działa technologia rozpoznawania mowy.
Dlaczego?
Ponieważ prostota rozmowy z asystentami cyfrowymi jest myląca, rozpoznawanie głosu jest skomplikowane nawet teraz.
Pomyśl o tym, jak dzieci uczą się języka. Od pierwszego dnia słyszą słowa używane wokół nich. Rodzice mówią, a dzieci słuchają. Dziecko przyswaja różnorodne sygnały werbalne: ton, fleksję, składnię i wymowę. Ich mózgi mają za zadanie rozpoznawać złożone wzorce i komunikację w oparciu o sposób, w jaki rodzice używają języka.
Ale choć ludzki mózg jest wyposażony w przewody umożliwiające odbieranie mowy, twórcy systemów rozpoznawania mowy muszą sami je wytworzyć.
Wyzwanie polega na stworzeniu mechanizmu nauki języków. Należy jednak wziąć pod uwagę tysiące języków, dialektów i dialektów. Nie oznacza to, że nie robimy postępów. Na początku 2020 r. badacze Google będą mogli w końcu przewyższyć ludzkie możliwości w szerokim zakresie zadań związanych ze zrozumieniem języka.
Zaktualizowany model Google działa teraz poprzez tagowanie zdań i znajdowanie właściwej odpowiedzi na lepsze ludzkie pytanie.
Podstawowe etapy działania technologii rozpoznawania mowy są następujące:
Mikrofon przekazuje wibracje ludzkiego głosu na falowy sygnał elektryczny. Sygnał ten z kolei jest konwertowany na sygnał cyfrowy przez sprzęt systemowy – na przykład kartę dźwiękową komputera.
Oprogramowanie do rozpoznawania mowy analizuje sygnały cyfrowe w celu zarejestrowania fonemów, jednostek dźwiękowych odróżniających jedno słowo od drugiego w danym języku. Zjawiska rekonstruowane są w formie słów. Aby wybrać właściwe słowo, program musi opierać się na symbolach kontekstowych, co odbywa się poprzez analizę trygramową.
Metoda ta opiera się na bazie danych powtarzających się skupień trzech słów, w których przypisuje się prawdopodobieństwa, po których następują oba słowa z określonym trzecim słowem.
Pomyśl o przewidywaniu tekstu na klawiaturze telefonu. Prostym przykładem może być wpisanie „Jak się masz”, a na telefonie „ty?” Wskazuje. Jednak im częściej go używasz, tym lepiej rozpoznaje Twoje pragnienia i sugeruje powszechnie używane zwroty.
Oprogramowanie do rozpoznawania mowy analizuje nagrany dźwięk mowy na poszczególne dźwięki, analizuje każdy dźwięk, wykorzystuje algorytmy w celu znalezienia najbardziej odpowiedniego słowa w danym języku i transkrybuje te dźwięki na tekst.
W jaki sposób firmy rozwijają technologię rozpoznawania mowy?
Wiele zależy od tego, co próbujesz osiągnąć i ile jesteś skłonny zainwestować.
Nie ma potrzeby zaczynać od zera w kodowaniu i uzyskiwaniu danych mowy, ponieważ wiele z tych pól jest dostępnych i można je wykorzystać.
Można na przykład dotknąć interfejsów programowania aplikacji biznesowych (API) i uzyskać dostęp do ich algorytmów rozpoznawania mowy. Problem w tym, że nie można ich regulować.
Zamiast tego może być konieczne poszukanie zbioru danych głosowych, do którego można szybko i skutecznie uzyskać dostęp za pośrednictwem łatwego w użyciu interfejsu API, takiego jak:
- Interfejs API mowy na tekst z Google Cloud
- Automatyczne rozpoznawanie mowy (ASR) firmy Nuance
- Interfejs API mowy do tekstu IBM Watson
Następnie możesz projektować i rozwijać oprogramowanie dostosowane do Twoich potrzeb. Na przykład możesz kodować algorytmy i moduły za pomocą języka Python.
Regionalne akcenty i zaburzenia mowy mogą zakłócać działanie platform rozpoznawania słów, a hałas tła może być trudny do przeniknięcia, nie mówiąc już o wejściu polifonicznym. Innymi słowy, rozumienie mowy jest znacznie większym wyzwaniem niż zwykłe rozpoznawanie dźwięków.
Oto różne modele użyte do zbudowania systemu rozpoznawania mowy:
- Akustyka: Weź kształt fali mowy i podziel go na małe kawałki, aby przewidzieć najbardziej prawdopodobne fonemy w mowie.
- Wymowa: Weź dźwięki i połącz je, tworząc słowa, łącząc słowa z ich reprezentacją fonetyczną.
- Język: Weź słowa i połącz je ze sobą, aby utworzyć zdanie, czyli przewiduj najbardziej prawdopodobną sekwencję słów (lub ciągów tekstowych) spośród kilku zestawów ciągów tekstowych.
Algorytmy mogą także łączyć przewidywania modeli akustycznych i językowych tak, aby na wyjściu zapewnić najbardziej prawdopodobny ciąg tekstowy dla wejścia danego pliku mowy.
Aby jeszcze bardziej podkreślić to wyzwanie, systemy rozpoznawania mowy muszą być w stanie rozróżniać homofony (słowa o tej samej wymowie, ale różnych znaczeniach), aby poznać różnicę między określonymi literami a oddzielnymi słowami. Jednak to dokładność rozpoznawania mowy decyduje o tym, czy asystenci głosowi staną się dodatkiem.
Jak asystenci głosowi wprowadzają rozpoznawanie mowy do codziennego życia
Technologia rozpoznawania mowy rozwinęła się dramatycznie na początku XXI wieku i powróciła do domu.
Spójrzmy na niektóre z wiodących opcji.
Siri Apple
Apple Siri pojawił się jako pierwszy popularny asystent głosowy po pierwszym popularnym asystencie głosowym w 2011 roku. Od tego czasu asystent jest zintegrowany ze wszystkimi iPhone’ami, iPadami, Apple Watch, HomePod, Mac i Apple TV.
Siri jest nawet używana jako kluczowy interfejs użytkownika w systemie informacyjno-rozrywkowym CarPlay firmy Apple oraz bezprzewodowych słuchawkach AirPad i HomePod Mini. Siri jest z Tobą, gdziekolwiek się udasz. W drodze, w domu, a dla niektórych dosłownie na ciele. Dało to Apple ogromną przewagę pod względem wczesnej akceptacji.
Naturalnie bycie najszybszym często oznacza uzyskanie większej przewagi reklamowej w przypadku występu, który może nie działać tak dobrze, jak oczekiwano.
Chociaż Apple świetnie rozpoczął pracę z Siri, wielu użytkowników skarżyło się na oczywistą niezdolność do prawidłowego rozumienia i interpretowania poleceń głosowych. Jeśli poprosisz Siri, aby wysłała SMS-a lub zadzwoniła, może to z łatwością zrobić. Jednak podczas interakcji z aplikacjami innych firm Siri była nieco silniejsza od swoich konkurentów.
Ale dzisiaj użytkownik iPhone’a może powiedzieć: „Hej, Siri, chcę jechać na lotnisko” lub „Hej, Siri, zamów mi samochód”, a Siri otworzy dowolną aplikację, którą masz w telefonie i zarezerwuje podróż.
Skoncentrowanie się na zdolności systemu do obsługi kolejnych pytań, tłumaczenia języka i zmiany głosu Siri na ludzki pomaga poprawić komfort użytkowania asystenta głosowego. Od 2021 roku Apple wyprzedza swoich konkurentów pod względem dostępności w poszczególnych krajach, a tym samym rozumie szereg zagranicznych akcentów. Siri jest dostępna w ponad 30 krajach i 21 językach – a w niektórych przypadkach w kilku różnych dialektach.
Amazon-Alexa
W 2014 roku Amazon przedstawił światu Alexę i Echo, rozpoczynając erę inteligentnych głośników.
Alexa jest teraz w słuchawkach Echo, Echo Show (tablet ze sterowaniem głosowym), Echo Spot (budzik sterowany głosem) i słuchawek Echo Buds (wersja Apple AirPods firmy Amazon).
W przeciwieństwie do Apple, Amazon zawsze wierzył, że najbardziej „wykwalifikowany” asystent głosowy (termin określający aplikacje audio na urządzeniach z asystentem echo) „nawet jeśli czasami popełni błąd i będzie się bardziej starał go używać, fani” „Lojalni wygrają”.
Chociaż niektórzy użytkownicy postrzegają słowo Alexa jako cień za innymi platformami audio, dobrą wiadomością jest to, że Alexa z czasem dostosowuje się do Twojego głosu i naprawia problemy, jakie może mieć z Twoim konkretnym akcentem lub akcentem.
Jeśli chodzi o umiejętności, zestaw Amazon Alexa Skills Kit (ASK) może być tym, co uczyniło Alexę tak realną platformą. ASK umożliwia zewnętrznym programistom tworzenie aplikacji i korzystanie z mocy Alexa bez potrzeby natywnego wsparcia. Alexa wyprzedziła konkurencję, integrując inteligentne urządzenia domowe, takie jak kamery, zamki do drzwi, systemy rozrywki, oświetlenie i termostaty.
Asystent Google
Ilu z nas powiedziało lub usłyszało „pozwól mi to wyszukać w Google”? Wygląda na to, że prawie wszyscy. W tym przypadku logiczne jest, że Asystent Google będzie odpowiedzią na (i zrozumie) wszystkie pytania, jakie mogą mieć jego użytkownicy.
Od prośby o tłumaczenie frazy na inny język do innych, Asystent Google reaguje poprawnie, podaje dodatkowy kontekst i cytuje źródłową witrynę internetową w celu uzyskania informacji.
Biorąc pod uwagę, że obsługuje to zaawansowana technologia wyszukiwania Google, może to być zaskakujące ostrzeżenie.
Chociaż Amazon Alexa (via Echo) została wypuszczona dwa lata wcześniej niż Google Home, Google przeszedł długą drogę, aby dotrzeć do Alexy w bardzo krótkim czasie. Google Home został wydany pod koniec 2016 roku i już po roku dał się poznać jako najważniejszy konkurent Alexy.
W 2017 r. dokładność słów w języku angielskim w USA wynosiła 95%, co stanowi najwyższy wynik spośród wszystkich dostępnych obecnie asystentów głosowych. Przekłada się to na współczynnik błędów w słowie na poziomie 4,9%, co plasuje Google na pierwszym miejscu w progu 5%.
Jednak współczynnik błędu słowa ma swoje ograniczenia. Na dane wpływają takie czynniki jak:
- Dźwięk w tle
- Wzajemna dyskusja
- Akcenty
- Rzadkie słowa
- Tekst napisany
Są one jednak bliskie 0% i to jest znaczące.
Gdzie jeszcze technologia rozpoznawania mowy jest powszechna?
Asystenci głosowi to jedyny mechanizm, dzięki któremu postęp w rozpoznawaniu mowy staje się głównym nurtem. Tutaj jest tylko jeden ważny punkt.
Rozpoznawanie mowy w samochodzie
Aktywatory głosowe i cyfrowi asystenci głosowi mają nie tylko ułatwiać pracę. Dotyczą one także bezpieczeństwa – przynajmniej jeśli chodzi o rozpoznawanie mowy w samochodzie.
Firmy takie jak Apple, Google i Nuance całkowicie zmieniły komfort jazdy kierowcy w swoich pojazdach – aby wyeliminować odwracanie uwagi spowodowane patrzeniem na telefon komórkowy podczas jazdy, umożliwić kierowcom skupienie się na drodze.
Zamiast pisać SMS-y podczas jazdy, możesz teraz powiedzieć swojemu samochodowi, do kogo zadzwonić lub do której restauracji się udać. Zamiast przewijać Apple Music w poszukiwaniu ulubionej playlisty, możesz poprosić Siri o jej odnalezienie i odtworzenie.
Pobierz motywy WordPressPobieranie premium motywów WordPressPobierz motywy WordPressBezpłatne pobieranie motywów WordPressdarmowy kurs Udemy do pobraniapobierz oprogramowanie lawyPobieranie premium motywów WordPresspłatny kurs udemy do pobrania za darmo