Google potwierdził, że wprowadził ważne zmiany w jednym z filmów demonstracyjnych Gemini. W środę ujawniono najnowszy model językowy firmy wykorzystujący sztuczną inteligencję (AI) (6).
Uznano to za najbardziej imponującą demonstrację Gemini. Jednak według , firma „zainscenizowała” większość tego, co widać na filmie, który pokazuje, jak użytkownik wchodzi w interakcję z Gemini za pomocą głosu, a sztuczna inteligencja rozpoznaje elementy narysowane na kartce papieru za pomocą kamery.
Nie oznacza to, że platforma nie jest w stanie rozpoznawać poleceń dźwiękowych, obrazowych i tekstowych, a także mieć złożone odpowiedzi na zadawane pytania. Jednak w rzeczywistym użyciu sztucznej inteligencji interakcja nie jest tak płynna, jak pokazano na filmie.
Co Google zmieniło w demie Gemini
Jak wynika z raportu Bloomberga, w opisie demonstracji Gemini na YouTube pojawił się już tekst sugerujący zmiany. „Na potrzeby tej wersji demonstracyjnej zmniejszono opóźnienia, a odpowiedzi Gemini skrócono w celu zapewnienia zwięzłości”głosi wiadomość.
Kiedy jednak skontaktowano się z nią później, firma potwierdziła, że w programie wyemitowanym wprowadzono więcej zmian. Prawdę mówiąc, polecenia głosowe pokazane na filmie zostały wydane za pomocą tekstu. Ponadto, Bliźnięta otrzymały statyczne obrazy obiektów jako materiał wizualnya nie wideo w czasie rzeczywistym.
„Narracja użytkownika obejmuje rzeczywiste fragmenty podpowiedzi, które faktycznie wykorzystano do wygenerowania odpowiedzi Gemini, które widziałeś” – mówi rzecznik firmy. Oznacza to, że w praktyce polecenia głosowe i interakcja w czasie rzeczywistym podczas filmu po prostu nie istniały tak jak to zostało pokazane.
Jeśli chodzi o opóźnienia, prawdopodobne jest, że w praktyce Przygotowanie i wydanie każdej odpowiedzi Gemini zajmuje kilka sekund. Klip sugeruje natomiast, że wszystko dzieje się niemal w czasie rzeczywistym, jakby była to naturalna rozmowa z drugim człowiekiem.
Zapytany o inscenizację przez , Google odpowiedział w oświadczeniu wiceprezesa DeepMind ds. badań i odpowiedzialnego za projekt, Oriola Vinyalsa. Post ukazał się na X, starym Twitterze.
Naprawdę cieszę się, że widzę zainteresowanie naszym filmem „Praktyczne zajęcia z Bliźniakami”. Wczoraj na naszym blogu programistów omówiliśmy, w jaki sposób Gemini został wykorzystany do jego stworzenia. https://t.co/50gjMkaVc0
Daliśmy Gemini sekwencje o różnych modalnościach – w tym przypadku obraz i tekst – i poprosiliśmy o reakcję… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) 7 grudnia 2024 r
Według badacza, tylko wideo „ilustruje, jak mogłyby wyglądać multimodalne doświadczenia użytkowników zbudowane za pomocą Gemini” a firma nakręciła klip „inspirować programistów”.
Niektóre z pierwszych testów z chatbotem Bard z wbudowanym Gemini również nie zostały dobrze przyjęte przez społeczność, która zgłaszała błędne odpowiedzi i niekompletną treść. Google obiecał aktualizacje i bardziej zaawansowana wersja platformy na przyszły rok.