Google przygotowuje sztuczną inteligencję (AI) zdolną do zrozumienia kontekstu zapisów zapisanych w Zdjęciach Google – podała gazeta CNBC. Model o nazwie „Projekt Ellman” byłby w stanie zrozumieć treść obrazu na podstawie twarzy i osób zawartych na ujęciach.
Modelka byłaby w stanie wyciągnąć kontekst z biografii, starszych lub nowszych zapisów, aby zrozumieć, co dzieje się na każdym ze zdjęć i opisać scenariusz.
W praktyce Project Ellman potrafił określić, kiedy zdjęcie przedstawia spotkanie starych przyjaciół ze studiów, romantyczne spotkanie, określić wiek zaangażowanych osób i wydedukować historie stojące za schwytaniem. Nawet zrzuty ekranu mogą zostać ocenione przez sztuczną inteligencję, która będzie próbowała zrozumieć powód rejestracji.
Według źródła CNBC Google zrozumiałby, że modele multimodalne są idealne dla tego typu narzędzia. Firma zaprezentuje nową funkcję w postaci chatbota, który wie wszystko o Twoim życiu, niczym prawdziwy osobisty wirtualny asystent.
Na jednym z prezentowanych slajdów chatbot był w stanie zidentyfikować preferencje żywieniowe użytkownika, zarezerwowane wycieczki i zainteresowania na podstawie multimediów zapisanych na jego telefonie komórkowym. Chatbot potrafił nawet identyfikować ulubione strony internetowe, aplikacje i sieci społecznościowe na podstawie wydruków.
Projekt Ellman jest testowany w Google
Na razie Projekt Ellman przechodziłby wewnętrzne testy prowadzone przez zespół Zdjęć Google.
„Zdjęcia Google zawsze korzystały ze sztucznej inteligencji, aby pomóc ludziom wyszukiwać zdjęcia i filmy, więc jesteśmy podekscytowani potencjałem LLM w zakresie odblokowywania jeszcze bardziej przydatnych funkcji. To była wczesna eksploracja wewnętrzna i jak zawsze, jeśli zdecydujemy się opublikować nowe funkcji, poświęcimy niezbędny czas, aby upewnić się, że są one przydatne dla ludzi i mają na celu ochronę prywatności i bezpieczeństwa użytkowników, co jest dla nas najwyższym priorytetem” – powiedział rzecznik serwisu.
Biorąc pod uwagę, że Google wolniej wprowadza narzędzia AI, możliwe jest, że prace nad „Projektem Ellman” jeszcze potrwają. W każdym razie odkrycie pokazuje bardzo interesujący potencjał modeli multimodalnych.