Uwaga: Poniższy artykuł pomoże Ci w: Jak używać sztucznej inteligencji do tworzenia obrazów wszystkiego, co możesz sobie wyobrazić
Zaledwie kilka miesięcy temu, jeśli chciałeś stworzyć zdjęcie, musiałeś umieć szkicować, malować lub korzystać z jednego z narzędzi do obróbki zdjęć, o których mówią inni. Jednak po 2022 roku wszystko się zmieniło, wszystko dzięki sztucznej inteligencji – tak, jak w przypadku „sztucznej inteligencji”.
Zamiast próbować zdominować świat, artystyczne narzędzia sztucznej inteligencji mogą zamienić wszystko, co im opiszesz, w obraz.
WYKORZYSTAJ WIDEO DNIAPRZEWIŃ, ABY KONTYNUOWAĆ TREŚĆ
Chodź z nami, gdy wkraczamy w świat wizualizacji tekstu opartej na sztucznej inteligencji i zobacz, jak możesz użyć takich narzędzi do przekształcania swoich myśli w rzeczywiste obrazy, po prostu wpisując to, co masz na myśli.
Dall-E: Artystyczna strona GPT OpenAI3
Pierwsze narzędzia oparte na sztucznej inteligencji, które stały się popularne, były oparte na GPT-3. Jednym z powodów była otwartość projektu na dostęp z zewnątrz, co doprowadziło do pewnych sugestii, że GPT-3 to przyszłość pracy twórczej.
Dziś możesz korzystać z oficjalnych narzędzi, które można znaleźć w witrynie beta OpenAI lub z rozwiązań innych firm, które wykorzystują jego supermoce językowe. Możesz na przykład zapytać GPT-3 wymyślić szkic posta, odpowiedzieć na proste pytania, a nawet poprawić lub przetłumaczyć jakiś tekst.
W 2022 OpenAI ujawniło, że GPT-3 był równie dobry w tworzeniu obrazów. Projekt DALL-E, gra na podstawie filmu Pixar WALL-E i imienia Dali, wykorzystuje GPT-3 nie do pracy z tekstem, ale jako silnik do tworzenia obrazów.
Podobnie jak w przypadku GPT-3 i tekstu, DALL-E nie jest tak naprawdę kreatywnym geniuszem, materializującym obrazy z powietrza. Zamiast tego został „przeszkolony” na milionach obrazów, które już istnieją w Internecie. Jego moce sztucznej inteligencji polegają na analizie tych obrazów, pobieraniu z nich elementów, poprawianiu, przekształcaniu, dostosowywaniu i wreszcie łączeniu ich w nowe obrazy.
Przynajmniej jest to uproszczona wersja tego, co dzieje się w tle. Większości ludzi będzie zależeć tylko na tym, co widzą przed sobą, a jest to pole tekstowe, w którym można coś wpisać i zobaczyć, jak po kilku minutach zmieni się to w obraz.
Odpowiedź Google Imagen
Google jest jednym z trzech największych „graczy” w badaniach nad sztuczną inteligencją. Mimo to ich postępy nie są łatwo dostrzegalne, a ich implementacje w produktach nie są tak dostępne, jak oferty OpenAI.
Jedna z pierwszych powszechnie dostępnych implementacji sztucznej inteligencji Google pojawiła się w Dokumentach Google i Gmailu w postaci bardziej inteligentnego autouzupełniania i sugestii, znanych jako Inteligentne tworzenie. Nie będziemy zagłębiać się w szczegóły, ponieważ wcześniej omówiliśmy Smart Compose (i sposób, w jaki możesz z niego korzystać).
Kiedy te funkcje są aktywne, aplikacje internetowe Google porównują to, co pisze użytkownik, z tym, co miliony innych osób napisało w przeszłości. Następnie sugeruje, co wpisali później.
To dowód na to, że wbrew temu, w co lubimy wierzyć, wcale się tak bardzo nie różnimy. Jeśli 99 na 100 osób wpisze „później” po „do zobaczenia”, prawdopodobnie też będziemy pisać dalej.
Wszyscy używaliśmy jakiejś formy autouzupełniania, nawet z czasów systemu przewidywania tekstu T9 z ery „głupich telefonów”. Właśnie dlatego narzędzia sztucznej inteligencji Google nie wydawały się tak inteligentne jak GPT OpenAI3. Nie czuli się tak bardzo w użyciu, jak lepszy system T9 ulepszony na miarę XXI wieku. I właśnie dlatego ujawnienie Imagen było trochę szokujące.
Podobnie jak DALL-E na sterydach, Imagen jest narzędziem do wizualizacji tekstu. W oparciu o to, co jest obecnie dostępne, Imagen może tworzyć „czystsze” i bardziej żywe obrazy, wiedząc jednocześnie, jak radzić sobie z zaawansowanymi funkcjami, takimi jak dyfuzja i przezroczystość.
Niestety w chwili pisania tego tekstu dostęp do Imagen pozostaje ograniczony, więc nie mogliśmy go wypróbować.
DALL-E Mini i przyjaciele: otwarte dla biznesu
Nie masz swobodnego dostępu do DALL-E i Imagen — jeszcze. Mimo to dostępnych jest już wiele alternatyw, jeśli chcesz wygłupiać się przy generowaniu obrazów tekstowych opartych na sztucznej inteligencji.
Pamiętając, że są to wczesne dni, a wyniki lub wrażenia użytkownika, które oferują, mogą być dalekie od optymalnych, nadal warto sprawdzić niektóre z poniższych.
Tworzenie memów z Dall-E Mini
Dzięki połączeniu ponadprzeciętnych wyników i przyjaznego dla użytkownika interfejsu, ale przede wszystkim szerokiej dostępności, DALL-E mini stał się jednym z najpopularniejszych wizualizatorów tekstu AI.
Daleko od doskonałości, czasami wyniki DALL-E mini mogą być bardziej abstrakcyjne, niż zamierzano.
Innym razem może się nie udać stworzyć tego, co miałeś na myśli, ale może być całkiem blisko.
Po eksplozji popularności, twórcy DALL-E mini przenieśli go do nowego domu pod nową marką. Teraz możesz znaleźć najnowszą wersję DALL-E mini jako Craiyon na własnej stronie.
Korzystanie z Craiyon dzisiaj jest tak proste, jak wyszukiwanie online istniejącego obrazu. Możesz odwiedzić jego stronę, wpisać opis swojego zdjęcia w polu tekstowym i nacisnąć Enter. Po chwili zobaczysz wyniki na ekranie.
Uderzające jest to, jak dobrze Craiyon i podobne narzędzia radzą sobie z naśladowaniem stylów wizualnych. Na przykład poprosiliśmy go o wyczarowanie obrazów szczeniaka na deskorolce:
Następnie użyliśmy dokładnej frazy, ale dodaliśmy po niej „styl Pixara”. Po chwili Craiyon pokazał siatkę bardziej „kreskówkowych” obrazów, bliższych temu, co postrzegamy jako grafikę Pixara opartą na ray tracingu w ich ukochanych filmach.
Craiyon dał nam jeszcze lepsze wyniki, gdy w tym samym monicie zastąpiliśmy „styl Pixara” „stylem anime”.
Anime jest bardziej stylizowane w swoim wyglądzie niż bardziej realistyczne obrazy Pixara, co wydaje się pomóc Craiyonowi w stworzeniu prawie gotowych do użycia obrazów.
Wygłupianie się z ukrytą dyfuzją
Model Latent Diffusion przeszkolony na zbiorze danych LAION-400M to kolejny interesujący wizualizator tekstu AI. Jednak jest to również bardziej skomplikowane w użyciu. Musisz uruchomić go online na maszynie wirtualnej i bawić się jego różnymi parametrami, zamiast po prostu wpisywać w polu tekstowym. Mimo to jest to łatwiejsze niż się wydaje.
- Odwiedź przestrzeń współpracy Google Latent Diffusion, która obecnie jest jej domem.
- Przewiń nieco w dół i zwróć uwagę na Podpowiedź pole pod Parametry. Zastąp domyślny monit tym, co ma przedstawiać obraz.
- Wybierać Uruchom wszystko od Czas działania menu lub naciśnij KLAWISZ KONTROLNY + F9.
- Jeśli chcesz mieć możliwość eksportowania wyprodukowanych obrazów bezpośrednio z poziomu narzędzia, odpowiedz twierdząco na pytanie, czy chcesz połączyć je z kontem Google Drive. Narzędzie zajmuje trochę czasu, aby zakończyć konfigurację i musi pobrać niektóre pliki podczas tego procesu.
Zwiększanie wartości dla Kroki, iteracjeI Próbki_w_równoległych, może prowadzić do bardziej szczegółowych wyników. Narzędzie to jest jednak niezwykle wymagające pod względem zasobów na serwerach Google. W rezultacie może się zawiesić, jeśli za bardzo zwiększysz te wartości lub proces tworzenia określonego obrazu stanie się bardziej skomplikowany niż oczekiwano.
Ciekawe alternatywy
Spędziliśmy dużo czasu na testowaniu DALL-E mini i Latent Diffusion. Nasza metoda naukowa składała się z dwóch odrębnych części. Najpierw musieliśmy wymyślić koncepcje, które można by dokładnie określić jako szalone. Następnie poproś te wizualizatory AI o przekształcenie ich w obrazy. Częściej niż się spodziewaliśmy, udawało im się, zbliżając się do ogólnej konfiguracji, którą sobie wyobrażaliśmy.
Wypróbowaliśmy również niektóre z dostępnych alternatyw dla tego artykułu. Nadal czekamy na dostęp do innych. Niektóre z tych, które warto sprawdzić, to (kolejność przypadkowa):
Czy sztuka generowana przez sztuczną inteligencję zastąpi sztuki wizualne?
Obfitość i stale rosnąca popularność narzędzi do generowania obrazów opartych na sztucznej inteligencji prowadzi wielu do wniosku, że sztuki wizualne wkrótce umrą. Jaki jest sens inwestowania czasu i energii w naukę rysowania lub używania skomplikowanego oprogramowania do wizualizacji rzeczy, skoro sztuczna inteligencja może to zrobić szybciej (i wkrótce lepiej) niż ty?
Jak zauważyłeś, wszystkie te narzędzia są „uczone na zestawach danych”. W prostym języku oznacza to, że robią to, co robią, dzięki temu, że ludzie już wcześniej robili to samo.
To wskazówka, dlaczego te narzędzia nie mogą zastąpić ludzkiego artyzmu, kreatywności i pomysłowości. To naśladowcy, inteligentne replikatory. Bez wyprodukowanych przez człowieka oryginałów, na których są szkoleni, nie byliby w stanie wyprodukować żadnego produktu.
Jednak to jest teraz i przyznajemy, że nie wiemy, co przyniesie przyszłość. Na razie artyści wizualni mogą spać spokojnie. Jednak w tempie, w jakim sztuczna inteligencja ewoluuje, wielu specjalistów w tej dziedzinie zgadza się, że nie chodzi o to, czy kiedykolwiek zastąpi ona pracę ludzi takich jak ty. To tylko kwestia kiedy.
Ale hej, to nie wszystko jest zgubą i mrokiem. Podczas gdy Skynet przygotowuje się do przejęcia naszej pracy, przynajmniej możemy poprawić sobie nastrój, bez wysiłku tworząc zdjęcia szczeniąt na deskorolkach!