Technologiczne, Gadżety, Telefony Komórkowe, Pobieranie Aplikacji

Jak wytrenować stabilną sztuczną inteligencję dyfuzyjną za pomocą twarzy, aby tworzyć dzieła sztuki za pomocą DreamBooth

Uwaga: Poniższy artykuł pomoże Ci w: Jak wytrenować stabilną sztuczną inteligencję dyfuzyjną za pomocą twarzy, aby tworzyć dzieła sztuki za pomocą DreamBooth

Jeśli rok 2021 był rokiem modeli językowych AI opartych na słowach, rok 2023 przyniósł skok w stronę modeli AI przekształcających tekst na obraz. Obecnie dostępnych jest wiele modeli sztucznej inteligencji przekształcających tekst na obraz, które umożliwiają tworzenie obrazów wysokiej jakości. Stabilna dyfuzja to jedna z najpopularniejszych i najbardziej znanych opcji. Jest to szybki i stabilny model, który daje spójne wyniki.

Proces generowania obrazu jest wciąż nieco tajemniczy, ale jasne jest, że stabilna dyfuzja daje doskonałe rezultaty. Można go używać do generowania obrazów z tekstu lub do modyfikowania istniejących obrazów. Dostępne opcje i parametry pozwalają na dużą personalizację i kontrolę nad ostatecznym obrazem.

Chociaż stosunkowo łatwiej jest pracować na wizerunkach celebrytów i popularnych postaci, wyłącznie ze względu na już dostępny zestaw obrazów, nie jest łatwo zmusić sztuczną inteligencję do pracy nad własną twarzą. Logika mówi, aby zasilać model AI swoimi obrazami, a następnie pozwolić mu działać magicznie, ale jak dokładnie można to zrobić?

W tym artykule postaramy się zademonstrować, jak wytrenować model stabilnego rozproszenia za pomocą inwersji tekstu DreamBooth w odniesieniu do obrazu, aby zbudować reprezentacje AI własnej twarzy lub dowolnego innego obiektu i wygenerować zdjęcia wynikowe z niesamowitymi wynikami, precyzją i spójnością. Jeśli brzmi to zbyt technicznie, poczekaj chwilę, a my postaramy się uczynić go jak najbardziej przyjaznym dla początkujących.

Co to jest stabilna dyfuzja?

Pozbądźmy się podstaw. Model Stable Diffusion to najnowocześniejszy model uczenia maszynowego przekształcający tekst na obraz, trenowany na dużym zestawie obrazów. Szkolenie jest drogie, kosztuje około 660 000 dolarów. Jednak model Stable Diffusion może być używany do generowania grafiki przy użyciu języka naturalnego.

Modele sztucznej inteligencji typu „text-to-image” z głębokim uczeniem się stają się coraz bardziej popularne ze względu na ich zdolność do dokładnego tłumaczenia tekstu na obrazy. Ten model jest darmowy i można go znaleźć w Hugging Face Spaces i DreamStudio. Wagi modeli można również pobrać i używać lokalnie.

Stable Diffusion wykorzystuje proces zwany „dyfuzją” do generowania obrazów, które wyglądają podobnie do podpowiedzi tekstowych.

Krótko mówiąc, algorytm Stable Diffusion pobiera opis tekstowy i generuje obraz na podstawie tego opisu. Wygenerowany obraz będzie wyglądał podobnie do tekstu, ale nie będzie dokładną repliką. Alternatywami dla Stable Diffusion są modele Dall-E firmy OpenAI i modele Imagen firmy Google.

Przewodnik po szkoleniu sztucznej inteligencji o stabilnym rozproszeniu za pomocą twarzy w celu tworzenia obrazu za pomocą DreamBooth

Dzisiaj pokażę, jak wytrenować model Stable Diffusion, używając mojej twarzy jako początkowego odniesienia, aby wygenerować obrazy o bardzo spójnym i dokładnym stylu, który jest zarówno oryginalny, jak i świeży.

Zatem w tym celu użyjemy Google Colab zwany Budka marzeń do trenowania stabilnej dyfuzji.

Przed uruchomieniem Google Colab musimy przygotować określone zasoby treści.

Scena 1: Dysk Google z wystarczającą ilością wolnego miejsca

W tym celu potrzebujesz konta na Dysku Google co najmniej 9 GB wolnego miejsca.

Darmowe konto Google Drive zapewnia 15 GB wolnego miejsca, co wystarczy do tego zadania. Możesz więc utworzyć zupełnie nowe (jednorazowe) konto Gmail tylko w tym celu.

Scena 2: Obrazy referencyjne do trenowania sztucznej inteligencji

Po drugie, musisz mieć co najmniej kilkanaście portretów swojej twarzy lub dowolnego obiektu docelowego gotowych do wykorzystania jako odniesienia.

  • Upewnij się, że rysy twarzy są widoczne i odpowiednio oświetlone na zarejestrowanych zdjęciach. Unikaj stosowania ostrych cieni, szczególnie na twarzy.
  • Dodatkowo osoba powinna być zwrócona w stronę aparatu lub mieć profil boczny, w którym wyraźnie widoczne są oba oczy i wszystkie rysy twarzy.
  • Aparat powinien umożliwiać uchwycenie wysokiej jakości rysów twarzy. Najlepszą opcją jest profesjonalna lustrzanka cyfrowa lub aparat bezlusterkowy. Może też wystarczyć aparat w smartfonie doskonałej jakości.
  • Kompozycję należy umieścić pośrodku kadru z niewielką przestrzenią nad głową.
  • Jako obrazy wejściowe powinno wystarczyć co najmniej dwanaście zdjęć twarzy w zbliżeniu, pięć zdjęć w połowie ujęcia obejmujących obszar od głowy do pasa i mniej więcej trzy zdjęcia całej sylwetki.
  • W tym celu powinno wystarczyć minimum dwadzieścia zdjęć referencyjnych.

W moim przypadku zrobiłem i zebrałem kolekcję około 50 autoportretów, które przyciąłem do rozmiaru 512 x 512 pikseli za pomocą narzędzia online – Birma. W tym celu możesz także użyć dowolnego alternatywnego edytora obrazów.

Należy pamiętać, że ostateczny obraz wyjściowy musi zostać zoptymalizowany pod kątem Internetu i zmniejszony rozmiar pliku przy minimalnej utracie jakości.

Scena 3: Google Colab

Można teraz uruchomić środowisko wykonawcze Google Colab.

Istnieją zarówno bezpłatne, jak i płatne wersje programu Platforma Google Colab. Dreambooth może działać w wersji darmowej, ale wydajność jest znacznie większa i bardziej spójna w wersji Colab Pro (płatnej), w której priorytetem jest wykorzystanie szybkiego procesora graficznego i przydzielane jest co najmniej 15 GB pamięci VRAM do wykonywanego zadania.

Jeśli nie masz nic przeciwko wydaniu kilku dolarów, subskrypcja Colab Pro za 10 USD, która obejmuje 100 jednostek obliczeniowych miesięcznie, w zupełności wystarczy na tę sesję.

Będziesz mieć także dostęp do dodatkowej pamięci RAM i procesorów graficznych, które są stosunkowo wydajniejsze i szybsze.

Powtórzę: NIE MUSISZ być specjalistą technicznym, aby uruchomić ten Colab. Nie jest również wymagane żadne wcześniejsze doświadczenie w kodowaniu.

Po zarejestrowaniu się w Google Colab (wersja bezpłatna lub płatna) zaloguj się, podając swoje dane uwierzytelniające i przejdź do tego linku otworzyć Stabilna dyfuzja DreamBooth.

Google Colab ma sekcje lub komórki „środowiska wykonawczego” z klikalnymi przyciskami odtwarzania po lewej stronie, które są ułożone sekwencyjnie. Aby odtworzyć środowisko wykonawcze, zaczynając od góry, po prostu klikaj przyciski odtwarzania jeden po drugim. Każdy segment składa się ze środowiska wykonawczego, które należy wykonać. Po kliknięciu przycisku odtwarzania odpowiednia sekcja jest wykonywana jako środowisko wykonawcze. Po pewnym czasie po lewej stronie przycisku odtwarzania pojawi się zielony znacznik wyboru, wskazujący, że środowisko wykonawcze zostało pomyślnie wykonane.

Upewnij się, że ręcznie uruchomiłeś tylko jedno środowisko wykonawcze na raz i przejdź do następnej sekcji „środowisko wykonawcze” dopiero po zakończeniu bieżącego środowiska wykonawczego.

W części wykonawczej górnego paska menu istnieje możliwość jednoczesnego uruchomienia wszystkich środowisk wykonawczych. Nie jest to jednak zalecane.

Poniżej znajduje się opcja „Zmień typ środowiska wykonawczego”. Jeśli subskrybujesz subskrypcję pro, możesz wybrać i zapisać procesor graficzny „premium” i dużą pamięć RAM do swojego wykonania.

Teraz możesz rozpocząć współpracę z DreamBooth.

10 kroków do pomyślnego ukończenia wytrenowanego modelu AI na DreamBooth

KROK 1: Zdecyduj się na procesor graficzny i pamięć VRAM

Pierwszym krokiem jest określenie rodzaju dostępnego procesora graficznego i pamięci VRAM. Użytkownicy profesjonalni będą mieli dostęp do szybkiego procesora graficznego i ulepszonej pamięci VRAM, która jest bardziej stabilna.

Po kliknięciu przycisku odtwarzania wyświetli się ostrzeżenie, ponieważ uzyskiwany jest dostęp do GitHub, źródłowej witryny programisty. Wystarczy kliknąć „Uciekaj mimo wszystko” kontynuować.

KROK 2: Uruchom DreamBooth

W następnym kroku musisz zainstalować określone wymagania i zależności. Wystarczy kliknąć przycisk odtwarzania i pozwolić mu działać.

KROK 3: Zaloguj się do Hugging Face

Po kliknięciu przycisku odtwarzania, następny krok będzie wymagał zalogowania się na konto Hugging Face. Możesz utwórz darmowe konto jeśli jeszcze go nie masz. Po zalogowaniu przejdź do strony Ustawienia w prawym górnym rogu.

Następnie kliknij przycisk „Tokeny dostępu‘sekcja i ‘Tworzyć nowe‘, aby wygenerować nowy „token dostępu” i zmienić jego nazwę według potrzeb.

Skopiuj token dostępu, następnie wróć do zakładki Colab i wpisz go w odpowiednim polu, a następnie kliknij „Zaloguj sie.”

KROK 4: Zainstaluj xformers

Na tym etapie możesz kliknąć środowisko wykonawcze, aby je zainstalować xformerzy po prostu naciskając przycisk odtwarzania.

KROK 5: podłącz Dysk Google

Po kliknięciu przycisku w nowym wyskakującym oknie zostaniesz poproszony o pozwolenie na dostęp do konta Google Drive. Kliknij „Zezwalaj”, gdy pojawi się pytanie o uprawnienia.

Po przyznaniu uprawnień musisz potwierdzić, że „zapisz na Dysku Google” jest zaznaczona. Musisz także ustawić nową nazwę dla ‘NAZWA KLASY‘ zmienny. Jeśli chcesz przesłać zdjęcia referencyjne przedstawiające jakąś osobę, po prostu wpisz „osoba”, „mężczyzna” lub „kobieta”. Jeśli obrazy referencyjne przedstawiają psa, wpisz „pies” i tak dalej. Pozostałe pola możesz pozostawić bez zmian. Alternatywnie możesz zmienić nazwę katalogu wejściowego — „INSTANCE DIR” lub katalogu wyjściowego — „OUTPUT DIR”.

KROK 6: Prześlij zdjęcia referencyjne

Po kliknięciu przycisku odtwarzania w poprzednim kroku zobaczysz opcję przesłania i dodania wszystkich zdjęć referencyjnych.

Polecam min 6 i maksymalnie 20 zdjęć. Patrz „ETAP 2” powyżej, aby uzyskać zwięzłe wyjaśnienie, jak wybrać najlepsze zdjęcie referencyjne na podstawie sposobu uchwycenia obiektu.

Po przesłaniu wszystkich zdjęć możesz je wyświetlić w kolumnie po lewej stronie. Jest ikona folderu. Po kliknięciu będziesz mógł zobaczyć foldery i podfoldery, w których aktualnie przechowywane są Twoje dane.

W katalogu danych możesz wyświetlić katalog wejściowy, w którym przechowywane są wszystkie przesłane przez Ciebie zdjęcia. W moim przypadku jest to znane jako „sks” (nazwa domyślna).

Ponadto pamiętaj, że te treści są przechowywane tylko tymczasowo w Twojej pamięci Google Colab, a nie na Dysku Google.

KROK 7: Trenuj model AI za pomocą DreamBooth

To najważniejszy krok, ponieważ będziesz trenować nowy model AI na podstawie wszystkich przesłanych zdjęć referencyjnych za pomocą DreamBooth.

Musisz skupić się tylko na dwóch polach wejściowych. Pierwszym parametrem jest „-podpowiedź o instancji”. Tutaj musisz wprowadzić bardzo unikalną nazwę. W moim przypadku użyję mojego imienia i inicjałów. Cały pomysł polega na tym, aby pełna nazwa była niepowtarzalna i precyzyjna.

Drugim istotnym polem wejściowym jest parametr „-podpowiedź klasy”. Musisz zmienić jego nazwę, aby odpowiadała tej, której użyłeś w „STEP 4′. W moim przypadku użyłem określenia „człowiek”. Wpiszę go zatem ponownie w to pole i nadpiszę poprzedni wpis.

Pozostałe pola można pozostawić nietknięte. Obserwowałem, jak użytkownicy eksperymentowali, zmieniając pola takie jak „-liczba obrazów klas” na 12 i „-maks. liczba kroków pociągu” na 1000, 2000 lub nawet więcej. Pamiętaj jednak, że modyfikacja tych pól może spowodować brak pamięci i awarię Colaba, co będzie wymagało ponownego uruchomienia programu od początku. Dlatego zaleca się, aby nie edytować ich przy pierwszej próbie. Możesz z nimi poeksperymentować w przyszłości, po zdobyciu wystarczającego doświadczenia.

Po uruchomieniu tego środowiska wykonawczego poprzez kliknięcie przycisku odtwarzania Colab rozpocznie pobieranie niezbędnych plików wykonywalnych i będzie mógł trenować przy użyciu obrazów referencyjnych.

Trening modelu zajmie od 15 minut do ponad godziny. Musisz uzbroić się w cierpliwość i śledzić postęp aż do zakończenia działania. Jeśli Twój Google Colab będzie bezczynny przez zbyt długi czas, może się zresetować. Dlatego sprawdzaj postęp i od czasu do czasu klikaj zakładkę.

KROK 8: Konwertuj model AI do formatu ckpt

Po zakończeniu szkolenia będziesz mieć możliwość skonwertowania wyszkolonego modelu do pliku w formacie ckpt, który jest bezpośrednio kompatybilny ze Stable Diffusion.

Konwersję można przeprowadzić w dwóch fazach wykonawczych. Pierwszym z nich jest „Pobierz skrypt”, a drugie to „Uruchom konwersję”, gdzie możesz zmniejszyć rozmiar pobierania przeszkolonego modelu. Jednakże spowoduje to znaczne pogorszenie jakości uzyskanego obrazu.

Dlatego, aby zachować oryginalny rozmiar, opcja „” musi pozostać niezaznaczona.

Pod koniec tego konkretnego środowiska wykonawczego plik o nazwie „model.ckpt” zostanie zapisany na podłączonym Dysku Google.

Możemy zapisać ten plik do wykorzystania w przyszłości, ponieważ Twoje środowiska wykonawcze są natychmiast usuwane po zamknięciu karty przeglądarki DreamBooth Colab. Kiedy później ponownie otworzysz wersję DreamBooth Colab, będziesz musiał zacząć od zera.

Załóżmy, że zapisujesz plik przeszkolonego modelu na Dysku Google. W takim przypadku możesz pobrać go później i używać z lokalnie zainstalowanym interfejsem GUI Stable Diffusion, DreamBooth lub dowolnymi notatnikami Stable Diffusion Colab, które wymagają załadowania pliku „model.ckpt”, aby środowisko wykonawcze mogło działać efektywnie. Możesz także zapisać go na lokalnym dysku twardym do późniejszego wykorzystania.

KROK 9: Przygotuj się na monit tekstowy

Następne dwa procesy wykonawcze w kategorii „Wnioskowanie” przygotowują nowo wytrenowany model dla podpowiedzi tekstowej używanej do generowania obrazu. Po prostu naciśnij przycisk odtwarzania dla każdego czasu działania, a zakończy się w ciągu kilku minut.

KROK 10: Wygeneruj obrazy AI

To ostatni krok, w którym możesz wpisać podpowiedzi tekstowe, a obrazy AI zostaną wygenerowane.

Musisz użyć razem dokładnych nazw „instancja_prompt” i „–class_prompt” z STEP 6 na początku podpowiedzi tekstowej. Na przykład w moim przypadku użyłem „portretu mężczyzny tarunabhtd, malarstwa cyfrowego”, aby wygenerować nowe obrazy AI przypominające mnie.

Poniżej możesz zobaczyć niektóre wyniki obrazów wygenerowane za pomocą wyszkolonego modelu DreamBooth.

Baw się podpowiedziami, aby uzyskać najlepsze wyniki

Jeśli dokładnie wykonasz kroki opisane powyżej, będziesz w stanie wygenerować obrazy AI, które bardzo przypominają rysy twarzy na obrazach referencyjnych. Ta metoda wymaga jedynie, aby internetowa platforma Google Colab uruchomiła ulepszoną wersję technologii AI do inwersji tekstu.

Aby uzyskać lepsze pomysły na podpowiedzi tekstowe, możesz odwiedzić witryny takie jak –

Musisz także nauczyć się sztuki tworzenia lepszych i skuteczniejszych podpowiedzi tekstowych, korzystając z różnych stylów artystycznych i różnych kombinacji. Dobrym punktem wyjścia będzie Stabilna dyfuzja SubReddit.

Reddit ma ogromną społeczność zajmującą się Stable Diffusion. Istnieje również wiele Facebook grupy i społeczności Discord aktywnie dyskutują, dzielą się i odkrywają nowe możliwości stabilnego rozpowszechniania.

Poniżej udostępniam także linki do kilku filmów instruktażowych DreamBooth, które można obejrzeć na Youtube –

Mam nadzieję, że ten przewodnik okaże się przydatny. Jeśli masz jakieś pytania, napisz komentarz poniżej, a my postaramy się Ci pomóc.

Autor:

Tarunabh Dutta to wielokrotnie nagradzany twórca filmowy, który w ciągu ostatnich 16 lat zrealizował ponad 45 projektów, w tym filmy fabularne, krótkometrażowe, teledyski, filmy dokumentalne i reklamy komercyjne, pod swoim niezależnym szyldem.Studio Filmowe TD‘.