Czy sztuczna inteligencja ma wyobraźnię?
Kontrowersje wokół Midjourney jak w soczewce pokazują większość etycznych i prawnych problemów związanych ze generatywną AI - pisze Tomasz Danielewicz, dyrektor kreatywny w agencji Bluecloud Interactive.
W Bezpowrotnie utraconej leworęczności Jerzy Pilch stworzył piękną definicję wyobraźni. Napisał, że „wyobraźnia to umiejętność widzenia suchej buły jako buły z masłem i tyle, nic więcej”. Czy AI posiadła już tę umiejętność? Czy stworzenie przez AI obrazy, zdjęcia, dźwięki, znaki graficzne są pełnoprawnymi i wartościowymi obiektami kreatywnymi? Czy copywriterzy, art directorzy i graficy mogą spać spokojnie nie martwiąc się o swoje posady w działach kreacji?
W działaniach marketingowych dzięki AI coraz skuteczniej analizujemy, segmentujemy, klasyfikujemy pozyskane dane. Ale pamiętajmy, że algorytmy zaczęły nie tylko analizować dane, ale również je tworzyć, generować. Do tekstów tworzonych przez ChatGPT zdążyliśmy się już przyzwyczaić i coraz mniej zaskakuje nas, że stworzone przez sztuczną inteligencję publikacje coraz trudniej odróżnić od tych napisanych przez człowieka. W szeroko rozumianych poczynaniach wizualnych, muzycznych i dźwiękowych o architekturze nie wspominając, możemy przygotować się na podobną rewolucję.
Generatywna AI (generative AI) jest modelem sztucznej inteligencji zaprojektowanym do generowania nowych obiektów (nad tym słowem zastanowimy się jeszcze) w postaci tekstów, dźwięków, obrazów, filmów, znaków graficznych (logo), a nawet projektów architektonicznych. Ciekawym przykładem generatywnej sztucznej inteligencji są sieci GAN (Generative Adversarial Networks), w wiele wyjaśniającym tłumaczeniu „generatywne sieci współzawodniczące” stworzone w 2014 roku przez Iana Goodfellowa w Montrealu.
Goodfellow wraz z współpracownikami z uniwersytetu montrealskiego zaprogramował i z sukcesem przetestował, nowy rodzaj sztucznej inteligencji. Jego wynalazek polegał na konkurencyjnym działaniu dwóch sieci neuronowych. W uproszczeniu: sieć A (generator) próbuje stworzyć nowe dane np. zdjęcie nieistniejącego człowieka, które zostaną zaklasyfikowane jako prawdziwe. Sieć B (dyskryminator) ma zadanie ocenienia tego, co produkuje sieć A. I tak do zadowalającego skutku. Praktyczne zastosowania sieci GANs są imponujące: rekonstrukcja zdjęć, fotomontaże (rozwiązania firmy NVIDIA), tworzenie realistycznych krajobrazów, projektów wnętrz, czy kompozycji muzycznych.
Innym ciekawym wykorzystaniem w działach kreacji generatywnej AI są rozwiązania typu text2image. Polegają one na tworzeniu obrazów na podstawie tekstu, a precyzyjniej mówiąc opisu czy polecenia. Rozpalającym coraz bardziej wyobraźnię marketerów i informatyków jest termin prompt engineering – inżynieria podpowiedzi. Ta tajemnicza dziedzina z pogranicza inżynierii i lingwistyki zajmuje się procesem optymalizacji i dostosowania pytań lub poleceń wyjściowych, aby uzyskać jak najbardziej precyzyjny i użyteczny produkt wygenerowany przez sztuczną inteligencję. Oczywiście nie tylko samo pytanie lub polecenie jest tu ważne, ale również kontekst w jakim zostało użyte. Pamiętacie zdjęcia aresztowanego Donalda Trumpa, spacerującego po Brooklynie papieża Franciszka, czy wciągającego makaron Macrona? To właśnie dzieło Midjourney V5 - obecnie chyba najbardziej popularnego generatora obrazów typu text2image. Po zadaniu odpowiedniego polecenia tekstowego możemy otrzymać niezwykle realistyczne obrazy albo fantastyczne wręcz surrealistyczne. Wykorzystując algorytmy uczenia maszynowego, Midjourney V5 analizuje i łączy ze sobą miliardy grafik z sieci. Wygenerowanie grafiki trwa od kilku do kilkunastu minut. Jeszcze do marca tego roku program był darmowy. Po ukazaniu się deepfake’ów ze znanymi politykami i osobistościami rozgorzała gorąca dyskusja na temat dezinformacji oraz legalności wykorzystanych zdjęć, CEO Midjourney David Holz zdecydował się na wprowadzenie płatnej wersji programu. Kontrowersje wokół Midjourney jak w soczewce pokazują większość etycznych i prawnych problemów związanych ze generatywną AI. Agencje fotograficzne, banki zdjęć, fotograficy wskazują na konieczność uregulowania kwestii ochrony praw autorskich, innych praw własności intelektualnej, czy choćby zgody na rozpowszechniania wizerunku.Etycy zastanawiają się nad postępującą dezinformacją i konsekwencjami oddania tak niebezpiecznego narzędzia w ręce milionów użytkowników. Bębenek kontrowersji i wątpliwości podbił jeszcze wspomniany David Holz COE Midjourney, udzielając w "Forbesie" wywiadu „O wpływie AI na sztukę, wyobraźnię i gospodarkę kreatywną”. Holz nie ugryzł się w język i wprost stwierdził, że „nie ma sposobu, by pobrać setki miliony obrazów i wiedzieć skąd one są. Nie ma sposobu, by znaleźć grafikę w internecie, automatycznie odnaleźć jej właściciela i w jakikolwiek sposób potwierdzić jego prawa”. O ile mi wiadomo, nie ma też skutecznej metody, aby autor czy artysta mógł zabezpieczyć się w sieci przed zaborczością AI. Oczywiście działa to też w drugą stronę. Przy obecnych regulacjach prawnych zarówno w Stanach jak i Europie tworząc obrazy w Midjourney trudno jest do nich uzyskać prawa autorskie.
Mniej kontrowersyjnym Konkurentem Midjourney, jest DALL-E stworzony przez zespół OpenAI. Zasada działania tego narzędzia jest podobna. Po utworzeniu polecenia tekstowego otrzymujemy bardzo realistyczne obrazy, także grafikę 3D. Przy pomocy DALL-E wygenerujemy obrazy statyczne, ale również dynamiczne z dźwiękiem i animacją. Program „nauczył się” zasad perspektywy, czyli upraszczając, potrafi realistycznie przedstawiać obiekty i przestrzenie trójwymiarowe na płaszczyźnie. OpenAI nie omieszkał wykorzystać swojej przewagi i zintegrował DALL-E 3 z ChatemGPT, co bardzo upraszcza tworzenie odpowiednich promptów. Praktycznych sposobów na wykorzystanie jest mnóstwo. Najlepiej sprawdza się przy tworzeniu postów w mediach społecznościowych, realistycznych animacji, key visuali, czy ilustracji do artykułów.
A jak generatywna AI radzi sobie z brandingiem? Generatorów logo czy nazw własnych przybywa w imponującym tempie. Do najpopularniejszych należą Looka (wcześniej LogoJoy), Fotor, Logo AI, Jasper art., Logomaster, Adobe Firefly, DesignHill, Turbo logo i można by tak jeszcze długo. Reklamowane sloganami „logo w pięć minut”, „piękne logo w sekundy”, „unikalne logo za darmo” pewnie przyprawiają profesjonalnych projektantów o niesmak. Wygenerowane projekty są najczęściej bardzo poprawne, lecz brakuje im unikalności. Projektowanie logo to proces emocjonalny, nie tylko techniczny. Trudno zastąpić projektantów, którzy wiedzą, jak wpływać na emocje odbiorców, potrafią przełożyć na język symbolu filozofię, wartości i cele firmy dla której projektują logo. Dochodzi do tego jeszcze aspekt „ręcznej robot–” - finezyjnego dopracowania typografii, korekt kolorystycznych.
Narzędzia AI mogą bardzo zoptymalizować i usprawnić proces kreatywny. Wymagają jednak wdrożenia pewnych procedur wewnętrznych i świadomości oraz odpowiedzialności zespołu kreatywnego. W obecnej sytuacji prawnej wygenerowany przez narzędzie AI obiekt kreatywny nie jest objęty ochroną prawno-autorską i może być kopiowany czy przerabiany.
Tekst: Tomasz Danielewicz, dyrektor kreatywny w agencji Bluecloud Interactive
Źródła: "Forbes", Midjourney, Twitter.com