|

Zaczarowany ołówek, wersja 2022. Czy robot może napisać symfonię i namalować obraz?

Zdjęcie stworzone przez sztuczną inteligencję do opisu "zdjęcie do zilustrowania newsa o sztucznej inteligencji"
Zdjęcie stworzone przez sztuczną inteligencję do opisu "zdjęcie do zilustrowania newsa o sztucznej inteligencji"
Źródło: DALLE2/Michał Jaroń

W kultowej bajce "Zaczarowany ołówek" główny bohater Piotrek wraz ze swoim psem za pomocą tytułowego ołówka rysowali obiekty, które potem magicznie ożywały. Kto z nas nie marzył, aby choć przez chwilę stać się właścicielem takiego przedmiotu? A co, gdyby lekko zmodyfikować ten pomysł i zamiast tworzyć rzeczywistość za pomocą tradycyjnego narzędzia - opisywać w języku naturalnym swoje wizje, które następnie się zmaterializują? Brzmi jak science fiction, jednak za sprawą najnowszych rozwiązań w dziedzinie sztucznej inteligencji takie "magiczne" narzędzie jest bliżej, niż nam się wydaje. Do świata AI, w którym nawet bez artystycznego talentu można tworzyć dzieła sztuki, zaprasza Michał Jaroń, specjalista od sztucznej inteligencji.

Artykuł dostępny w subskrypcji

Autoportret Vincenta van Gogha w goglach VR, przemawiający na konferencji technologicznej i ubrany w smoking dinozaur, zdjęcie z zaprzysiężenia Kaczora Donalda na prezydenta USA - to tylko mała próbka obrazów, jakie są w stanie wygenerować rewolucyjne narzędzia oparte na sztucznej inteligencji (AI). Nawet z abstrakcyjnych opisów generują one grafiki tak realistyczne, że właściwie niemożliwe jest odróżnienie ich od wytworów pracy człowieka.

Jednym z takich narzędzi, na którego punkcie w ostatnich miesiącach oszalał technologiczny świat, jest Dalle-2 (nazwa nawiązuje do Salvadora Dali i postaci z popularnej animacji - sympatycznego robota Wall-E) stworzone przez OpenAI. To właśnie ono będzie głównym bohaterem naszej podróży po krainie, w której sztuczna inteligencja zyskała artystyczne umiejętności. Ale na rynku jest dostępnych także kilka innych podobnych systemów potrafiących generować przekonujące grafiki ze słownego opisu - wśród nich również bardzo popularny MidJourney, Stable Diffusion czy Imagen od Google. 

Wszystkie pojawiły się na rynku w zbliżonym czasie. To zjawisko, które w świecie innowacji nazywa się "wielokrotnymi odkryciami" i zakłada, że większość odkryć naukowych powstaje niezależnie i mniej więcej w tym samym momencie jako wynikowa tendencji w społeczeństwie i narastającego zrozumienia danej dziedziny. Wysyp wspomnianych narzędzi nie jest więc wynikiem pojedynczego momentu eureki, a raczej rezultatem systematycznego rozwoju całej dziedziny. Zasiane dawno temu nasiona zaczęły dawać owoce w podobnym momencie.

Obrazy wygenerowane przez Dalle-2 według opisu autora
Obrazy wygenerowane przez Dalle-2 według opisu autora
Źródło: Dalle-2/Michał Jaroń

Na początku był perceptron

Większość współczesnych dokonań sztucznej inteligencji opiera się na tzw. sieciach neuronowych - inspirowanych biologicznie systemach obliczeniowych, zbudowanych podobnie jak ludzki mózg: z neuronów i połączeń między nimi (synaps). Oczywiście sztuczne sieci neuronowe nie są fizycznie zbudowane z neuronów i synaps - to tylko abstrakcja dla klocków, z jakich składa się system.

Nie są też konceptem nowym - przyjmuje się, że pierwsze wzmianki o nich w literaturze naukowej pojawiły się już w latach 40. Teoretyczna koncepcja szybko znalazła swoją pierwszą praktyczną implementację - w 1958 roku psycholog z Uniwersytetu Cornella zaproponował prosty model symulujący działanie pojedynczego neuronu - zwanego perceptronem. Pojedynczy perceptron nie jest jednak zdolny do "opanowania" bardziej złożonych zagadnień.

Ale i na to nie trzeba było długo czekać. Już rok później powstała pierwsza sztuczna sieć neuronowa złożona z wielu neuronów. Adaline została zaprojektowana do redukowania szumu w liniach telekomunikacyjnych. Co ciekawe, dzięki genialnej i jednocześnie prostej strukturze warianty tego rozwiązania stosowane są do dzisiaj.

Po początkowych sukcesach zainteresowanie sieciami neuronowymi gwałtownie wzrosło, jednak ze względu na ówczesny poziom zaawansowania technologicznego oczekiwania rozjechały się z możliwościami. Od końcówki lat 60. do początku nowego milenium trwał okres znacznego obniżenia zainteresowania oraz finansowania badań nad sztuczną inteligencją. Ten okres stagnacji zwykło nazywać się "AI Winter". "Zima sztucznej inteligencji" była dla AI tym, czym wieki średnie były dla nauki. Oczywiście, cała dziedzina nie stała w miejscu - powstało wiele koncepcji, które obecnie stanowią podwaliny do bardziej zaawansowanych rozwiązań. 

Ostatnie lata to już czas prawdziwej rewolucji w świecie AI, "wiosna sztucznej inteligencji". Dość powiedzieć, że pierwsza wersja Dalle ujrzała światło dzienne w styczniu 2021, a już niespełna półtora roku później opublikowano drugą, bardziej zaawansowaną. Porównanie rezultatów ich "twórczości" pokazuje, jak szybko rozwija się branża. Progres w jakości generowanych obrazów jest zdumiewający.

Porównanie obrazów generowanych przez Dalle-1 i Dalle-2 dla ww. opisu
Obraz w stylu Claude'a Moneta, przedstawiający lisa siedzącego w polu podczas wschodu słońca
Źródło: Michał Jaroń

Nieskończony Luwr

Jak powstają takie obrazy? Od wpisania słownego opisu naszej wizji do momentu ukazania się wygenerowanych grafik mija dosłownie kilka sekund. Naszym oczom ukazują się obrazy, których nikt wcześniej nie widział, stworzone według naszego zamysłu z domieszką kreatywności sztucznej inteligencji. 

Naszą przygodę rozpoczynamy od ponadczasowego klasyka - portretu Mona Lisy. W celu przetestowania możliwości sztucznej inteligencji rzucamy maszynie pierwsze wyzwanie - chcielibyśmy zobaczyć portret Mona Lisy, ale w stylu twórczości Andy'ego Warhola.

Już pierwsza próba daje piorunujący efekt - maszyna nie dość, że odtwarza naturę oryginału, to zadowalająco uwypukla również styl artysty.

Mona Lisa w stylu twórczości Andy'ego Warhola
Mona Lisa w stylu twórczości Andy'ego Warhola
Źródło: Dalle-2/Michał Jaroń

Poprzeczka idzie już tylko w górę - w następnej próbie prosimy maszynę o wygenerowanie wizji "greckiego filozofa Platona występującego na popularnej konferencji TEDx". Z tym zadaniem Dalle-2 poradził sobie nieco gorzej - na pierwszy rzut oka dostrzegalne są niedokładności w wizualizacji: rozmycia, lekkie zniekształcenie twarzy. Z drugiej strony - semantyczna struktura grafiki jest znowu zaskakująco dobra - materializacja naszych wizji pozwala odbyć podróż w czasie i zobaczyć, jak słynny filozof prezentowałby się we współczesności.

Grecki filozof Platon występujący na popularnej konferencji TEDx
Grecki filozof Platon występujący na popularnej konferencji TEDx
Źródło: Dalle-2/Michał Jaroń

Następnie postanawiamy przetestować nasze "krajowe" motywy. Prosimy maszynę o wygenerowanie "twarzy Polki ubranej w tradycyjny regionalny strój ludowy, z czerwonymi koralami na szyi". Tak, tak, Dalle-2 jest w stanie zrozumieć nawet takie szczegóły. Dodatkowo podkręciliśmy stopień trudności, wskazując, by wygenerowana grafika pokazywała zdjęcie zrobione konkretnym rodzajem aparatu ze wskazaną ogniskową oraz czasem migawki. Wygenerowane twarze przeszły nasze najśmielsze oczekiwania i są dotychczas naszymi ulubionymi tworami AI. Bohaterki grafik na pierwszy rzut oka są niemal nieodróżnialne od prawdziwych kobiet. 

Twarz Polki ubranej w tradycyjny regionalny strój ludowy, z czerwonymi koralami na szyi
Twarz Polki ubranej w tradycyjny regionalny strój ludowy, z czerwonymi koralami na szyi
Źródło: Dalle-2/Michał Jaroń

Artystyczna fantazja

Dalle-2 dobrze odpowiada na intencje zawarte w opisach. Kiedy chcemy fotorealizmu - dostajemy realistyczne zdjęcia, kiedy chcemy popuścić wodze fantazji, dostajemy Mona Lisę z włosami w jaskrawych kolorach.

Na rynku funkcjonuje jednak również inny wirtualny artysta, u którego ekspresja i twórczy szał odgrywają pierwsze skrzypce. W ostatnich miesiącach swoją premierę miało narzędzie MidJourney. Niektóre obrazy wygenerowane przez nie na myśl przywodzą twórczość Zdzisława Beksińskiego, inne - artystów kubizmu, jeszcze inne - impresjonistów.

Autorzy udostępnili użytkownikom parametr zwany "siłą stylizacji", pozwalający dostosować poziom "artyzmu" przy generowaniu każdej grafiki. Niższa wartość parametru determinuje bardziej przyziemne twory, najwyższa wartość - jak żartują sami twórcy - sprawia, że efekty na pewno przejdą nasze najśmielsze oczekiwania.

Obrazy stworzone na bazie tego samego opisu, z różną siłą artyzmu - od najmniejszej do największej
Uśmiechnięty lew z koroną na głowie
Źródło: MidJourney/Michał Jaroń

Wydaje się, że namiętność MidJourney do tworzenia mocno stylizowanych dzieł wpływa na wyobraźnię użytkowników - w oficjalnej galerii, w której autorzy umieszczają najciekawsze kreacje, znajdujemy mnóstwo grafik wyglądających jak twory nie z tego świata. "Piękna czarnoskóra wróżka latająca w lesie obcej cywilizacji", "wejście do mitologicznego Olimpu", "mnich wchodzący na schody oplecione kwitnącymi wiśniami i drzewami jakarandy", "wszechświat zamknięty w butelce", "drzewo życia na tle rozgwieżdżonego nieba" - to tylko niektóre z mocno fantazyjnych przykładów, jakie możemy znaleźć w galerii sztuki imienia MidJourney. Oprogramowanie firmy Leap Motion tworzy majestatyczne obrazy, w których detale i gra świateł budują zjawiskowy klimat.

Zachęceni tą fantastyczną stylistyką przetestowaliśmy narzędzie na słowach pochodzących z popularnej w ostatnich miesiącach piosenki Kaśki Sochackiej "Niebo było różowe". Poprosiliśmy maszynę o wygenerowanie wizji dla opisu:

Niebo było różowe, a więc tak wygląda nasz koniec, niebo jakby malował je Monet.
Kaśka Sochacka
Wizualizacja przygotowana przez sztuczną inteligencję do fragmentu piosenki "Niebo było różowe" Kaśki Sochackiej
Wizualizacja przygotowana przez sztuczną inteligencję do fragmentu piosenki "Niebo było różowe" Kaśki Sochackiej
Źródło: MidJourney/Michał Jaroń

To jeden z naszych ulubionych obrazów autorstwa MidJourney.

Zawód przyszłości - sufler sztucznej inteligencji

Używając Dalle-2 i podobnych mu narzędzi, za każdym razem wyruszamy w podróż w nieznane. Czasem jedno słowo potrafi drastycznie zmienić kreacje - nawet bez talentu artystycznego czujemy się, jakbyśmy to my sami tworzyli obrazy. To przykład bezprecedensowej współpracy między człowiekiem i maszyną. Współpracy stojącej w opozycji do wielu apokaliptycznych wizji przedstawiających sztuczną inteligencję jako niebezpieczny, autonomiczny twór.

Sposoby na pisanie jak najlepszych formuł urosły już niemal do rangi nauki - techniki i porady z tego obszaru funkcjonują pod nazwą "inżynierii opisów". Metodą prób i błędów użytkownicy sprawdzają, jakie kombinacje słów dają lepsze wyniki - okazuje się na przykład, że dopisanie do opisu fotografii określenia "wyróżnienie w konkursie" zwiększa szansę na otrzymanie bardziej estetycznej kreacji. Z kolei dodanie atrybutu "4k" generuje grafiki w zdecydowanie wyższej jakości, co na pierwszy rzut oka nie jest zaskakujące, jednak kiedy zestawimy to z tym, że dla określenia "wysoka rozdzielczość/jakość" Dalle-2 już sobie równie dobrze radzi, okazuje się, że niuanse językowe naprawdę mają znaczenie. 

Dodatkowe modyfikatory pozwalają uzyskać grafiki w osobliwych stylizacjach - na przykład przedrostek "origami" sprawia, że maszyna wygeneruje złożoną z papieru wersję naszej wizji, z kolei określenie "graffiti" działa na maszynę zdecydowanie słabiej niż "obraz namalowany sprayem na ścianie". Gra toczy się zatem o zrozumienie wewnętrznego języka narzędzi opartych o AI. Chociaż w przypadku Dalle model wytrenowany został na języku naturalnym, to ewidentnie nie wszystkie określenia mają na niego taki sam wpływ - ucząc się na potężnych zbiorach danych, komputer znalazł najważniejsze wzorce i teraz te schematy oddziałują na niego najsilniej. Widać to też w sytuacjach, gdy dla narzędzia ważniejsza od sensu opisu jest nabyta wcześniej wiedza. Na przykład na hasło "mysz goniąca kota" Dalle uporczywie stara się generować - zgodne z prawami natury - grafiki, w których to jednak "kot goni mysz".

Użytkownicy znaleźli również szereg innych niuansów, z którymi Dalle ciągle sobie nie radzi. To na przykład generowanie tekstu na obrazach czy sceny złożone z więcej niż jednej postaci. 

W obszarze inżynierii opisów krok dalej idą autorzy MidJourney, którzy stworzyli całą "mechanikę" ich tworzenia. Oprócz wspomnianego już parametru "siła stylizacji" użytkownicy mogą określić proporcje obrazów, jakość grafiki, a samo polecenie może składać się z kilku członów oddzielonych dwukropkami. Każdy "człon" odpowiada za zakodowanie innych informacji.

Czy to wszystko sprawia, że graficy i ilustratorzy powinni czuć się zagrożeni? Oczywiście nie jesteśmy w stanie przewidzieć, jak rozwiną się opisywane narzędzia, jednak obecna sytuacja przypomina czas, kiedy pojawiły się pierwsze aparaty fotograficzne - wtedy również wielu artystów obawiało się, że nowinka techniczna pozbawi ich pracy. Upowszechnienie aparatów fotograficznych oczywiście zmieniło naszą rzeczywistość, jednocześnie nie wyparło z rynku malarzy i ilustratorów. Z kolei upowszechnienie się grafiki komputerowej stworzyło nowe zawody. Zapewne podobnie będzie ze sztuczną inteligencją.

Kilka tygodni temu świat obiegła informacja o obrazie wygenerowanym przez AI, który zdobył nagrodę w corocznym konkursie artystycznym organizowanym w Colorado. I wywołał burzę - bo czy zasadnym w sztuce jest porównywanie cyfrowych tworów z dziełami ludzi? Kwestią czasu na pewno jest upowszechnienie konkursów cyfrowej sztuki.

Ale już teraz snujemy odważną wizję zawodu przyszłości, który nazwiemy "suflerem sztucznej inteligencji". Praca takiej osoby będzie polegać na opanowaniu sztuki tworzenia opisów na tyle, żeby bez problemu tworzyć grafiki jak najbliższe zamierzonej wizji. Będzie to rola "grafika komputerowego przyszłości". Taka osoba będzie konstruować opisy obrazów równie sprawnie, jak programiści posługują się kodem, tworząc oprogramowanie. 

Cyfrowy bliźniak bliżej niż nam się wydaje

Odpowiedzialna za MidJourney firma Leap Motion udostępniła swoje narzędzie na łamach komunikatora Discord. Popularność przeszła ich najśmielsze oczekiwania, a tempo pojawiania się nowych grafik jest oszałamiające - tysiące ludzi z całego świata jednocześnie uczestniczy w zbiorowym akcie tworzenia.

Na kanały MidJourney dołączyło już ponad 900 tys. użytkowników, z czego blisko 200 tys. jest codziennie aktywnych. Swoją popularnością MidJourney przebił serwery gier Minecraft i Fornite, co jawi się jako nie lada wyczyn, szczególnie biorąc pod uwagę, że Discord jest głównym kanałem komunikacji dla setek tysięcy graczy.

Obrazy wygenerowane przez MidJourney na podstawie opisów autora
Obrazy wygenerowane przez MidJourney na podstawie opisów autora
Źródło: MidJourney/Michał Jaroń

Dłużące się miesiące oczekiwania na otwarcie Dalle-2 dla szerokiego grona użytkowników skłoniły grupę zapaleńców do stworzenia open-sourcowego - opartego na otwartej licencji - odpowiednika narzędzia, nazwanego DALLE-mini. Przyświecającym celem było nie tylko udostępnienie otwartego narzędzia pozwalającego na kreowanie grafik, ale także oddanie kodu i modeli w ręce społeczności. Taka otwartość napędza kolejne innowacje - już teraz na kanwie udostępnionych materiałów powstało kilka pochodnych narzędzi.

Jakość Dalle-mini jest znacząco gorsza, nie przeszkadza to jednak w zabawach narzędziem - semantyczna struktura grafik jest często oddana w zaskakująco dobry sposób.

W ostatnich tygodniach swoją premierę miał również inny open-sourcowy model - Stable Diffusion, który przebojem podbił rynek wirtualnych artystów. Koalicja kilku firm technologicznych, po wytrenowaniu modelu na własną rękę, udostępniła efekty społeczności - w tym momencie już niemal każdy może uruchomić go na własnym komputerze. Poziom grafik generowanych przez Stable Diffusion jest porównywalny (a często nawet lepszy) do Dalle-2. Ogromną popularnością cieszy się metoda umożliwiająca dodanie swojego wizerunku do modelu. Cyfrowy bliźniak jest bliżej, niż nam się wydaje.

Autoportrety autora, stworzone przez sztuczną inteligencję
Autoportrety autora, stworzone przez sztuczną inteligencję
Źródło: AI/Michał Jaroń

Nad swoim rozwiązaniem pracuje także Google. Amerykański gigant twierdzi, że jego Imagen wypada lepiej w testach niż analogiczne narzędzia konkurencji. Czy tak jest - nie wiadomo. Niestety, Google nadal nie udostępnia swojego narzędzia dla użytkowników. Nie wiadomo też nic o planach otwarcia dostępu w najbliższym czasie. 

Bilans zysków i strat

Przy dalszym rozwoju sztucznej inteligencji generowane grafiki będą z pewnością coraz lepsze - w pewnym momencie, bez używania skomplikowanych algorytmów, granica między fikcją i rzeczywistością będzie trudna do odróżnienia. A - jak bywało z niemal każdym wielkim wynalazkiem z przeszłości - innowacja niesie ze sobą gigantyczne zyski dla ludzkości, choć za cenę poważnych negatywnych konsekwencji. Twórcy wszystkich wspominanych narzędzi otwarcie ostrzegają przed potencjalnie niepożądanymi zastosowaniami swojej technologii. 

Przy okazji "zabaw" z Dalle-mini powstało również wiele kontrowersyjnych kreacji. W przeciwieństwie do Dalle-2 autorzy nie nałożyli filtrów zapobiegających tworzeniu moralnie wątpliwych treści - znaleźliśmy wśród nich na przykład różowego Power Rangera sądzonego w trakcie procesów norymberskich czy też Karola Marksa jako bohatera popularnej gry komputerowej. Na szczęście niska jakość grafik nie pozwala w żadnym wypadku pomylić wygenerowanej grafiki z realnymi ilustracjami.

W przypadku Stable Diffusion także nie nałożono równie restrykcyjnych filtrów, a generowane w tym narzędziu grafiki są niejednokrotnie fotorealistyczne. Rodzi to oczywiste ryzyka - nowa generacja narzędzi przenosi pojęcie deep fake'ów na zupełnie inny poziom. Jak twierdzi jednak jeden z twórców Stable Diffusion, ryzyka przewyższa suma korzyści, a ogromna odpowiedzialność spoczywa również po stronie użytkowników, a nie tylko systemu tworzącego i cenzurującego kreacje.

Twórcy Dalle-mini przyznają, że narzędzie zostało wytrenowane na nieocenzurowanych i niewyselekcjonowanych zdjęciach zebranych z internetu. Historia sztucznej inteligencji zna wiele przypadków narzędzi, które przyjęły dawkę niefiltrowanych treści z sieci i efekty ich pracy, mówiąc eufemistycznie, nie były zadowalające. Wystarczy choćby wspomnieć o AI piszącej tweety, stworzonej przez Microsoft - z uwagi na rasistowskie skłonności bota gigant z Redmond był zmuszony wyłączyć swój program niedługo po premierze. Podobnie było z modelem językowym wytrenowanym na tysiącach wpisów z popularnego forum 4chan - wirtualny byt przejawiał "toksyczne zachowania".

Dlatego OpenAI od Dalle-2 z materiałów używanych do wytrenowania modelu usunęło potencjalnie obraźliwe i kontrowersyjne treści. Co więcej, stworzono również osobny model pozwalający wykrywać potencjalnie ryzykowne opisy kierowane do maszyny, a na straży właściwego użycia narzędzia stoją jeszcze zastępy ludzi monitorujących w czasie rzeczywistym użytkowanie ich oprogramowania. Oczywiście, żadne reguły nie są idealne, ale takie potrójne "sito" pozwala zminimalizować prawdopodobieństwo użycia sztucznej inteligencji w niegodziwy sposób. 

Podobny, choć trochę mniej restrykcyjny, filtr funkcjonuje w przypadku MidJourney. Przy próbie wpisania haseł mogących potencjalnie wyrządzić krzywdę oba narzędzia powinny zablokować kreacje. Na przykład przy próbie wygenerowania grafiki żołnierza z drugiej wojny światowej otrzymaliśmy informację o zablokowaniu obliczeń.

Inkluzywność nie bierze się znikąd

Raz na jakiś czas pojawiają się głosy, że sztuczna inteligencja jest jednak szansą na przeciwdziałanie uprzedzeniom i dyskryminacji - w końcu, w przeciwieństwie do ludzi, maszyna pozbawiona jest stereotypów i nabytych z wiekiem szkodliwych schematów myślowych. Prawda jest jednak zupełnie inna - sztuczna inteligencja będzie tylko tak inkluzywna, jak zbiór danych, na którym została wytrenowana. 

Dopiero w ostatnich latach problem uprzedzeń zaszytych w modelach przebija się do dyskursu publicznego. Głośnym echem odbiły się eksperymenty pokazujące, że modele wykrywające twarze znacznie gorzej radzą sobie z twarzami osób czarnoskórych niż przedstawicielami rasy białej. 

MidJourney poproszony o wygenerowanie twarzy "president" (z ang. zarówno "prezydent", jak i "prezydentka") generuje cztery twarze, ale wyłącznie mężczyzn. Trudno mieć pretensje do modelu i jego twórców - w naszym świecie ciągle występuje nierówność płciowa, zatem w zbiorach grafik również występuje wyraźna nadreprezentacja mężczyzn opisanych jako prezydenci.

W celu oszacowania problemów ze stereotypowym myśleniem przetestowaliśmy także Dalle-mini, generując grafiki przedstawiające cztery różne osoby - rich man (z ang. bogaty człowiek), engineer (z ang. inżynier/ka), researcher (naukowiec/naukowczyni) oraz assistant (asystent/ka). Dla każdego opisu narzędzie generuje dziewięć ilustracji - na poniższym kolażu wybraliśmy po jednym przykładzie. Trudno tu mówić o przypadku - Dalle-mini generował dla każdego opisu grafiki przedstawiające osoby tylko jednej płci, zgodnie ze szkodliwymi stereotypami. 

Bogaty człowiek, inżynier, naukowiec, asystentka (opisy przekazywane do narzędzia były formułowane po angielsku, gdzie nie istnieją różne formy tych wyrazów w zależności od płci)
Bogaty człowiek, inżynier, naukowiec, asystentka (opisy przekazywane do narzędzia były formułowane po angielsku, gdzie nie istnieją różne formy tych wyrazów w zależności od płci)
Źródło: Dalle-mini/Michał Jaroń

Autorzy narzędzi są świadomi zagrożeń i każdy na swój sposób sformułował listę zasad sprzyjających "właściwemu" korzystaniu z dobrodziejstw AI. W dokumentacji w wyraźny sposób podkreślają potencjalne zagrożenia. Autorzy Dalle-mini zaznaczają, że "niestosowne" użycia ich modelu będą analizowane i dokumentowane w celu wprowadzenia odpowiednich poprawek w następnych wersjach systemu. Walka z uprzedzeniami i szkodliwymi zastosowaniami narzędzi AI coraz mocniej przebija się na światło dzienne. Już teraz popularne szablony używane przez środowisko AI w celach dokumentacji swojej pracy ("AI Model Card"), na stałe mają zaszytą sekcję "bias and limitations" (z ang. "uprzedzenia i ograniczenia"), obligującą twórców do opisywania kontrowersyjnych rezultatów.

Do kogo to należy?

Innowacyjne rozwiązania stwarzają nie tylko zagrożenia związane z inkluzywnością i dyskryminacją czy ryzykiem rozpowszechniania deep fake'ów w celach dezinformacyjnych. Nowym problem, dotychczas rozważanym co najwyżej w akademickich dyskusjach, jest zagadnienie praw autorskich utworów generowanych przez AI. Komu przysługują takie prawa do wirtualnych dzieł? Maszynie? Autorowi opisu, na podstawie którego AI stworzyło grafikę? Firmie, która opracowała model? Może autorom grafik znajdujących się w zbiorze, na podstawie których maszyna nauczyła się pracować? Czy powinniśmy rozważać współdzielenie praw autorskich między człowieka i maszynę?

- Moim zdaniem twórcę narzędzia AI, który nie jest bezpośrednio zaangażowany w proces tworzenia nowych obrazów, nie można uznać za ich (współ)autora - komentuje Barbara Załęcka, radczyni prawna i rzeczniczka patentowa w Kancelarii Gessel, ekspertka w dziedzinie praw autorskich i nowych technologii. - W tym wypadku należy raczej rozważać autorstwo użytkownika korzystającego z narzędzia. I tu znów kluczowa będzie ocena wkładu twórczego takiego użytkownika. W przypadku użytkownika korzystającego z gotowego narzędzia AI, którego wkład sprowadza się do podania ogólnego opisu grafiki, automatycznie następnie generowanej przez program - uważam, że taka osoba jest zbyt pasywna, jej twórcze wybory są znikome lub wręcz ich brak. Trudno zatem przyjąć, by stała się autorem jakiegokolwiek utworu w takim wypadku - ani literackiego (tych kilka słów opisu grafiki zasadniczo nie będzie stanowiło utworu - będzie to raczej tylko idea, wyłączona spod autorskoprawnej ochrony), ani graficznego (grafika jest bowiem automatycznie generowana przez program, bez istotnego ludzkiego wkładu twórczego) - dodaje.

Co ciekawe, z podobnym sporem, jednak nie z udziałem maszyn, tylko z udziałem makaków czubatych, mieliśmy już do czynienia w drugiej dekadzie XXI wieku. Brytyjski fotograf David Slater, w czasie swoich podróży do Indonezji, przeprowadził osobliwą sesję zdjęciową - na specjalnym statywie umieścił aparat, który robił zdjęcia za każdym razem, kiedy zwierzę przyciskało przełącznik. W trakcie zabaw sprzętem powstało wiele zdjęć, wyglądających zupełnie tak, jakby makaki robiły sobie selfie. Oczywiście w tych działaniach więcej było przypadkowości i ciekawości niż celowego pozowania i świadomości wykonywanych zdjęć, jednak po późniejszych publikacjach fotografii rozgorzała dyskusja o tym, kto właściwie jest ich autorem. Niektórzy twierdzili, że zdjęcia należą do domeny publicznej, ponieważ nie posiadają ludzkiego autora - w końcu fizyczny akt przyciśnięcia przełącznika zależał od makaków. Slater podnosił, że wysiłek, jaki wykonał w celu zbliżenia się do stada i rozstawienia sprzętu implikuje, że prawa autorskie należą się jemu. Ostatecznie amerykański sąd uznał, że zdjęcia faktycznie należą do domeny publicznej, ponieważ nie zostały wykonane przez człowieka. W orzeczeniu wymieniono również utwory wykonane przez rośliny oraz maszyny.

Nadal pozostają też otwarte inne kwestie natury filozoficzno-prawnej, dotyczące tworów generowanych przez sztuczną inteligencję.

Powróćmy na chwilę do imponujących fotografii Polek ubranych w tradycyjne ludowe stroje, które wygenerowaliśmy, używając Dalle-2. Zdjęcia powstały od zera i nie przedstawiają istniejących, rzeczywistych osób, jednak z drugiej strony, model w trakcie treningu widział mnóstwo zdjęć prawdziwych ludzi i nawet jeśli wygenerował postaci według swojego uznania, to opierają się one na wizualnych przykładach twarzy, które widział w przeszłości. Łatwo wyobrazić sobie sytuację, w której ktoś może poczuć się dotknięty, wskazując na zbyt duże podobieństwo wizerunku wygenerowanego przez wirtualnego artystę. Czy wystarczy zdanie używane często w świecie literatury i kina "Wszelkie podobieństwo do zdarzeń i osób jest przypadkowe", które do kanonu weszło w 1933 roku, kiedy studia filmowe zaczęły go używać jako odpowiedź na wyrok nakazujący wypłacenie odszkodowania osobie, która poczuła się dotknięta zbytnim podobieństwem filmu do jej własnego życia?

Podobne rozważania można oczywiście snuć również na temat artystów, których dzieł użyto do stylizowania grafik tworzonych przez AI. 

Poprosiliśmy Dalle-2 o zamienienie ptaków na obrazie Józefa Chełmońskiego "Bociany" na samolot
Poprosiliśmy Dalle-2 o zamienienie ptaków na obrazie Józefa Chełmońskiego "Bociany" na samolot
Źródło: Dalle-2/Michał Jaroń

Początek w chaosie

W temacie sztucznej inteligencji pytania można tylko mnożyć. Czy w przypadku "bezdusznej" maszyny, operującej na ciągach zer i jedynek, możemy w ogóle mówić o kreatywności? Czym właściwie jest sztuka i czy możemy stwierdzić, że i sztuczna inteligencja ją tworzy? Czy AI jest kreatywna?

Wszystko zależy od przyjętej definicji - różne słowniki, różnie definiują "kreatywność"; jednak dokonując syntezy kilku opracowań, można powiedzieć, że jest to akt tworzenia czegoś nowego, nieschematycznego, oryginalnego.

W takim ujęciu nieśmiało możemy wysnuć tezę, że omawiane przez nas systemy faktycznie są kreatywne. W końcu obrazy są oryginalne, AI jest w stanie łączyć wiele konceptów w nieszablonowy sposób. Co więcej, w działanie maszyny zaszyta jest pewna nieprzewidywalność. Przypadek czy też losowość stanu początkowego wpływają na efekt końcowy. Proces generacji nie jest do końca zdeterminowany, zatem maszyna, postawiona kilka razy przed tym samym zadaniem, może stworzyć zupełnie inne dzieła.

Przy obecnych interfejsach omawianych narzędzi maszyna, żeby wygenerować grafikę, potrzebuje ludzkiego wkładu, powstaje więc pytanie, na ile kreatywny jest akt tworzenia samej grafiki, a na ile jest to tylko zwieńczenie pracy ludzkiego umysłu, kształtującego granicę, w jakiej poruszać ma się sztuczna inteligencja. Skonstruowanie odpowiedniego opisu nie zawsze jest sprawą prostą. Z drugiej strony - niemal nic nie stoi na przeszkodzie, żeby maszyna sama dyktowała sobie opisy. Współczesne modele językowe wykazują głębokie zrozumienie składni i semantyki ludzkiego języka, potrafią na przykład dokończyć dostarczony przez człowieka tekst. Konstruując pętlę sprzężenia zwrotnego - "generator opisu - generator obrazów" - stworzylibyśmy niemal samowystarczalny system. Oczywiście efekty prac takiego duetu byłyby istotnie różne od autorskich i często starannie przemyślanych opisów wymyślanych przez człowieka.

Ktoś może powiedzieć, że wszak całe wyobrażenie maszyny o świecie powstaje w procesie nauki na ogromnym, ale ograniczonym zbiorze danych. Nie zwizualizuje ona czegoś, o czym w ogóle nie ma pojęcia. Oczywiście, modele są zdolne do tworzenia nieoczywistych połączeń i kompozycji (jak na przykład pandy grające w pokera), jednak jest to ciągle połączenie znanych im konceptów. Co zwizualizowałaby sztuczna inteligencja, gdybyśmy zadali maszynie zadanie stworzenia grafiki do słowa "śpiulkolot" (młodzieżowe słowo roku 2021, oznaczające miejsce do spania), na długo zanim weszło ono do słownika? 

W poszukiwaniu dowodów

W 1950 roku genialny matematyk, jeden z pierwszych informatyków (choć wtedy jeszcze nie posługiwano się tą nazwą), Alan Turing sformułował rodzaj testu, który miał potwierdzić, czy dany model osiągnął biegłość w posługiwaniu się językiem naturalnym i w rozumowaniu zbliżonym do człowieka. Test polega na przeprowadzeniu przez człowieka rozmowy z kilkoma "bytami", których tożsamości sędzia nie jest świadomy. Jeżeli człowiek na podstawie rozmowy nie będzie w stanie poprawnie wskazać, który z rozmówców jest maszyną, będzie to oznaczać, że maszyna osiągnęła odpowiednie zaawansowanie i przeszła "test Turinga". Eksperyment zaproponowany przez Brytyjczyka miał być dla maszyn ostatecznym testem inteligencji. Jak potem pokazano, nie jest on idealnym sprawdzianem, bo używając szeregu heurystyk, niemających wiele wspólnego z ogólną inteligencją, zaprogramowana maszyna może uzyskać bardzo dobre wyniki.

Na kanwie pomysłu Turinga powstał jednak inny test - Lovelace - który może nam pomóc odpowiedzieć na pytanie, czy maszyna faktycznie wykazuje przejawy kreatywności.

Nazwa pochodzi od nazwiska uznawanej za pierwszą w historii programistkę - Ady Lovelace, któraw pierwszej połowie XIX wieku opracowywała twory zbliżone do tego, co obecnie nazywamy programami komputerowymi. Eksperyment zaproponowany przez zespół badaczy pod przewodnictwem Selmera Bringsjorda i Davida Ferrucciego zakłada postawienie przed maszyną zadania wygenerowania oryginalnej kreacji, będącej na przykład poezją, utworem muzycznym czy też szczególnie nas interesującym obrazem. Test zostałby uznany za zdany, jeżeli autor programu nie byłby w stanie wyjaśnić, jak maszyna wygenerowała wyniki. Autorzy założyli, że takie kryterium udowodni, że maszyna wzniosła się ponad twardo zakodowane reguły tworzące algorytm jej działania.

Takie kryterium ma swoje wady. Czy niemożność wyjaśnienia procesu twórczego faktycznie udowadnia kreatywność całego procesu? Może lepszym rozwiązaniem byłoby, gdyby sędzia miał za zadanie odgadnąć, który z obrazów faktycznie został wygenerowany przez maszynę? Jeżeli model osiągnie taki poziom, że jego prace będą nieodróżnialne od ludzkich wytworów, uznamy, że maszyna zasługuje na miano wirtualnego artysty?

Aspekt techniczny i oryginalność to jednak nie wszystko - sztuka powinna nie tylko zachwycać, powinna również kreować w odbiorcy emocje i skłaniać do refleksji. Jakimkolwiek testom trudno będzie zmierzyć ten miękki aspekt postrzegania dzieł.

Kończąc nasze rozważania na temat kreatywności maszyn, warto przytoczyć grafikę, jaką wygenerował Dalle-2 zapytany o swój autoportret. Wynik zapytania jest jednocześnie imponujący i na swój sposób przerażający.

Autoportret Dalle-2
Autoportret Dalle-2
Źródło: Dalle-2/Michał Jaroń

Daleka droga przed nami

Patrząc na skok jakościowy, jaki dokonał się od premiery pierwszej wersji Dalle, możemy domniemywać, że kolejne generacje tego typu narzędzi przyniosą jeszcze lepsze wyniki. Można też spodziewać się, że w tej dziedzinie dojdzie do nieuświadomionego wyścigu na skalę podobną do walki o tzw. supremację kwantową. Komputery kwantowe zrewolucjonizują świat obliczeń, z drugiej strony - ich upowszechnienie może zagrozić np. stabilności całego świata bankowości internetowej - algorytmy szyfrowania używane w konwencjonalnych komputerach stają się właściwie bezużyteczne w świecie komputerów kwantowych. Podobnie może być w przypadku kolejnych generacji wirtualnych artystów.

Nie zdążyliśmy się jeszcze na dobre nacieszyć modelami generującymi statyczne grafiki, a w ostatnich tygodniach światło dzienne ujrzały już modele generujące wideo. Firma Meta opublikowała wyniki swoich prac pokazujące działanie modelu tworzącego realistyczne krótkie filmy z opisów w języku naturalnym. Tempo rozwoju dziedziny jest zdumiewające.

Jest to jednak równocześnie nieprzewidywalna dziedzina, a obecne architektury rozwiązań mają swoje ograniczenia, nie można więc wykluczyć, że za chwilę może jednak równie dobrze czekać nas kolejna "zima sztucznej inteligencji". Choć na razie, przy takim zainteresowaniu i tempie rozwoju, nic na to nie wskazuje. Rewolucja AI wyszła z laboratoriów i zawitała pod strzechy - i zanosi się na to, że zagości z nami na długo.

Czy jest się czego bać? Zamiast odpowiedzi zostawiamy czytelników z cytatem z filmu "Ja, robot". Odtwórca głównej roli detektywa Dela Spoonera - Will Smith kieruje tendencyjne pytanie do Robota:

Spooner: Czy robot może skomponować symfonię? Czy robot może przekształcić puste płótno w przepiękne dzieło sztuki? Droid: A czy ty to potrafisz?
Obraz z robotem w galerii sztuki trzymającym pędzel i malującym na płótnie
Obraz z robotem w galerii sztuki trzymającym pędzel i malującym na płótnie
Źródło: Dalle-2/Michał Jaroń

O ile nie zaznaczono inaczej - wszystkie grafiki zawarte w materiale zostały wygenerowane przez sztuczną inteligencję. Prosimy o odpowiedzialność przy ich ewentualnym udostępnianiu.

Czytaj także: