W kultowej bajce "Zaczarowany ołówek" główny bohater Piotrek wraz ze swoim psem za pomocą tytułowego ołówka rysowali obiekty, które potem magicznie ożywały. Kto z nas nie marzył, aby choć przez chwilę stać się właścicielem takiego przedmiotu? A co, gdyby lekko zmodyfikować ten pomysł i zamiast tworzyć rzeczywistość za pomocą tradycyjnego narzędzia - opisywać w języku naturalnym swoje wizje, które następnie się zmaterializują? Brzmi jak science fiction, jednak za sprawą najnowszych rozwiązań w dziedzinie sztucznej inteligencji takie "magiczne" narzędzie jest bliżej, niż nam się wydaje. Do świata AI, w którym nawet bez artystycznego talentu można tworzyć dzieła sztuki, zaprasza Michał Jaroń, specjalista od sztucznej inteligencji.
Autoportret Vincenta van Gogha w goglach VR, przemawiający na konferencji technologicznej i ubrany w smoking dinozaur, zdjęcie z zaprzysiężenia Kaczora Donalda na prezydenta USA - to tylko mała próbka obrazów, jakie są w stanie wygenerować rewolucyjne narzędzia oparte na sztucznej inteligencji (AI). Nawet z abstrakcyjnych opisów generują one grafiki tak realistyczne, że właściwie niemożliwe jest odróżnienie ich od wytworów pracy człowieka.
Jednym z takich narzędzi, na którego punkcie w ostatnich miesiącach oszalał technologiczny świat, jest Dalle-2 (nazwa nawiązuje do Salvadora Dali i postaci z popularnej animacji - sympatycznego robota Wall-E) stworzone przez OpenAI. To właśnie ono będzie głównym bohaterem naszej podróży po krainie, w której sztuczna inteligencja zyskała artystyczne umiejętności. Ale na rynku jest dostępnych także kilka innych podobnych systemów potrafiących generować przekonujące grafiki ze słownego opisu - wśród nich również bardzo popularny MidJourney, Stable Diffusion czy Imagen od Google.
Wszystkie pojawiły się na rynku w zbliżonym czasie. To zjawisko, które w świecie innowacji nazywa się "wielokrotnymi odkryciami" i zakłada, że większość odkryć naukowych powstaje niezależnie i mniej więcej w tym samym momencie jako wynikowa tendencji w społeczeństwie i narastającego zrozumienia danej dziedziny. Wysyp wspomnianych narzędzi nie jest więc wynikiem pojedynczego momentu eureki, a raczej rezultatem systematycznego rozwoju całej dziedziny. Zasiane dawno temu nasiona zaczęły dawać owoce w podobnym momencie.
Na początku był perceptron
Większość współczesnych dokonań sztucznej inteligencji opiera się na tzw. sieciach neuronowych - inspirowanych biologicznie systemach obliczeniowych, zbudowanych podobnie jak ludzki mózg: z neuronów i połączeń między nimi (synaps). Oczywiście sztuczne sieci neuronowe nie są fizycznie zbudowane z neuronów i synaps - to tylko abstrakcja dla klocków, z jakich składa się system.
Nie są też konceptem nowym - przyjmuje się, że pierwsze wzmianki o nich w literaturze naukowej pojawiły się już w latach 40. Teoretyczna koncepcja szybko znalazła swoją pierwszą praktyczną implementację - w 1958 roku psycholog z Uniwersytetu Cornella zaproponował prosty model symulujący działanie pojedynczego neuronu - zwanego perceptronem. Pojedynczy perceptron nie jest jednak zdolny do "opanowania" bardziej złożonych zagadnień.
Ale i na to nie trzeba było długo czekać. Już rok później powstała pierwsza sztuczna sieć neuronowa złożona z wielu neuronów. Adaline została zaprojektowana do redukowania szumu w liniach telekomunikacyjnych. Co ciekawe, dzięki genialnej i jednocześnie prostej strukturze warianty tego rozwiązania stosowane są do dzisiaj.
Po początkowych sukcesach zainteresowanie sieciami neuronowymi gwałtownie wzrosło, jednak ze względu na ówczesny poziom zaawansowania technologicznego oczekiwania rozjechały się z możliwościami. Od końcówki lat 60. do początku nowego milenium trwał okres znacznego obniżenia zainteresowania oraz finansowania badań nad sztuczną inteligencją. Ten okres stagnacji zwykło nazywać się "AI Winter". "Zima sztucznej inteligencji" była dla AI tym, czym wieki średnie były dla nauki. Oczywiście, cała dziedzina nie stała w miejscu - powstało wiele koncepcji, które obecnie stanowią podwaliny do bardziej zaawansowanych rozwiązań.
Ostatnie lata to już czas prawdziwej rewolucji w świecie AI, "wiosna sztucznej inteligencji". Dość powiedzieć, że pierwsza wersja Dalle ujrzała światło dzienne w styczniu 2021, a już niespełna półtora roku później opublikowano drugą, bardziej zaawansowaną. Porównanie rezultatów ich "twórczości" pokazuje, jak szybko rozwija się branża. Progres w jakości generowanych obrazów jest zdumiewający.
Nieskończony Luwr
Jak powstają takie obrazy? Od wpisania słownego opisu naszej wizji do momentu ukazania się wygenerowanych grafik mija dosłownie kilka sekund. Naszym oczom ukazują się obrazy, których nikt wcześniej nie widział, stworzone według naszego zamysłu z domieszką kreatywności sztucznej inteligencji.
Naszą przygodę rozpoczynamy od ponadczasowego klasyka - portretu Mona Lisy. W celu przetestowania możliwości sztucznej inteligencji rzucamy maszynie pierwsze wyzwanie - chcielibyśmy zobaczyć portret Mona Lisy, ale w stylu twórczości Andy'ego Warhola.
Już pierwsza próba daje piorunujący efekt - maszyna nie dość, że odtwarza naturę oryginału, to zadowalająco uwypukla również styl artysty.
Poprzeczka idzie już tylko w górę - w następnej próbie prosimy maszynę o wygenerowanie wizji "greckiego filozofa Platona występującego na popularnej konferencji TEDx". Z tym zadaniem Dalle-2 poradził sobie nieco gorzej - na pierwszy rzut oka dostrzegalne są niedokładności w wizualizacji: rozmycia, lekkie zniekształcenie twarzy. Z drugiej strony - semantyczna struktura grafiki jest znowu zaskakująco dobra - materializacja naszych wizji pozwala odbyć podróż w czasie i zobaczyć, jak słynny filozof prezentowałby się we współczesności.
Czytaj dalej po zalogowaniu
Uzyskaj dostęp do treści premium za darmo i bez reklam