ChatGPT pojawił się nagle i zawojował nie tylko internet, ale także naszą wyobraźnię. Temat sztucznej inteligencji, jeszcze do niedawna tak odległy, stał się codziennością. Jednak nie jesteśmy skazani na rozwiązania zza oceanu. W Polsce powstały już trzy alternatywy dla niego - Trurl, Qra i Bielik, a czwarty, który ma być największy, jest w drodze.
Pod nazwą ChatGPT kryje się nie tylko znana aplikacja, to przede wszystkim LLM, czyli Large Language Model – Duży Model Językowy. To rodzaj sztucznej inteligencji zaprojektowany w celu rozumienia i generowania odpowiedzi na zapytania w ludzkim języku. W celu stworzenia LLM wykorzystuje się ogromne zbiory danych i techniki tzw. głębokiego uczenia, by model mógł rozumieć, podsumowywać i tworzyć treści. To może być na przykład prośba o przetłumaczenie tekstu na język angielski, wymyślenie prostej historii, podsumowanie artykułu, czy nawet napisanie kodu w jednym z wielu języków programowania.
Jak powstaje LLM
Jak wyjaśnia dr inż. Marek Kozłowski, kierownik AI LAB w Ośrodku Przetwarzania Informacji (OPI) - Państwowego Instytutu Badawczego, jeden z autorów modelu Qra, partner w konsorcjum PLLuM, gdzie trwają prace nad największym polskim LLM, uczenie LLM przebiega w trzech etapach.
Pierwszy to trenowanie na zbiorach danych tekstowych, dzięki czemu powstaje model fundamentalny. Zna on główne zasady języka i posiada podstawowe informacje, ale nie potrafi rozwiązywać konkretnych zadań. Potrafi tylko uzupełnić tekst na bazie kontekstu podanego w poleceniu zwanym promptem. Drugim krokiem jest tzw. strojenie za pomocą dużych zbiorów przeróżnych instrukcji zawierających zadania z przykładowymi rozwiązaniami. To np. streszczenie tekstu, udzielenie odpowiedzi na pytanie, polecenie napisania przemówienia. Ostatnim etapem jest wychowanie modelu na podstawie bazy zbiorów preferencji - ludzie oceniają odpowiedzi modelu językowego, a ich opinie są wykorzystywane do jego optymalizacji.
- Model fundamentalny tak naprawdę przewiduje tylko następne słowo. Na przykład napiszemy mu "Adam Mickiewicz to", a on przewidzi, że następnym słowem powinien być "poeta" - tłumaczy Sebastian Kondracki, Chief Innovation Officer w Devinti i jeden z założycieli SpeakLeash, otwartego prywatnego projektu, który odpowiada za model językowy o nazwie Bielik.
- On ma wiedzę o niuansach związanych z językiem, gramatyką na przykład, ale żeby go wyszkolić potrzebujemy czystych tekstów. Tu nie ma potrzeby żadnej ludzkiej czy też inżynierskiej pracy nad tymi tekstami. To trenowanie wygląda trochę tak, jakbyśmy posadzili kogoś w bibliotece i powiedzieli mu czytaj. I on czyta takie duże ilości tekstów, że pomału całą wiedzę o języku, strukturach, bardzo często o idiomach, to wszystko sobie magazynuje i przyswaja – wskazuje.
Model językowy można szkolić na wielu różnych rodzajach dokumentów. Od książek, poprzez ustawy, prace naukowe, raporty, czy wszystkiego, co jest dostępne w internecie. - Projekt Gutenberg, czyli książki, do których już wygasły prawa autorskie, wszelkie raporty rządowe, legislacja, zapisy protokołów z rad miejskich, komisji śledczych. To wszystko może być źródłem dla modelu bazowego – wylicza Kondracki.
Przy kolejnym etapie konieczny jest człowiek, który będzie nauczycielem i przekaże modelowi wskazówki, instrukcje z odpowiedziami, "zadania z kluczem".
- Tu jest ciężej. Nie potrzebujemy już tylko czystego tekstu, ale ludzkiej ręki, mentora, który poprowadzi. No i to jest gorszy element, bo w Polsce nie ma w ogóle takich danych, więc musieliśmy je tworzyć. Na przykład członkini naszej społeczności wykorzystała swoje doświadczenie z astrofotografii do przygotowania instrukcji - przy jakiej pogodzie są najlepsze zdjęcia? - opisuje Kondracki, ale zauważa przy tym, że przydałoby się stworzenie jakiegoś większego rozwiązania na poziomie państwowym.
- Może jakiś program dla seniorów, którzy pomogliby nam stworzyć instrukcje dla języka śląskiego? Czy też by studenci jakieś prace zaliczeniowe robili w formie instrukcji? Z jednej strony mieliby zaliczenie, a z drugiej dysponowalibyśmy instrukcjami z zakresu medycyny, prawa czy też innych dziedzin. Różne kraje przyjmują różne rozwiązania – zauważa.
Z ziarna powstał Bielik
SpeakLeash a.k.a Spichlerz to otwarty projekt, inicjatywa utworzenia polskiego LLM-a. Tworzony jest niejako "po godzinach" przez społeczność pasjonatów.
- Spichlerz ruszył, by zbierać różne zasoby. A jak zasoby tekstowe, to słowo, a jak słowo to ziarno, a te zaś przechowuje się w Spichlerzu. Jako że na początku bardzo dużo kontaktowaliśmy się z zagranicznymi ośrodkami naukowymi, to pozwoliliśmy sobie na taki mały żart, żeby łatwiej było wymawiać zagranicznym partnerom. Stąd SpeakLeash – wyjaśnia Kondracki.
Z nazwą dla samego modelu - Bielik - było już nieco inaczej. Z wybrana już przez całą społeczność, która gromadziła się wokół projektu. Jak wyjaśnia nasz rozmówca, to jednocześnie jest nawiązanie do polskiego godła, ale też bieliki mieszkają w całej Europie. Więc podkreślona jest i polskość, i europejskość projektu. Do tego "brzmi dobrze".
Bielik trenowany był na superkomputerze Helios - systemie zainstalowanym w Akademickim Centrum Komputerowym Cyfronet AGH. Powstał w wyniku prac realizowanych w w koordynowanym przez Cyfronet projekcie Narodowa Infrastruktura Superkomputerowa dla EuroHPC – EuroHPC PL. Helios jest na trzecim miejscu światowej listy Green500 najbardziej ekologicznych superkomputerów.
Składa się on z trzech partycji obliczeniowych i osiąga 35 PFlops teoretycznej mocy obliczeniowej. Co to oznacza? W uproszczeniu FLOPS to skrót od "floating point operations per second" czyli "'operacje zmiennoprzecinkowe na sekundę". To jednostka miary wydajności komputera. 35 petaflopów oznacza, że komputer może wykonać 35 biliardów takich operacji na sekundę.
Po co nam polski model językowy?
Wielu Polaków korzystających z rozwiązania dostarczanego przez OpenAI może zapytać, ale po co nam polski LLM, skoro ten działa? Rzecz w tym, że owszem, szkolony jest na przeogromnym zbiorze danych, ale większość z nich dostarczona jest w języku angielskim.
- Raport takiego otwartego modelu jak Llama/Mistral pokazuje, że jego uczenie się opiera się co najmniej w 95 procentach na danych anglojęzycznych. Pozostałe 5 procent to inne języki, w tym dane polskojęzyczne stanowiące ułamek procenta całości. Owszem, przy takiej skali nawet ten ułamek zapewnia wystarczającą reprezentację, dzięki której model ma podstawy pisania i logicznego rozumowania w danym języku. Zwłaszcza, że w trakcie nauki dochodzi do transferu wiedzy między językami - wskazuje Kozłowski. - Jednak model wytrenowany na małych danych polskojęzycznych jest słabszy w tworzeniu wysokiej jakości treści w naszym języku i nie radzi sobie za dobrze z kontekstem kulturowo-historycznym - dodaje.
To jednak niejedyny argument stojący za tym, by stworzyć polskie rozwiązanie. Kozłowski wskazuje, że tworząc model narodowy można zadbać o pełną transparentność i kontrolę nad kolejnymi etapami jego powstawania. Zwłaszcza o selekcję danych, jakie są dostarczane.
- Istotnym argumentem są również koszty. Duży, liczący setki miliardów parametrów model wymaga użycia klastrów najlepszej klasy kart graficznych, a jego skalowanie wymaga multiplikacji takich klastrów. To często zmusza nas do użycia rozwiązań chmurowych, co wiąże się z istotnymi kosztami i ryzykami które nie zawsze musimy ponosić, wiele zadań biznesowych da się rozwiązać mniejszymi dostosowanymi modelami - zauważa Kozłowski.
Nasi rozmówcy zauważają, że polskie modele językowe powinny powstawać także po to, byśmy byli nie tylko odbiorcami, ale także twórcami.
- Warto budować ekosystem do tworzenia LLMów. Kluczowe jest opracowanie całego potoku od zbierania danych, ich walidacji, po uczenie, ewaluacje i wdrażanie w konkretnych tematach, zastosowaniach. Po pierwsze takie podejście daje nam możliwość dostarczania nowych modeli w przyszłości, ale też kształci kadry, kluczowe dla rozwoju tej dziedziny w Polsce – mówi przedstawiciel projektu PLLuM.
Zgadza się z nim Kondracki, który zauważa, że o ile mamy bardzo dobrych specjalistów, to niestety migrują oni za granicę. – Przecież w pewnym momencie 50 procent składu osobowego w OpenAI to byli polscy inżynierowie – wskazuje dodając, że tworzenie modeli w Polsce mogłoby pomóc zatrzymać specjalistów w kraju.
- Tworzenie modeli powoduje, że możemy też tworzyć narzędzia do ich budowania i wykorzystywania. Cały ekosystem, który może być używany przez uczelnie, żeby uczyć studentów, żebyśmy mogli podnosić kompetencje polskich inżynierów. Żeby nie było tak, że oni po ukończeniu szkoły jadą po praktyczną wiedzę za granicę i tam już zostają - mówi Kondracki.
Żeby polski emeryt brzmiał polsko
Pomysł na Bielika wziął się z potrzeby. Założyciele projektu pracują w biznesie i mieli dostęp do takich narzędzi jak ChatGPT od OpenAI, ale napotkali na kilka problemów. Po pierwsze to zamknięte API, czyli interfejs programowania aplikacji. Podmioty polskie, ale też europejskie, które na przykład przetwarzają tajemnice bankową czy adwokacką swoich klientów, albo dane pacjentów z takie rozwiązania nie mogą korzystać. - Oczywiście jest możliwość korzystania z prywatnej chmury, ale bardzo wrażliwych danych nie da się w ten sposób przetwarzać - zaznacza Kondracki.
Drugą kwestią było to, że po polsku taki ChatGPT ładnie pisze, ale widać na nim mocne zachodnie naleciałości. Tu pojawia się wspomniany kontekst kulturowo-historyczny.
- Jak przetwarzamy język polski przez te zagraniczne modele, to mamy trochę takie wrażenie, jakbyśmy rozmawiali z Amerykaninem, który owszem perfekcyjnie pisze po polsku, ale całe życie mieszkał w Stanach Zjednoczonych i nie zna kontekstu kulturowego. Jakbyśmy poprosili go o napisanie dialogu pomiędzy dwoma polskimi emerytami, to okazuje się, że zaczyna on od "Hej, jak się masz? Super, a Ty?". Czyli typowo amerykańskich zwrotów. Nasi emeryci raczej zaczęliby od "Cześć, co tam u Ciebie? Szkoda gadać, stara bida" – tłumaczy na przykładzie założyciel Spichlerza.
Stąd pojawił się pomysł na Spichlerz i Bielika, by zagospodarować tę niszę i stworzyć właśnie taki model, który nawet firma średniej wielkości może uruchomić na swoim serwerze. - Może przetwarzać w ten sposób tajne dokumenty i polskie teksty w taki sposób, jakby to naprawdę Polak pisał te teksty – dodaje.
Nie tylko orzeł, ale także Qra
Istotne są tu oczywiście zbiory danych. Im więcej tym lepiej, wówczas model będzie poprawniejszy, dokładniejszy. - Warto pamiętać, że istotne są zbiory danych, duże, ale i jakościowe. My w PLLuMie prowadzimy skomplikowany proces filtracji i deduplikacji, by zachować jakość tych danych – wyjaśnia Kozłowski.
Pierwsze modele generatywne liczące kilkanaście miliardów parametrów wstępnie uczone na dużych wolumenach polskich tekstów powstały w Polsce na początku 2024, nadano im nazwę Qra. Wykorzystano przy tym olbrzymie zbiory tekstów w naszym ojczystym języku, które liczyły prawie 100 miliardów tak zwanych tokenów (w uproszczeniu można przyjąć, że jeden token to jedno słowo).
PLLuM - Polish Large Language Model, czyli Polski Duży Model Językowy, powstaje na zlecenie Ministerstwa Cyfryzacji od 22 stycznia tego roku w ramach konsorcjum sześciu jednostek naukowych:
- Politechniki Wrocławskiej, Instytutu Podstaw Informatyki PAN, - Instytutu Slawistyki PAN, - Naukowej i Akademickiej Sieci Komputerowej, - Ośrodka Przetwarzania Informacji, - oraz Uniwersytetu Łódzkiego.
W ramach projektu zebrano polskie teksty liczące prawie 200 miliardów tokenów. Do tego naukowcy mają też kilkadziesiąt tysięcy ręcznie napisanych instrukcji, które są kluczowe dla drugiej fazy uczenia modelu. Powstało już kilka mniejszych modeli, ale projekt wciąż trwa i naukowcy chcą zmierzyć się z "wielorybem".
- W ramach tego projektu planujemy nie tylko stworzyć serię polskich modeli językowych, od relatywnie małych, zawierające około 10 miliardów parametrów, ale także zmierzyć się z takimi naprawdę dużymi, rzędu 50-100 miliardów parametrów. Kluczowe znaczenie ma utworzenie całego ekosystemu do ich uczenia, który może również posłużyć do treningu kolejnych LLM-ów - mówi Kozłowski o PLLuM, który ma zostać udostępniony pod koniec 2024 roku.
- Ponadto model ten jest wzbogacony o różne procesy asystujące, takie jak korekta wyjścia, dostosowanie do preferencji czy budowa specjalistycznych narzędzi, które mogą stosunkowo szybko integrować modele językowe i wdrażać je np. w urzędach - wskazuje.
Modele językowe mogłyby ułatwić pracę w bankach, urzędach, towarzystwach ubezpieczeniowych czy służbie zdrowia. Jednak instytucje te muszą mieć pełną kontrolę nad narzędziem. Model musi być w pełni zgodny z polskim i europejskim prawem dotyczącym sztucznej inteligencji oraz przetwarzania danych osobowych. Tego nie da się powiedzieć o ogólnodostępnych, ponadnarodowych rozwiązaniach. Do tego powinien działać w ich lokalnej infrastrukturze, dzięki czemu ryzyko np. wycieku danych klientów czy pacjentów zostanie zmniejszone. Z chmury łatwiej wykraść dane niż z lokalnego serwera.
Tu z odpowiedzią ma właśnie przyjść PLLuM. Jego właścicielem jest Ministerstwo Cyfryzacji i założenie jest takie, że po jego ukończeniu model ma zostać udostępniony na otwartej licencji. W ramach PLLuMa powstaje demonstracyjne wdrożenie w postaci asystenta petenta – narzędzia przydatnego w administracji publicznej oraz w biznesie.
- Naukowcy i naukowczynie oraz komercyjni deweloperzy będą mogli zaglądać do wnętrza modelu w celu kontrolowania i testowania jego zachowań, a także badania struktur i wzorców reakcji. To istotna przewaga, ponieważ w większości przypadków (modele Google, OpenAI) taki dostęp jest sukcesywnie ograniczany, albo zamknięty jak w modelu Anthropic. Co więcej, również mniejsze modele dostępne na polskim rynku mają licencje ograniczające ich komercyjne wykorzystanie. Problem otwartości dotyczy więc zarówno globalnych graczy, jak i lokalnych rozwiązań – tłumaczy przedstawiciel projektu, podkreślając, że PLLuM wyróżniają także bezpieczeństwo i transparentność. Dokumentacja związana z procesem tworzenia i uczenia modelu jest szeroko dostępna. Dzięki temu model można lepiej dopasować do potrzeb danej grupy użytkowników, a także zapewnić lepsze rozeznanie potencjalnych problemów.
Czy na rynku jest miejsce na więcej niż jeden polski model językowy?
Powstała wspomniana Qra, Bielik, prace nad PLLuMem trwają. Czy Polska potrzebuje więcej niż jednego polskiego modelu językowego? W ocenie założyciela Spichlerza jak najbardziej. Chociaż powstają duże modele językowe, to zauważa on, że raczej nie prędko, jeśli nigdy, nie powstanie w Polsce model takich rozmiarów jak ChatGPT od OpenAI. Jednak, jak wskazuje Kondracki "widać po Bieliku 2.1, że model kompaktowy (nazywane także SML - small language model) czasami przewyższa duże modele takie jak llama3.1 405MB parametrów i depcze po piętach GPT-4o".
- Budujemy modele kompaktowe, które po otrzymaniu odpowiednich ilości danych, będą wystarczające do tego, by były przydatne do pracy w organizacjach sektora publicznego czy biznesie. To nie są takie omnibusy, które będą umiały wszystko, na przykład odpowiedzieć nam po staropolsku. Jednak w naszej sytuacji lepiej zamiast jednego ogromnego modelu budować kilka specjalizowanych – wyjaśnia rozmówca redakcji biznes tvn24.pl i dodaje, że w jego ocenie na polskim rynku jest miejsce na pięć modeli językowych, które mogłyby działać w różnych specjalizacjach.
- My na przykład w Spichlerzu, poprzez to, że pracujemy w biznesie na co dzień, to jednak specjalizujemy się w tym biznesowym celu. - Może z czasem, kiedy na przykład zyskamy szerszy dostęp do danych medycznych, bo teraz mamy ich bardzo mało w Polsce, to powstanie model wyspecjalizowany dla medycyny - wyjaśnia.
Źródło: tvn24.pl
Źródło zdjęcia głównego: Shutterstock