Modele sztucznej inteligencji LLM (ang. large language models) widzą obrazy oraz czytają teksty. Przynajmniej niektóre z tekstów, bo na jednym z najbardziej podstawowych zadań cyfrowej biurokracji - analizie dokumentów PDF - AI wciąż się potyka.
Dokument, który miał wyglądać jak papier
Gdy firma Adobe w ramach projektu Camelot wprowadziła Portable Document Format w 1993 roku, pomysł wydawał się jednocześnie prosty i rewolucyjny. Plik miał wyglądać identycznie na każdym komputerze, niezależnie od systemu, drukarki czy zainstalowanych fontów.
PDF miał być cyfrowym odpowiednikiem kartki papieru: dokumentem, który można wysłać, wydrukować lub archiwizować bez ryzyka, że układ strony się rozpadnie. Strategia okazała się skuteczna. Dzięki dostępności darmowego programu Acrobat Reader format szybko stał się standardem, a instytucje publiczne zaczęły publikować formularze w PDF-ach. Jak ocenia brytyjski tygodnik "The Economist", dziś w internecie krążą biliony takich plików.
Ale to, co było jego największą zaletą - wierne odwzorowanie strony - stało się problemem w erze sztucznej inteligencji.
"PDF to w dużej mierze instrukcja rysowania strony"
Tym problemem zawodowo zajął się Maciej Łukiański, programista związany ze środowiskiem open source. - Taki plik może zawierać i obraz, i tekst. Może też zawierać obrazy, na których jest tekst - dobrym przykładem jest skan dokumentu zapisany w PDF-ie - mówi.
Według niego kłopot tkwi w samej konstrukcji formatu. - W kwestii kodowania PDF to w dużej mierze instrukcja rysowania strony: informacje o pozycjonowaniu elementów, czcionkach czy układzie. Można to sobie wyobrazić tak: w punkcie x=142, y=503 narysuj literę A. Obok, w punkcie x=143, y=503 wstaw obraz - tłumaczy Łukiański.
Dodaje, że modele językowe są natomiast szkolone głównie na tekstach i obrazach, nie na takim "przepisie na rysowanie strony". Nie mają niczego, co bezpośrednio odpowiada strukturze PDF-a.
Dwa złe wyjścia
Dlatego gdy system AI próbuje zrozumieć PDF, musi najpierw zdecydować, jak go przetworzyć. - Są w praktyce dwa wyjścia. Można wyciągnąć tekst, ale wtedy tracimy układ wizualny: kolumny się mieszają, tabele rozpadają. Albo można zamienić stronę w obraz, ale wtedy tracimy precyzję tekstu - mówi Łukiański.
Teoretycznie można zrobić jedno i drugie jednocześnie, analizować zarówno obraz, jak i tekstową strukturę dokumentu. - Problem w tym, że to jest kilkukrotnie droższe obliczeniowo. Dlatego większość systemów AI po prostu wyciąga tekst - tłumaczy w rozmowie z TVN24+.
To z kolei prowadzi do błędów, które użytkownicy znają z chatbotów analizujących dokumenty PDF: pominiętych fragmentów, pomieszanych kolumn czy niezauważonych przypisów. - AI może też w ogóle przegapić tekst, znajdujący się na wstawionym obrazie albo skanie - dodaje Łukiański.