Czy to koniec PDF-a?

PDF był pomyślany jako cyfrowy odpowiednik kartki papieru
Źródło: Shutterstock

Gdy pod koniec roku 2025 i na początku 2026 na stronach amerykańskiego Departamentu Sprawiedliwości opublikowane zostały miliony stron dokumentów związanych ze sprawą Jeffreya Epsteina, dziennikarze i analitycy szybko odkryli problem techniczny. Okazało się, że modele sztucznej inteligencji często nie radzą sobie z odczytem plików. Wszystkiemu winny jest… format PDF.

Artykuł dostępny w subskrypcji

Modele sztucznej inteligencji LLM (ang. large language models) widzą obrazy oraz czytają teksty. Przynajmniej niektóre z tekstów, bo na jednym z najbardziej podstawowych zadań cyfrowej biurokracji - analizie dokumentów PDF - AI wciąż się potyka.

Dokument, który miał wyglądać jak papier

Gdy firma Adobe w ramach projektu Camelot wprowadziła Portable Document Format w 1993 roku, pomysł wydawał się jednocześnie prosty i rewolucyjny. Plik miał wyglądać identycznie na każdym komputerze, niezależnie od systemu, drukarki czy zainstalowanych fontów.

PDF miał być cyfrowym odpowiednikiem kartki papieru: dokumentem, który można wysłać, wydrukować lub archiwizować bez ryzyka, że układ strony się rozpadnie. Strategia okazała się skuteczna. Dzięki dostępności darmowego programu Acrobat Reader format szybko stał się standardem, a instytucje publiczne zaczęły publikować formularze w PDF-ach. Jak ocenia brytyjski tygodnik "The Economist", dziś w internecie krążą biliony takich plików.

Ale to, co było jego największą zaletą - wierne odwzorowanie strony - stało się problemem w erze sztucznej inteligencji.

DOWIEDZ SIĘ WIĘCEJ:

"Ważne pytanie" w sprawie wojny. "Oficjalnie nikt się jeszcze nie przyznał"

Łukasz Figielski

"PDF to w dużej mierze instrukcja rysowania strony"

Tym problemem zawodowo zajął się Maciej Łukiański, programista związany ze środowiskiem open source. - Taki plik może zawierać i obraz, i tekst. Może też zawierać obrazy, na których jest tekst - dobrym przykładem jest skan dokumentu zapisany w PDF-ie - mówi.

Według niego kłopot tkwi w samej konstrukcji formatu. - W kwestii kodowania PDF to w dużej mierze instrukcja rysowania strony: informacje o pozycjonowaniu elementów, czcionkach czy układzie. Można to sobie wyobrazić tak: w punkcie x=142, y=503 narysuj literę A. Obok, w punkcie x=143, y=503 wstaw obraz - tłumaczy Łukiański.

Dodaje, że modele językowe są natomiast szkolone głównie na tekstach i obrazach, nie na takim "przepisie na rysowanie strony". Nie mają niczego, co bezpośrednio odpowiada strukturze PDF-a.

Dwa złe wyjścia

Dlatego gdy system AI próbuje zrozumieć PDF, musi najpierw zdecydować, jak go przetworzyć. - Są w praktyce dwa wyjścia. Można wyciągnąć tekst, ale wtedy tracimy układ wizualny: kolumny się mieszają, tabele rozpadają. Albo można zamienić stronę w obraz, ale wtedy tracimy precyzję tekstu - mówi Łukiański.

Teoretycznie można zrobić jedno i drugie jednocześnie, analizować zarówno obraz, jak i tekstową strukturę dokumentu. - Problem w tym, że to jest kilkukrotnie droższe obliczeniowo. Dlatego większość systemów AI po prostu wyciąga tekst - tłumaczy w rozmowie z TVN24+.

To z kolei prowadzi do błędów, które użytkownicy znają z chatbotów analizujących dokumenty PDF: pominiętych fragmentów, pomieszanych kolumn czy niezauważonych przypisów. - AI może też w ogóle przegapić tekst, znajdujący się na wstawionym obrazie albo skanie - dodaje Łukiański.