AI może odmienić kontakt ze światem osób niewidomych

Aplikacje asystujące przeznaczone dla osób niewidomych zaczynają wdrażać ChatGPT-4 firmy OpenAI i efekty mogą budzić zdumienie. Ich użytkownicy są zachwyceni, mówią o nowym poziomie informacji, który ułatwia codzienne życie. Jednocześnie pojawiają się obawy związane z niedokładnością ChatGPT, zwłaszcza gdy aplikacja nie jest w stanie znaleźć odpowiedzi.

"Wired" opisuje przypadek Cheli Robes, która straciła zdolność widzenia w lewym oku, gdy miała 28 lat, a w prawym rok później. Dziś kobieta ma 38 lat i od kwietnia testuje Ask Envision, asystenta AI korzystającego z ChatGPT-4 i Google Glass.

System ten może pobierać obrazy i tekst, a na podstawie uzyskanych informacji tworzyć odpowiedzi i wchodzić w konwersację z użytkownikiem. Gdy dotknie ekranu dotykowego umieszczonego na okularach i poprosi o opis świata na zewnątrz, to dostaje odpowiedź, na przykład że niebo jest pochmurne.

W rozmowie z "Wired" kobieta mówi, że niepełnosprawność odebrała jej te małe detale, które pomagają ludziom zrozumieć się nawzajem w codziennym życiu, jak na przykład wyrazy twarzy. Zauważa, że jej ojciec ma specyficzne poczucie humoru i nie widząc jego twarzy nie zawsze jest pewna, kiedy mówi poważnie. - Jeśli zdjęcie może przekazać tysiąc słów, to wyobraź sobie, ile słów może przekazać wyraz twarzy - mówi.

Aplikacje odczytują świat dla niewidomych

Ask Envision jest jednym z kilku produktów wspomagających osoby niedowidzące, które zaczęły stosować modele sztucznej inteligencji. Mogą dostarczyć użytkownikom znacznie więcej szczegółów na temat otaczającego ich świata. Co za tym zaś idzie dać im także większą niezależność.

Envision zadebiutowała jako aplikacja na smartfony do odczytywania tekstu na zdjęciach w 2018 roku, a od początku 2021 roku dostępna była także na Google Glass (które w marcu 2023 r. zostały wycofane ze sprzedaży). Na początku tego roku rozpoczęła testowanie nowego modelu konwersacyjnego, który potrafił odpowiadać na najprostsze pytania. Następnie zaczęła korzystać z 4 wersji ChatGPT do opisu obrazów.

Jednak nie tylko oni. Be My Eyes to aplikacja dostępna na rynku od 12 lat. Do tej pory łączyła widzących, którzy chcą pomoc z osobom niedowidzącym. Od marca testowany jest wirtualny asystent, którzy korzysta z ChatGPT-4. Pomaga on identyfikować obiekty w otoczeniu, nawet bardzo szczegółowe.

Zaś Microsoft, główny inwestor w OpenAI, rozpoczął testy wdrożenia GPT-4 dla swojej usługi SeeingAI, która oferuje podobne rozwiązania, co wyżej wymienione aplikacje.

Jakie są różnice? Jak zauważa "Wired" we wcześniejszej wersji Envision po prostu odczytywał tekst na obrazie od początku do końca. Teraz może podsumować całość i odpowiedzieć na dodatkowe pytania. Np. odczytać menu w restauracji, nie wszystkie pozycje po kolei, ale np. tylko te bezmięsne czy odpowiedzieć na pytania użytkownika odnośnie cen albo ograniczeń dietetycznych.

W rozmowie z serwisem Richard Beardsley, inny tester aplikacji, mówi, że zazwyczaj korzysta z usługi, aby znaleźć informacje kontaktowe na rachunku lub przeczytać listę składników na pudełkach z jedzeniem. Posiadanie zestawu głośnomówiącego w okularach Google oznacza, że może z niego korzystać cały czas trzymając psa przewodnika na smyczy i laskę.

- Wcześniej nie można było przejść do określonej części tekstu. Możliwość przeskoczenia do konkretnego momentu znacznie ułatwia życie, dostajesz dokładnie to, czego szukasz – opowiada.

Do niedawna to było tylko w laboratoriach

Sina Bahram, niewidomy informatyk i szef firmy konsultingowej, która doradza w zakresie dostępności i integracji m.in. muzeom, parkom rozrywki czy firmom technologicznym, uważa, że integracja sztucznej inteligencji z aplikacjami dla osób niewidzących i niedowidzących może mieć ogromny wpływ na jakość życia ich użytkowników.

Bahram korzysta z Be My Eyes, które zaimplementowało ChatGPT-4 i zauważa, że w porównaniu do poprzednich wersji ma do czynienia z niewyobrażalną różnicą. Nieodzowny jest też fakt, że technologie te mogą być używane bez wysiłku i nie wymagają umiejętności technicznych. Opisuje dla „Wired” sytuację ze swojego życia, która miała miejsce dwa tygodnie wcześniej, gdy szedł ulicą Nowego Jorku z partnerem biznesowym. Gdy jego towarzysz zatrzymał się, by przyjrzeć się czemuś z bliska Bahram nie musiał czekać bezczynnie, pytać go czy coś się stało. Po prostu użył Be My Eyes i dowiedział się, że przygląda się on jakimś naklejkom, graffiti i rysunkom na ścianie. Zauważa, że taki poziom informacji to „coś, co nie istniało rok temu poza laboratorium (…) to po prostu nie było możliwe”.

Obawy przed błędami

Danna Gurari, adiunkt informatyki na University of Colorado w Boulder, mówi, że ekscytujące jest to, że niewidomi ludzie są na pierwszym froncie adaptacji nowych technologii, a nie pozostają w tyle. Jednak w jej ocenie jest to też nieco przerażające, że tak wrażliwa grupa społeczna musi mierzyć się z bałaganem i niekompetencją ze strony ChatGPT-4.

Każdego roku Gurari organizuje warsztaty o nazwie Viz Wiz na konferencji Computer Vision and Pattern Recognition, aby zgromadzić firmy takie jak Envision z badaczami sztucznej inteligencji i niewidomymi użytkownikami technologii. Kiedy Viz Wiz wystartował w 2018 roku, w warsztatach uczestniczyły tylko cztery zespoły. W tym roku zgłosiło się ponad 50 drużyn.

We wczesnych testach niektórych modeli zamiany obrazu na tekst, Gurari odkryła, że mogą one zmyślać informacje lub „halucynować”.

- W większości możemy polegać tylko na rzeczach bardzo konkretnych, ogólnych jak „widzę samochód, widzę osobę, widzę drzewo” – mówi w rozmowie z „Wired”. Zauważa, że to nie jest błaga informacja, ale jednocześnie powinien mieć ograniczone zaufanie co do odpowiedzi na zapytanie o to, co znajduje się w jego kanapce.

– Z wcześniej przeprowadzonych wywiadów wiemy, że osoby niewidome wolą otrzymywać jakiekolwiek informacje niż nie wiedzieć nic, więc to jest fantastyczne, że je dostają. Problem pojawia się, gdy podejmują decyzje na podstawie informacji nieprawdziwych – zauważa Gurari.

Jeśli sztuczna inteligencja np. błędnie zidentyfikuje lek albo składnik pokarmu, który jest alergenem, to może mieć to poważne konsekwencje, w tym zagrażać życiu.

Upragnione rozwiązania pomimo błędów

Jest jeszcze problem tego, że modele sztucznej inteligencji mają tendencje do błędnego identyfikowania wieku, rasy czy płci ludzi. Jak podaje „Wired” zbiory danych, na podstawie których szkolono sztuczną inteligencję są "wypaczone i stronnicze”, a w związku z tym i takie potrafią być efekty, czy też informacje zwrotne, które podaje program.

Bahram przyznaje, że jest to pewne ryzyko, ale zauważa, że systemy te oferują użytkownikom ocenę pewności, dzięki czemu ci mogą podejmować bardziej świadome decyzje na temat tego, co AI myśli, że widzi. Przede wszystkim jednak podkreśla, że osoby niewidome mają prawo do takiej samej informacji, co osoby widzące.

- Niedźwiedzią przysługą dla osób niewidomych byłoby udawanie, że każda osoba widząca nie zauważa od razu koloru skóry czy płci, niezależnie od tego, czy daje temu wyraz czy nie. Więc czemu mielibyśmy ograniczać dostęp do tych informacji komuś, kto nie ma dostępu do informacji wizualnych? – pyta.