Od dłuższego czasu ludzie już przyzwyczajają się do kontaktu z syntetycznymi głosami - mamy z nimi do czynienia w takich asystentach jak Siri, czy Alexa - zwracają uwagę eksperci z University College London i University of Roehampton.
Syntetyczny głos z przewagą nad ludzkim
Relatywnie niedawno pojawił się jednak nowy rodzaj sztucznych głosów - generowane przez AI klony głosów żywych ludzi. Badacze ocenili zrozumiałość mowy prawdziwych ludzi i ich głosowych kopii. Okazało się, że w hałaśliwym otoczeniu klony są łatwiejsze do zrozumienia. Naukowcy podkreślają, że o ile syntetyczne głosy, takie jak Siri, wymagają od aktora spędzenia wielu godzin w studiu nagraniowym, to głosowy klon człowieka można stworzyć już na podstawie zaledwie 10 sekund mowy. Znacząco zwiększa to zarówno liczbę potencjalnych głosów, jak i możliwych zastosowań tej technologii.
Wyniki badań
W badaniu opisanym na łamach "The Journal of the Acoustical Society of America" naukowcy postanowili sprawdzić, jak łatwe do zrozumienia są klony głosów dla przeciętnej osoby. Podejrzewali, że kopie będą po prostu niedoskonałymi odwzorowaniami prawdziwych ludzkich głosów i że ludzie będą mieli trudności z ich zrozumieniem. Wyniki tym założeniom wyraźnie zaprzeczyły. - Początkowo sądziłam, że klony głosowe będą mniej zrozumiałe, bo są nieznane - opowiada Patti Adank, autorka pracy.
Dodał też: - Okazało się, że były nawet o 20 procent bardziej zrozumiałe, co było dość zaskakujące. Niewielka część naszej pracy dotyczy właśnie tego eksperymentu, a większa część opisuje, jak razem ze współpracownikiem gorączkowo próbowaliśmy ustalić, co sprawia, że te klony głosowe są bardziej zrozumiałe. Badaczka i jej zespół odtwarzało ochotnikom ludzkie głosy i ich klony, prosząc ich o ocenę zrozumiałości. Gdy okazało się, że klony głosowe konsekwentnie oceniano jako łatwiejsze do zrozumienia, eksperyment powtórzono z udziałem starszych ochotników, aby sprawdzić, czy niedosłuch zmienia ten efekt. Eksperyment powtórzono z ochotnikami z USA (pierwotna grupa była brytyjska), aby ocenić, czy znaczenie ma akcent oraz z filtrem zaprojektowanym tak, by naśladować implanty ślimakowe. W każdym przypadku klony głosowe okazały się lepsze. Naukowcy nie znają przyczyny tak dobrego rozumienia syntetycznych głosów. - Zamierzam teraz spróbować odtworzyć ten efekt, badając, jak działają syntezatory mowy i jak wykorzystują cyfrowe przetwarzanie sygnału do generowania takich głosów, żeby choć trochę lepiej to zrozumieć - zapowiada prof. Adank.
Źródło: PAP
Źródło zdjęcia głównego: Adobe Stock