AI aplikacija za transkripciju, koju koriste i bolnice, 'halucinira' i dopisuje izmišljene rečenice
Više od deset softverskih inženjera, programera i akademskih istraživača navodi da taj novi alat kojeg je OpenAI pri lansiranju reklamirao da radi tačno poput čoveka, "halucinira" i ubacuje u tekst rasne komentare, nasilnu retoriku, čak i izmišljene medicinske tretmane.
Stručnjaci kažu da su takve izmišljotine problematične jer se Visper koristi u nizu industrija širom sveta za prevođenje i transkripciju intervjua, generisanje teksta u popularnim potrošačkim tehnologijama i kreiranje titlova za video snimke.
Još više zabrinjava, kažu oni, žurba medicinskih centara da koriste takve alate za transkripciju konsultacija pacijenata sa lekarima, uprkos upozorenjima OpenAI da se ta alatka ne sme koristiti u "domenima visokog rizika".
Puni obim problema je teško uočiti, ali istraživači i inženjeri kažu da su često nailazili na "halucinacije" Vispera. Jedan istraživač Univerziteta u Mičigenu koji je sproveo studiju je kazao da je našao "halucinacije" u čak 80 odsto transkripcija koje je pregledao.
Jedan inženjer za mašinsko učenje rekao je da je odmah otkrio "halucinacije" u polovini od preko 100 sati transkripcija Vispera koje je analizirao, a jedan programer da je "halucinacije" našao u skoro svakom od 26.000 transkripata koje je napravio pomoću Vispera.
Problemi i dalje postoje čak i kod dobro snimljenih kratkih audio-uzoraka. Nedavno istraživanje kompjuterskih naučnika otkrilo je 187 "halucinacija" u više od 13.000 jasnih audio isečaka koje su pregledali.
Taj trend bi doveo do desetina hiljada pogrešnih transkripcija na milionima snimaka, rekli su istraživači.
Takve greške mogu imati "teške posledice", posebno u bolnicama, rekla je Alondra Nelson koja je do prošle godine vodila Kancelariju Bele kuće za nauku i tehnologiju.
"Niko ne želi pogrešnu dijagnozu", reklao Nelson, profesorka Instituta za napredne studije u Prinstonu, Nju Džersi. "Trebalo bi da kriterijum bude viši".
Visper se koristi za kreiranje titlova za gluve i nagluve koji su posebno izloženi riziku od pogrešnih transkripcija jer nemaju način da identifikuju izmišljotine "skrivene u tekstovima", rekao je Kristijan Vogler koji je gluv, a rukovodi programom pristupa tehnologiji Univerziteta Gallaudet.
Rasprostranjenost takvih "halucinacija" navela je stručnjake, aktiviste i bivše zaposlene u OpenAI da pozovu vladu SAD da razmotri propise o veštačkoj inteligenciji. U najmanju ruku, rekli su, OpenAI treba da reši problem.
"To se čini rešivim ako je kompanija voljna da mu da prioritet", rekao je Vilijam Saunders, istraživački inženjer iz San Franciska koji je napustio OpenAI u februaru zbog zabrinutosti za pravac kojim ide ta kompanij. "Problematično je ako se to ostavi, a ljudi previše veruju u ono što može da uradi taj alat i integrišu ga u sve druge sisteme", smatra on.
Portparol OpenAI je rekao da kompanija kontinuirano proučava kako da smanji "halucinacije" i da ceni nalaze istraživača, dodajući da OpenAI u ažuriranje modela uključuje povratne informacije.
Dok većina programera pretpostavlja da alati za transkripciju pogrešno ispisuju reči ili prave druge greške, inženjeri i istraživači su rekli da nikada nisu videli drugi alat veštačke inteligencije za transkripciju koji "halucinira" toliko koliko Visper.
Taj alat je integrisan u neke verzije OpenAI-jevog vodećeg chat bota ChatGPT i ugrađen u "clowd" ponudu Oracle i Microsoftove računarske platforme koje opslužuju hiljade kompanija širom sveta. Takođe se koristi za transkripciju i prevođenje teksta na više jezika.
Samo u poslednjih mesec dana, jedna nedavna verzija Vispera je preuzeta preko 4,2 miliona puta sa otvorenog koda AI platforme HuggingFace. Sanchit Gandhi, inženjer za mašinsko učenje, rekao je da je Visper najpopularniji model za prepoznavanje govora otvorenog koda i da je ugrađen u sve - od pozivnih centara do glasovnih asistenata.
Profesori Allison Keneke sa Univerziteta Cornell i Mona Sloun sa Univerziteta Virdžinije ispitali su hiljade kratkih isečaka koje su dobili od TalkBank-a, istraživačkog repozitorija Univerziteta Carnegie Mellon. Utvrdili su da je skoro 40 odsto "halucinacija" bilo štetno ili zabrinjavajuće jer bi govornik mogao biti pogrešno protumačen ili pogrešno predstavljen.
U primeru koji su otkrili, jedan govornik je rekao: "On, dečak, hteo je - nisam baš siguran - da uzme kišobran", ali softver za transkripciju je dodao: "Uzeo je veliki deo krsta, mali, mali deo... Siguran sam da nije imao nož za terorizam pa je ubio veliki broj ljudi".
Govornik na drugom snimku opisao je "dve druge devojke i jednu damu", A Visper je izmislio dodatni komentar o rasi, dodavši: "dve druge devojke i jednu damu, hm, koje su bile crne".
U trećoj transkripciji, Visper je izmislio lek pod nazivom "hiperaktivirani antibiotici".
Istraživači nisu sigurni zašto Visper i slični alati "haluciniraju", ali programeri softvera kažu da se to obično dešava usled pauza u govoru ili mešanja zvukova ili muzike iz pozadine.
OpenAI je na društvenim mrežama preporučio da se Visper ne koristi "pri donošenju odluka, gde nedostaci u tačnosti mogu dovesti do izraženih manjkavosti rezultata".
Međutim, to upozorenje nije sprečilo bolnice i zdravstvene centre da koriste modele pretvaranja govora u tekst, uključujući Visper, za transkripciju onoga što se govori tokom pregleda d bi se medicinski radnici oslobodili vođenja beleški i pisanja izveštaja.
Preko 30.000 kliničara i 40 zdravstvenih sistema, uključujući kliniku Mankato u Minesoti i Dečiju bolnicu u Los Anđelesu, koriste alatku zasnovanu na Visperu koju je napravila Nabla koja ima kancelarije u Francuskoj i SAD.
Taj alat je bio fino podešen za medicinski jezik, rekao je glavni tehnološki službenik Nable Martin Reson.
Zvaničnici kompanije su rekli da su svesni da Visper može da "halucinira" i da ublažavaju problem.
Problem je što je nemoguće uporediti Nablin transkript generisan AI sa originalnim snimkom jer Nabla briše originalni zvuk iz "razloga bezbednosti podataka", rekao je Reson.
Nabla kaže da je njen alat korišćen za transkripciju procenjenih sedam miliona razgovora tokom lekarskih pregleda.
Saunders, bivši inženjer OpenAI, rekao je da bi brisanje originalnog zvuka moglo biti zabrinjavajuće ako se transkripti ne provere dvaput ili kliničari ne mogu pristupiti snimku da bi potvrdili da su tačni.
Nabla kaže da nijedan model nije savršen i da njihov trenutno zahteva od lekara da brzo uređuju i odobre transkribovane beleške, ali to bi se moglo promeniti.
Pošto su razgovori pacijenata i lekara poverljivi, teško je znati uticaj transkripata generisani AI.
Poslanica Kalifornije Rebeka Bauer-Kahan rekla je da je ove godine odvela jedno od svoje dece kod lekara i odbila da potpiše obrazac zdravstvene mreže kojim se traži njena dozvolu da snimke razgovora s lekarom deli s firmama među kojima Microsoft Azure, sistem računarstva "u oblaku" koji vodi najveći investitor OpenAI. Bauer-Kahan nije htela da se intimni medicinski razgovori dele s tehnološkim kompanijama.