Tech-behemoth OpenAI har utpekt sitt kunstig intelligens-drevne transkripsjonsverktøy Whisper som å ha nesten «robusthet og nøyaktighet på menneskelig nivå.»

Men Whisper har en stor feil: Den er tilbøyelig til å lage biter av tekst eller til og med hele setninger, ifølge intervjuer med mer enn et dusin programvareingeniører, utviklere og akademiske forskere. Disse ekspertene sa at noe av den oppfunne teksten – kjent i bransjen som hallusinasjoner – kan inkludere rasekommentarer, voldelig retorikk og til og med innbilte medisinske behandlinger.

Eksperter sa at slike fabrikasjoner er problematiske fordi Whisper blir brukt i en rekke bransjer over hele verden for å oversette og transkribere intervjuer, generere tekst i populære forbrukerteknologier og lage undertekster til videoer.

Mer bekymringsfullt, sa de, er et hastverk fra medisinske sentre for å bruke Whisper-baserte verktøy for å transkribere pasienters konsultasjoner med leger, til tross for OpenAIs advarsler om at verktøyet ikke bør brukes i «høyrisikodomener.»

Hele omfanget av problemet er vanskelig å skjønne, men forskere og ingeniører sa at de ofte har kommet over Whispers hallusinasjoner i arbeidet deres. En forsker fra University of Michigan som gjennomførte en studie av offentlige møter, sa for eksempel at han fant hallusinasjoner i 8 av 10 lydtranskripsjoner han inspiserte, før han begynte å prøve å forbedre modellen.

En maskinlæringsingeniør sa at han først oppdaget hallusinasjoner i omtrent halvparten av de over 100 timene med Whisper-transkripsjoner han analyserte. En tredje utvikler sa at han fant hallusinasjoner i nesten hver eneste av de 26 000 transkripsjonene han laget med Whisper.

Problemene vedvarer selv i godt innspilte, korte lydprøver. En fersk studie av informatikere avdekket 187 hallusinasjoner i mer enn 13 000 klare lydutdrag de undersøkte.

Denne trenden vil føre til titusenvis av feilaktige transkripsjoner over millioner av opptak, sa forskere.

Slike feil kan ha «virkelig alvorlige konsekvenser», spesielt i sykehusmiljøer, sa Alondra Nelson, som ledet Det hvite hus kontor for vitenskap og teknologipolitikk for Biden-administrasjonen frem til i fjor.

«Ingen vil ha en feildiagnose,» sa Nelson, professor ved Institute for Advanced Study i Princeton, New Jersey. «Det bør være en høyere bar.»

Whisper brukes også til å lage teksting for døve og hørselshemmede – en populasjon med særlig risiko for feilaktige transkripsjoner.

Det er fordi døve og hørselshemmede ikke har noen måte å identifisere fabrikasjoner er «gjemt blant all denne andre teksten,» sa Christian Vogler, som er døv og leder Gallaudet Universitys teknologitilgangsprogram.

OpenAI oppfordret til å løse problemet

Utbredelsen av slike hallusinasjoner har ført til at eksperter, talsmenn og tidligere OpenAI-ansatte ber den føderale regjeringen vurdere AI-forskrifter. I det minste, sa de, må OpenAI løse feilen.

«Dette virker løselig hvis selskapet er villig til å prioritere det,» sa William Saunders, en San Francisco-basert forskningsingeniør som sluttet i OpenAI i februar på grunn av bekymringer med selskapets retning. «Det er problematisk hvis du legger dette ut og folk er oversikre på hva det kan gjøre og integrere det i alle disse andre systemene.»

En talsperson for OpenAI sa at selskapet kontinuerlig studerer hvordan man kan redusere hallusinasjoner og satte pris på forskernes funn, og la til at OpenAI inkorporerer tilbakemeldinger i modelloppdateringer.

Mens de fleste utviklere antar at transkripsjonsverktøy staver ord eller gjør andre feil, sa ingeniører og forskere at de aldri hadde sett et annet AI-drevet transkripsjonsverktøy hallusinere så mye som Whisper.

Hviske hallusinasjoner

Verktøyet er integrert i noen versjoner av OpenAIs flaggskip chatbot ChatGPT, og er et innebygd tilbud i Oracle og Microsofts cloud computing-plattformer, som betjener tusenvis av selskaper over hele verden. Den brukes også til å transkribere og oversette tekst til flere språk.

Bare i løpet av den siste måneden ble en fersk versjon av Whisper lastet ned over 4,2 millioner ganger fra åpen kildekode AI-plattform HuggingFace. Sanchit Gandhi, en maskinlæringsingeniør der, sa at Whisper er den mest populære åpen kildekode-talegjenkjenningsmodellen og er innebygd i alt fra telefonsentre til taleassistenter.

Professorene Allison Koenecke fra Cornell University og Mona Sloane fra University of Virginia undersøkte tusenvis av korte utdrag de fikk fra TalkBank, et forskningsdepot som er vert ved Carnegie Mellon University. De fastslo at nesten 40 % av hallusinasjonene var skadelige eller bekymringsfulle fordi taleren kunne bli feiltolket eller feilpresentert.

I et eksempel de avdekket, sa en taler: «Han, gutten, skulle, jeg er ikke sikker på nøyaktig, ta paraplyen.»

Men transkripsjonsprogramvaren la til: «Han tok en stor del av et kors, en liten, liten bit … jeg er sikker på at han ikke hadde en terrorkniv, så han drepte en rekke mennesker.»

En høyttaler i et annet opptak beskrev «to andre jenter og en dame». Whisper fant opp ekstra kommentarer om rase, og la til «to andre jenter og en dame, um, som var svarte.»

I en tredje transkripsjon oppfant Whisper en ikke-eksisterende medisin kalt «hyperaktiverte antibiotika.»

Forskere er ikke sikre på hvorfor Whisper og lignende verktøy hallusinerer, men programvareutviklere sa at fabrikasjonene har en tendens til å skje midt i pauser, bakgrunnslyder eller musikk som spilles.

OpenAI anbefalte i sine nettbaserte avsløringer mot å bruke Whisper i «beslutningstakingssammenhenger, der feil i nøyaktighet kan føre til uttalte feil i resultater».

Transkribere legetimer

Denne advarselen har ikke stoppet sykehus eller medisinske sentre fra å bruke tale-til-tekst-modeller, inkludert Whisper, for å transkribere det som er sagt under legebesøk for å frigjøre medisinske leverandører til å bruke mindre tid på å ta notater eller skrive rapporter.

Over 30 000 klinikere og 40 helsesystemer, inkludert Mankato Clinic i Minnesota og Children’s Hospital Los Angeles, har begynt å bruke et Whisper-basert verktøy bygget av Nabla, som har kontorer i Frankrike og USA

Dette verktøyet var finjustert på medisinsk språk for å transkribere og oppsummere pasientenes interaksjoner, sa Nablas teknologisjef Martin Raison.

Selskapets tjenestemenn sa at de er klar over at Whisper kan hallusinere og reduserer problemet.

Det er umulig å sammenligne Nablas AI-genererte transkripsjon med det originale opptaket fordi Nablas verktøy sletter den originale lyden av «datasikkerhetsgrunner,» sa Raison.

Nabla sa at verktøyet har blitt brukt til å transkribere anslagsvis 7 millioner medisinske besøk.

Saunders, den tidligere OpenAI-ingeniøren, sa at det kan være bekymringsfullt å slette den originale lyden hvis transkripsjonene ikke blir dobbeltsjekket eller klinikere ikke får tilgang til opptaket for å bekrefte at de er korrekte.

«Du kan ikke fange feil hvis du tar bort sannheten,» sa han.

Nabla sa at ingen modell er perfekt, og at deres for tiden krever at medisinske leverandører raskt redigerer og godkjenner transkriberte notater, men det kan endre seg.

Personvernhensyn

Fordi pasientmøter med legene deres er konfidensielle, er det vanskelig å vite hvordan AI-genererte transkripsjoner påvirker dem.

En lovgiver i delstaten California, Rebecca Bauer-Kahan, sa at hun tok med et av barna sine til legen tidligere i år, og nektet å signere et skjema helsenettverket ga som søkte henne om tillatelse til å dele konsultasjonslyden med leverandører som inkluderte Microsoft Azure, cloud computing-systemet som drives av OpenAIs største investor. Bauer-Kahan ønsket ikke at slike intime medisinske samtaler ble delt med teknologiselskaper, sa hun.

«Utgivelsen var veldig spesifikk at for-profit selskaper ville ha rett til å ha dette,» sa Bauer-Kahan, en demokrat som representerer en del av San Francisco-forstedene i delstatsforsamlingen. «Jeg var som ‘absolutt ikke’.»

John Muir Health-talsmann Ben Drew sa at helsesystemet overholder statlige og føderale personvernlover.

Dele
Exit mobile version