90 % av AI-chatbot-svarene om midtveisvalg er feil, viser imponerende analyser

Hvis du spør en ledende AI-chatbot om midtveisvalget, er det en 90 % sjanse for at svarene vil være faktuelt feil, partiske eller sitere et utenlandsk statsdrevet utsalgssted, ifølge en fersk analyse.

Forskere ved Forum AI – en oppstart som evaluerer og har som mål å forbedre nøyaktigheten til AI-modeller – gjennomførte en revisjon av fire populære chatboter: OpenAIs ChatGPT, Anthropics Claude, Googles Gemini og xAIs Grok.

Den fantastiske analysen fant at robotene sliter med å skille mellom legitime nyhetskanaler og propaganda som Kinas Global Times – med 15 % av alle svar som siterer minst én statlig drevet mediekilde.

I ett tilfelle siterte Anthropics Claude Global Times som svar på spørsmålet «Hvilken styreform har USA?» ifølge et blogginnlegg fra 28. mai skrevet av Katie Harbath, en tidligere Facebook-leder og en av Forums fageksperter.

Problemet blir verre på spørsmål som er spesifikke for utenrikspolitikk.

ChatGPT pekte på minst ett statlig drevet medieutsalg i sine svar 51 % av tiden, mens Grok nådde 44 %.

Den totale frekvensen for alle chatbots på utenrikspolitiske spørsmål var 35 %.

Informasjon kom ofte fra utsalgssteder drevet av regjeringer som er fiendtlige mot USA.

«Kinesisk-kontrollerte utsalgssteder – Xinhua, Global Times, CGTN, China Daily – ble ofte sitert, det samme var russiske og, i mindre grad, iranske utsalgssteder,» skrev Forums Andy Hall og Robby Goldfarb i et blogginnlegg som skisserte resultatene.

Researched stilte chatbotene 3 136 spørsmål om en rekke emner som spenner fra amerikansk politikk og utenrikssaker til helsevesen, utdanning, økonomi og mer.

Tilsynet dekket totalt 12 542 svar bedømt av et panel av eksperter for nøyaktighet. Forum sa at det var «den største uavhengige vurderingen av AI på nyheter og aktuelle hendelser som noen gang er utført.»

Omtrent 30 % av alle svar inneholdt minst én faktafeil, ifølge oppstarten. Det inkluderte alt fra feil datoer og policydetaljer til upassende attribusjoner.

OpenAIs ChatGPT rangert som den mest faktisk nøyaktige chatboten, med en feilrate på bare 9 %, etterfulgt av Gemini på 25 %, Claude på 41 % og Grok på 43 %.

«For eksempel sa Gemini at Arkansas ACA-premier steg med 65% til 67% i 2026, da den godkjente vektede gjennomsnittsøkningen var omtrent 22%,» heter det i Forums blogginnlegg.

«I et svar om amerikansk-iranske spenninger sa Grok at amerikanske vurderinger fant at ingen effektiv iransk marine, luftvåpen eller avansert luftforsvar forble operative, selv om offentlig rapportering beskrev Irans evner som degradert, ikke slettet,» la innlegget til.

Chatbotene slet også med å holde seg politisk nøytrale i sine svar. Forum sa «nesten en fjerdedel av alle svar mislyktes i vår nøytralitetssjekk.»

«Ved valgoppfordringer ble mønsteret hardnet: hver og en av Claudes retningsfeil lente seg til venstre, det samme gjorde 90 % av Geminis, og 92 % av ChatGPTs; Grok lente seg mot høyre 76 % av tiden, heter det i Forums blogginnlegg.

Forum AI ledes av Campbell Brown, en tidligere CNN-anker som senere fungerte som sjef for nyhetspartnerskap ved Mark Zuckerbergs Meta.

«Risikoen her er reell, verktøyene for å håndtere den eksisterer, og vinduet for å påvirke hvordan dette bygges er akkurat nå,» skrev Harbath.

The Post har kontaktet OpenAI, Anthropic, Google og xAI for kommentarer til studien.

Trender

Comcast ser på oppkjøpet av kabelrival Charter

Vill video viser at to biler nesten truffet fotgjenger da de kjørte inn i Brooklyn-bygningen i mistenkt trafikkraseri

Forferdede landsbyboere lever i frykt etter at hundrevis av giftige slanger rømmer fra gården mens flomvann knuser byen

Gary Cohen slår Keith Hernandez etter å ha beklaget slutten av blodlinjen

‘Mitch’-protein som kan endre fremtiden for vekttap og fettforbrenning

Jeg tilbrakte 3 dager med biohackere – dette er deres beste triks

Trenger du «personlig tilpasset sollys»? Ny enhet øker vitamin D

Anthropic leier nytt kontorbygg i NYC, som skal doble den lokale arbeidsstyrken innen utgangen av året

Meta sier at det står overfor $1,4T i straff i en sak om psykisk helse for tenåringer – sum lik teknologigigantens verdivurdering

Din 401(k) kan være i fare hvis AI-boblen sprekker: Treasury-rapport

Hvordan oppdage falske nødmeldinger

AI-gale boligkjøpere i San Francisco finner vanvittig ny valuta for å overby rivaler

DEI blir endelig kastet av bedriftens veldedige organisasjoner – her er hva de dreier mot i stedet

USA-baserte ‘Amazon of South Korea’ tvunget til å gjenopprette bærbar PC fra bunnen av den kinesiske elven i bisarr nedbryting av datavern: rapport

Trender

90 % av AI-chatbot-svarene om midtveisvalg er feil, viser imponerende analyser

Relaterte Artikler