AI chatbots kan fortsatt ikke svare nøyaktig på historiespørsmål på høyt nivå: studie

Mens kunstig intelligens utmerker seg ved oppgaver som koding og generering av podcast, sliter den med å svare nøyaktig på historiespørsmål på høyt nivå, ifølge en studie.

Forskere testet OpenAIs GPT-4, Metas Llama og Googles Gemini ved å bruke en nyutviklet benchmark kalt Hist-LLM.

Referansen er avhengig av Seshat Global History Databank, en omfattende database med historisk kunnskap.

Studien, som ble presentert på NeurIPS AI-konferansen forrige måned, fant skuffende resultater, ifølge TechCrunch.

GPT-4 Turbo presterte best, men oppnådde bare omtrent 46 % nøyaktighet – knapt over tilfeldig gjetting.

«LLM-er, selv om de er imponerende, mangler fortsatt dybden som kreves for avansert historie,» sa Maria del Rio-Chanona, en medforfatter av papiret og førsteamanuensis ved University College London.

«De er gode for grunnleggende fakta, men de mislykkes i nyanserte historiske undersøkelser på PhD-nivå.»

Forskere fant at LLM-er ofte ekstrapolerer fra fremtredende historiske data, men sliter med mer obskure detaljer.

For eksempel uttalte GPT-4 feilaktig at skalarustning var til stede i det gamle Egypt i løpet av en bestemt tidsperiode, mens teknologien i virkeligheten først dukket opp 1500 år senere.

På samme måte hevdet modellen feilaktig at det gamle Egypt hadde en profesjonell stående hær i løpet av en bestemt periode, sannsynligvis på grunn av utbredelsen av informasjon om stående hærer i andre eldgamle imperier, som Persia.

«Hvis du blir fortalt A og B 100 ganger, og C bare én gang, er det mer sannsynlig at du husker A og B,» forklarte del Rio-Chanona.

En annen bekymring var potensiell skjevhet.

OpenAIs GPT-4 og Metas Llama-modeller presterte dårligere når de svarte på spørsmål om regioner som Afrika sør for Sahara, noe som indikerer begrensninger i treningsdata.

«Disse skjevhetene antyder at LLM-er reflekterer hull i historisk dokumentasjon snarere enn en objektiv representasjon av historien,» sa Peter Turchin, studiens hovedforsker.

Til tross for disse begrensningene er forskerne fortsatt håpefulle om at AI kan hjelpe historikere i fremtiden.

De planlegger å avgrense Hist-LLM-benchmarken ved å inkludere flere forskjellige datakilder og øke kompleksiteten til spørsmålene.

«Våre funn fremhever områder der LLM-er trenger forbedring, men de viser også deres potensial til å støtte historisk forskning,» konkluderte papiret.

Ettersom AI fortsetter å utvikle seg, sier eksperter at det er klart at menneskelige historikere fortsatt er uerstattelige når det gjelder å tolke komplekse historiske fortellinger og sikre nøyaktighet i akademiske undersøkelser.

Trender

Strikkhopper ‘dyttet’ av broen av truende instruktør til tross for at han skrek i protest: ‘Nei, nei, nei!’

Instagram-golfstjernen Hailey Ostrom avslører stalker-mareritt når mannen dukker opp hjemme hos henne

TikTok venter på Trumps utsettelse når Kina signaliserer at det er åpent for avtale

Bradley Cooper og Gigi Hadid så å gå vill i Philadelphia Eagles-kampen i NFL-sluttspillet

Polar virvel etterlater mer enn 30 stater i beredskap for farlig kaldt vær

Tech-gründer lover å gi bort halvparten av formuen sin for å «dele» den amerikanske drømmen, og adressere ulikhet

Bumble-aksjene faller etter at grunnlegger Whitney Wolfe Herd kunngjorde forestående avkastning som administrerende direktør

Truende TikTok-forbud utgjør et økonomisk mareritt for Google, Apple – og andre amerikanske teknologifirmaers bånd til Kinas ByteDance

EU trapper opp etterforskningen av Elon Musks X, dager før Trumps innsettelse

FBI advarer agenter om anropsloggtyverier av hackere som brøt AT&T – ber om press for å beskytte konfidensielle informanters identitet: rapport

Smartwatch- og treningsbånd har «svært høye konsentrasjoner» av dette skadelige kjemikaliet

San Francisco stuper i rangeringene av beste amerikanske byer midt i utbredt kriminalitet, skyhøye levekostnader: studie

TikTok forteller amerikanske ansatte at jobbene deres er «sikre» selv om appen er forbudt: «Kontorene våre vil forbli åpne»

Det er en hemmelig valutaomregner på din iPhone – og den er perfekt for internasjonale reiser: «Game changer!»

Trender

AI chatbots kan fortsatt ikke svare nøyaktig på historiespørsmål på høyt nivå: studie

Relaterte Artikler