Mens kunstig intelligens utmerker seg ved oppgaver som koding og generering av podcast, sliter den med å svare nøyaktig på historiespørsmål på høyt nivå, ifølge en studie.
Forskere testet OpenAIs GPT-4, Metas Llama og Googles Gemini ved å bruke en nyutviklet benchmark kalt Hist-LLM.
Referansen er avhengig av Seshat Global History Databank, en omfattende database med historisk kunnskap.
Studien, som ble presentert på NeurIPS AI-konferansen forrige måned, fant skuffende resultater, ifølge TechCrunch.
GPT-4 Turbo presterte best, men oppnådde bare omtrent 46 % nøyaktighet – knapt over tilfeldig gjetting.
«LLM-er, selv om de er imponerende, mangler fortsatt dybden som kreves for avansert historie,» sa Maria del Rio-Chanona, en medforfatter av papiret og førsteamanuensis ved University College London.
«De er gode for grunnleggende fakta, men de mislykkes i nyanserte historiske undersøkelser på PhD-nivå.»
Forskere fant at LLM-er ofte ekstrapolerer fra fremtredende historiske data, men sliter med mer obskure detaljer.
For eksempel uttalte GPT-4 feilaktig at skalarustning var til stede i det gamle Egypt i løpet av en bestemt tidsperiode, mens teknologien i virkeligheten først dukket opp 1500 år senere.
På samme måte hevdet modellen feilaktig at det gamle Egypt hadde en profesjonell stående hær i løpet av en bestemt periode, sannsynligvis på grunn av utbredelsen av informasjon om stående hærer i andre eldgamle imperier, som Persia.
«Hvis du blir fortalt A og B 100 ganger, og C bare én gang, er det mer sannsynlig at du husker A og B,» forklarte del Rio-Chanona.
En annen bekymring var potensiell skjevhet.
OpenAIs GPT-4 og Metas Llama-modeller presterte dårligere når de svarte på spørsmål om regioner som Afrika sør for Sahara, noe som indikerer begrensninger i treningsdata.
«Disse skjevhetene antyder at LLM-er reflekterer hull i historisk dokumentasjon snarere enn en objektiv representasjon av historien,» sa Peter Turchin, studiens hovedforsker.
Til tross for disse begrensningene er forskerne fortsatt håpefulle om at AI kan hjelpe historikere i fremtiden.
De planlegger å avgrense Hist-LLM-benchmarken ved å inkludere flere forskjellige datakilder og øke kompleksiteten til spørsmålene.
«Våre funn fremhever områder der LLM-er trenger forbedring, men de viser også deres potensial til å støtte historisk forskning,» konkluderte papiret.
Ettersom AI fortsetter å utvikle seg, sier eksperter at det er klart at menneskelige historikere fortsatt er uerstattelige når det gjelder å tolke komplekse historiske fortellinger og sikre nøyaktighet i akademiske undersøkelser.