Mens kunstig intelligens utmerker seg ved oppgaver som koding og generering av podcast, sliter den med å svare nøyaktig på historiespørsmål på høyt nivå, ifølge en studie.

Forskere testet OpenAIs GPT-4, Metas Llama og Googles Gemini ved å bruke en nyutviklet benchmark kalt Hist-LLM.

Referansen er avhengig av Seshat Global History Databank, en omfattende database med historisk kunnskap.

Studien, som ble presentert på NeurIPS AI-konferansen forrige måned, fant skuffende resultater, ifølge TechCrunch.

GPT-4 Turbo presterte best, men oppnådde bare omtrent 46 % nøyaktighet – knapt over tilfeldig gjetting.

«LLM-er, selv om de er imponerende, mangler fortsatt dybden som kreves for avansert historie,» sa Maria del Rio-Chanona, en medforfatter av papiret og førsteamanuensis ved University College London.

«De er gode for grunnleggende fakta, men de mislykkes i nyanserte historiske undersøkelser på PhD-nivå.»

Forskere fant at LLM-er ofte ekstrapolerer fra fremtredende historiske data, men sliter med mer obskure detaljer.

For eksempel uttalte GPT-4 feilaktig at skalarustning var til stede i det gamle Egypt i løpet av en bestemt tidsperiode, mens teknologien i virkeligheten først dukket opp 1500 år senere.

På samme måte hevdet modellen feilaktig at det gamle Egypt hadde en profesjonell stående hær i løpet av en bestemt periode, sannsynligvis på grunn av utbredelsen av informasjon om stående hærer i andre eldgamle imperier, som Persia.

«Hvis du blir fortalt A og B 100 ganger, og C bare én gang, er det mer sannsynlig at du husker A og B,» forklarte del Rio-Chanona.

En annen bekymring var potensiell skjevhet.

OpenAIs GPT-4 og Metas Llama-modeller presterte dårligere når de svarte på spørsmål om regioner som Afrika sør for Sahara, noe som indikerer begrensninger i treningsdata.

«Disse skjevhetene antyder at LLM-er reflekterer hull i historisk dokumentasjon snarere enn en objektiv representasjon av historien,» sa Peter Turchin, studiens hovedforsker.

Til tross for disse begrensningene er forskerne fortsatt håpefulle om at AI kan hjelpe historikere i fremtiden.

De planlegger å avgrense Hist-LLM-benchmarken ved å inkludere flere forskjellige datakilder og øke kompleksiteten til spørsmålene.

«Våre funn fremhever områder der LLM-er trenger forbedring, men de viser også deres potensial til å støtte historisk forskning,» konkluderte papiret.

Ettersom AI fortsetter å utvikle seg, sier eksperter at det er klart at menneskelige historikere fortsatt er uerstattelige når det gjelder å tolke komplekse historiske fortellinger og sikre nøyaktighet i akademiske undersøkelser.

Dele
Exit mobile version