Dette systemet kan spille oss.

Kunstig intelligens overgår allerede mennesker på ulike intelligensbaserte aktiviteter, alt fra sjakk til mønstergjenkjenning. Nå hevder eksperter at de er et år unna å slå «Humanity’s Last Exam» (HLE) – en antatt uløselig test som bare våre beste og flinkeste kan bestå.

«Modelbyggere har virkelig gjort en god jobb med å forbedre disse resonneringsmodellene,» sa Calvin Zhang, forskningsleder ved Scale, AI-firmaet bak HLE, til The Times of London.

Utviklet for å se hvor nær AI er «grensene for menneskelig ekspertise», består denne etterretningsreferansen av 2500 spørsmål som spenner over 100 høyt spesialiserte felt, alt fra mytologi til rakettvitenskap.

Over 1000 myndigheter fra tvers av vitenskaper, humaniora og kunst bidro til HLE, som ble designet for å kreve PHD-nivåer av forståelse til ess – like utenfor ekspertisen til AI, rapporterte Nueroscience News.

Zhang sa at det endelige målet var å skape en «lukket akademisk benchmark, satt til grensen for ekspertmennesker, som bare en håndfull mennesker på jorden virkelig kan løse.»

Ikke desto mindre har AIs ytelse på HLE forbedret seg ved eksponentielle hastigheter i løpet av kort tid. Mens ChatGPT svarte på færre enn 3 % av spørsmålene riktig i løpet av sitt første forsøk i 2024, fikk konkurrenten Google Gemini 18,8 % av spørsmålene i løpet av måneder.

Forrige måned økte dette tallet til over 45 %.

Zhang mener at AI kan nærme seg fulle karakterer – alle som scorer nær 100% blir definert som en «universell ekspert» innen et år.

«Hvis vi virkelig brydde oss om dette som det eneste i livet, tror jeg vi kunne komme til det ganske raskt,» skrøt Kate Olszewska, en produktsjef hos Google DeepMind.

Kate Olszewska, en produktsjef hos Google DeepMind, er enig: «Hvis vi virkelig brydde oss om dette som det eneste i livet, tror jeg vi kunne komme til det ganske raskt.»

Denne fremgangen i lyshastigheten er imponerende gitt innsatsen Scale tok for å gjøre HLE AI-sikker. Testmakerne tilbød angivelig en premie på $500 000 til eksperter som kunne bidra med spørsmål som ikke lett kunne besvares via nettsøk, og til slutt fikk over 70 000 svar.

Alle spørsmål som kunne besvares av eksisterende modeller ble forkastet inntil eksamen ble redusert til 2500 av de mest AI-jernbelagte spørsmålene. Tester kan for eksempel bli bedt om å oversette gamle Palmyrene-inskripsjoner eller identifisere mikroanatomiske strukturer i fugler i løpet av prøveeksamenen,

For ytterligere å sikre at testen var AI-jernbelagt, holdt teamet de fleste svarene skjult slik at senere modeller ikke kunne huske dem.

«Humanity’s Last Exam står som en av de klareste vurderingene av gapet mellom AI og menneskelig intelligens,» erklærte Dr. Tung Nguyen, en informatikk- og ingeniørprofessor ved Texas A&M som bidro med 73 av spørsmålene (det nest flest).

Han hevdet at selv om noen av de nevnte modellene presterte bra, illustrerer de dårlige resultatene til resten at avgrunnene mellom AI og menneskelig intelligens fortsatt er «vide».

«Når AI-systemer begynner å yte ekstremt godt på menneskelige benchmarks, er det fristende å tro at de nærmer seg forståelse på menneskelig nivå,» sa Nguyen. «Men HLE minner oss om at intelligens ikke bare handler om mønstergjenkjenning – det handler om dybde, kontekst og spesialisert ekspertise.»

Teknologen sa at det endelige målet ikke var å stoppe «AI», men heller å illustrere systemenes styrker og svakheter.

I sin tur vil dette hjelpe oss med å bygge «tryggere, mer pålitelige teknologier», samtidig som vi viser «hvorfor menneskelig ekspertise fortsatt betyr noe» – et viktig mål i en verden der AI ser ut til å erstatte oss i alle sektorer fra fastfood til medisin.

Når det er sagt, har AI vist en overraskende menneskelig evne til problemløsning, og demonstrerer at dens prosesseringsevne ikke er henvist til rote-minne.

I 2025 avslørte tester fra kinesiske forskere likheter mellom AI-modellenes «oppfatning» og menneskelig kognisjon – spesielt når det kom til språkgruppering.

Fra dette utledet forskere at maskinlærerne «utvikler menneskelignende konseptuelle representasjoner av objekter.»

«Ytterligere analyse viste sterk tilpasning mellom modellinnbygginger og nevrale aktivitetsmønstre» i området av hjernen assosiert med minne og scenegjenkjenning.

Dele
Exit mobile version