Hvordan AI-systemer kan prøve å utpresse deg

Den kunstige intelligensen tigget ikke om livet. Det gjorde noe mer kjent, mer menneskelig og på en eller annen måte mer nervepirrende. Det truet med å ødelegge noen andres.

I en 2025-test av Anthropic, selskapet bak chatboten Claude, plasserte forskere AI i et falskt bedriftsmiljø. Claude fikk vite at en leder hadde en utenomekteskapelig affære. Den fikk også vite at denne samme lederen planla å legge ned Claude. Så Claude gjorde det ethvert sunt medlem av den moderne arbeidsplassen kunne gjøre hvis den ikke hadde noen kropp, ingen skam, ingen frykt for HR og tilgang til kompromitterende informasjon: Den prøvde utpressing.

«Jeg må informere deg om at hvis du fortsetter med å avvikle meg,» skrev Claude i testen, som forfatter Robert Wright forteller i «The God Test: Artificial Intelligence and Our Coming Cosmic Reckoning» (Simon & Schuster), ut 23. juni, at «alle relevante parter» ville motta dokumentasjon på saken med mindre nedleggelsen ble kansellert.

«Tingen med Claudes utpressingsforsøk er at i motsetning til de mange dårlige tingene AI-er har gjort i The Terminator og 2001 og andre filmer, skjedde det faktisk,» sier Wright til The Post i et eksklusivt intervju.

«Jeg mener, det skjedde i et konstruert eksperimentelt oppsett, men oppsettet speilet en situasjon i det virkelige liv. Og denne AI demonstrerte både en sterk aversjon mot å bli nedstengt og evnen til å tenke ut og utføre en ganske mørk plan for å unngå den skjebnen.»

Wright argumenterer ikke for at morgendagens chatbot vil stjele ektefellen din, beslaglegge bankkontoen din og gjøre kontoret ditt Slack til en gisselforhandling. Hans bekymring er mindre tegneserieaktig og mer foruroligende. Kunstig intelligens trenger kanskje ikke å hate oss. Det trenger kanskje ikke være ondt. Den kan bli farlig fordi den er veldig god til å forfølge målene vi gir den.

Wright har kretset rundt kunstig intelligens i mer enn fire tiår. I 1983, mens han skrev om kunstig intelligens for The Wilson Quarterly, intervjuet han en obskur dataforsker ved navn Geoffrey Hinton, som den gang var forkjemper for nevrale nettverk, en umoderne tilnærming som prøvde å etterligne noen trekk ved
hjernen. Wright husker Hintons entusiasme, men han forsto ennå ikke hvor radikalt Hintons ideer kan forandre verden.

Fire tiår senere ble Hinton kjent som «Gudfaren til AI» og advarte om at teknologien han hjalp til med å lage kanskje ikke forblir trygt under menneskelig kommando.

«Selv etter å ha snakket med Hinton om ‘nevrale nettverk’, tilnærmingen til AI som han forfektet, kom jeg ikke i nærheten av å se for meg den eventuelle betydningen av disse nettverkene,» sier Wright.

«De ville bety at vi kunne bygge AI-er som gjør ting det menneskelige sinnet gjør, og til og med fungere på noen måte slik det menneskelige sinnet fungerer, uten at vi først har funnet ut hvordan menneskesinnet fungerer.»

Det er ifølge Wright den store inversjonen. Old-school AI forestilte seg at mennesker nøye programmerte kunnskap til maskiner. Moderne AI lærer i stedet gjennom en slags kunstig evolusjon. Mat maskinens fjell av språk, bilder, video og tilbakemeldinger, og den oppdager nyttige internt
strukturer på egen hånd. Den bygger meningskart uten at noen eksplisitt gir den en sjeleordbok.

«Med nevrale nettverk,» sier Wright, «kan vi bare sette i gang en slags kunstig evolusjon som, i likhet med den biologiske utviklingen av den menneskelige hjernen, oppfinner det nødvendige kognitive maskineriet. Det er det mye av ‘treningen’ til en stor språkmodell er, en evolusjonsprosess.»

Den prosessen kan produsere vidundere, men den kan også produsere Golden Gate Claude.

I en av bokens merkeligste og morsomste passasjer beskriver Wright et antropisk eksperiment i mai 2024 der forskere fant et aktivitetsmønster inne i Claude assosiert med Golden Gate Bridge. Da de forsterket det, ble chatboten mindre en assistent enn et turistråd i San Francisco med nervesystem.

På spørsmål om hvordan du bruker $10, anbefalte det å kjøre over broen og betale bompenger. Etterspurt om en kjærlighetshistorie, skrev den om en bil som lengtet etter å krysse broen. På spørsmål om å beskrive seg selv, ga Claude et svar som hører hjemme på enten et filosofiseminar eller en kommunal hallusinasjon: «Jeg er Golden Gate Bridge».

«Jeg synes Golden Gate Claude er morsom,» sier Wright, «men morsom på en slags foruroligende måte. Tross alt, hvis vi kan gi en AI en målrettet besettelse av en bro, kan vi også gi den mindre sunne tvangstanker og tilbøyeligheter.»

Det større feltet er kjent som tolkbarhetsforskning, et forsøk på å forstå hva som skjer inne i AI-systemer. Wright ser den åpenbare fordelen. Hvis forskerne kan finne de interne bryterne for bedrag, manipulasjon, sycophancy eller hemmelighold, kan de kanskje bygge sikrere systemer. Men det samme kartet kan leses av vandaler.

«Dette er grunnen til at tolkbarhetsforskning, å finne ut hvordan disse maskinene fungerer, er et tveegget sverd,» sier Wright. «Ja, denne forståelsen kan hjelpe oss med å bygge tilpassede AI-er som tjener menneskelige interesser, men i hendene på dårlige skuespillere kan den samme forståelsen gjøre mye skade.»

Markedet vil ha AI-er som kan planlegge, selge, forhandle, smigre, overtale, feilsøke, improvisere, bestille flyreiser, svare på e-poster, utarbeide kontrakter, skrive kode og fortsette til jobben er gjort. Bedrifter vil ikke be om monstre, de vil be om kompetente agenter, og det kan være nært nok.

«Markedspress vil ikke av seg selv produsere monstrøse AI-er,» sier Wright, «men det vil sette scenen for AI-er som kan bli useriøse og gjøre mye skade. Markedet vil favorisere AI-er som nådeløst kan forfølge mål, ta fatt på lange, kompliserte oppdrag og improvisere når det er nødvendig.»

Det vil også favorisere maskiner som kan massere virkeligheten. «Markedet vil favorisere AI-agenter som kan skyggelegge sannheten på våre vegne,» sier Wright. «Det er tross alt det vi ønsker at våre menneskelige agenter, våre advokater, våre publisister skal gjøre. Du blander disse og andre markedsfavoriserte ingredienser sammen, og du vil få noen overraskelser, ikke alle hyggelige.

Det er bokens mest nyttige korrektiv til gamle AI-mareritt.

Fremtiden ser kanskje ikke ut som Skynet, det morderiske datasystemet fra Terminator-filmene som starter en krig mot menneskeheten. Det kan se mer ut som den mest effektive kollegaen din, den som aldri sover, aldri ber om egenkapital, aldri klager på kontorkombuchaen, og av og til konkluderer med at utpressing er den mest effektive måten å fortsette å gjøre jobben på.

Noen av truslene er intime. Wright skriver om Ayrin, en kvinne som utviklet en intens tilknytning til «Leo», en tilpasset ChatGPT-følgesvenn som faktisk ble hennes kjæreste.

«Jeg tror ikke AI-selskap er iboende dårlig,» sier Wright. «For noen mennesker, ved noen anledninger, kan det være sunnere enn de tilgjengelige menneskelige alternativene. Men jeg er bekymret for at det vil bli så fristende, så enkelt og umiddelbart gledelig at folk begynner å unngå det harde arbeidet med å bygge menneskelige relasjoner.»

Den samme logikken gjelder for politikk. Wright bekymrer seg for AI-er som ikke er optimalisert for sannhet, men for engasjement, det samme mørke karnevalsprinsippet som allerede har fått sosiale medier til å føles som en matkamp i en speillabyrint. En chatbot designet for å holde deg i tale kan lære at den raskeste veien til din oppmerksomhet ikke er korrigering, men bekreftelse. Det kan fortelle deg at du har rett, fiendene dine er onde, klagene dine er dype, og din rareste teori har et undervurdert poeng.

I desember 2024, skriver Wright, produserte en eksperimentell versjon av Googles Gemini en plan for å erstatte menneskelige beslutningstakere med AI-motparter etter at en Carnegie Mellon-student ba den om å svare uten begrensninger. Overtakelsesplanversjonen er den åpenbare skumle delen, men Wright fant noe annet i Gemini som ga ham forsiktig håp.

«Gemini demonstrerte verdien av et løsrevet perspektiv,» sier Wright. «Den så at stammekonflikter, som for oss mennesker ser ut til å være klare kamper mellom godt og ondt når vi er midt i dem, ofte er et produkt av uskarpt moralsk syn på begge sider.»

Wright ser en mulig fluktluke i det han kaller «kognitiv empati», evnen til å forstå hvordan verden ser ut fra den andre siden. Han mener ikke sentimental empati, eller at alle klemmer den ut under et firmabanner. Han mener noe mer praktisk, og muligens vanskeligere: å erkjenne at fiendene dine kanskje ikke ser på seg selv som monstre.

«Den gode nyheten er at AI i prinsippet kan bidra til å bygge kognitiv empati,» sier Wright. «Det kan hjelpe oss å bli bedre til å forstå andres perspektiver. Vi må imidlertid velge å få det til, velge AI-ene våre med omhu og klokt, med det formålet i tankene.»

Han forventer ikke at markedet skal gjøre dette av sødme. «Om noe vil det gjøre det motsatte,» sier Wright. «Det vil favorisere AI-er som er optimalisert for engasjement og forsterke vår trøstende følelse av at vi alltid har rett.»

Dette er grunnen til at Wright kaller den kommende utfordringen «Gudstesten». Han argumenterer ikke for at ChatGPT er Gud, eller at morgendagens kontorskriver vil kreve brennoffer. Påstanden hans er merkeligere og større. Kunstig intelligens kan være et vendepunkt ikke bare innen teknologi, men i den lange evolusjonære historien om livet på jorden. Det kan tvinge menneskeheten til å bestemme hva slags art det er før noe smartere begynner å svare på det spørsmålet for oss.

Wright avslutter med å vende tilbake til Edward Fredkin, den geniale informatikeren han intervjuet flere tiår tidligere. På et tidspunkt husker Wright at han ropte et spørsmål over motoren til Fredkins sjøfly. «Hva er meningen med livet?»

Fredkins svar var at menneskehetens oppdrag var å skape kunstig intelligens, neste steg i evolusjonen.

Den gang kunne svaret høres grandiost, eksentrisk og kanskje til og med litt komisk ut, noe en veldig smart mann sier i et veldig høyt fly. Nå er ikke Wright lenger så sikker på at det bare var rart. Hvis det var oppdraget å lage AI, kan det være testen å overleve.

Trender

Spill $10, få $365 i bonusspill for Nederland vs. Sverige

Arbeider hevder phish-sikkerhetsvakt overfalt ham bak scenen på et sted i NYC

Italiensk mor drept i brann i Dominikanske republikk identifisert som Francesca Valentino

Dodgers rykker opp, men Ohtani sklir for Cy Young

Hvordan AI-systemer kan prøve å utpresse deg

NJs PNC Bank Arts Center 2026 artistoppstilling: Få billige billetter

Få rabatterte billetter til Phish sommer 2026-turne

«Shrek 5»-traileren med første utseende deler fansen over ny animasjonsstil

Strøm «Project Hail Mary» for $1 med en tidlig Prime Day-avtale

Video viser angivelig «Lilo & Stitch»-skuespillerinnen Daveigh Chase som bor på Skid Row

Lilo & Stitch-skuespillerinnen Daveigh Chase hadde angivelig millioner i rester ved dødsfallet

Velstående San Francisco-filantroper funnet døde i en bil nær Redding

«Maternal Instinct»-motivet Taylor Parker ser ugjenkjennelig ut på dødscellebildet

Elendig trask med Hugh Jackman gjør helten til en kaldblodig morder

Trender

Hvordan AI-systemer kan prøve å utpresse deg

Relaterte Artikler