En håndfull brukere klarte å få uautorisert tilgang til Anthropics Claude Mythos – modellen selskapet hevder å være så farlig at den ville forårsake en bølge av ødeleggende nettangrep hvis den ble gjort tilgjengelig for allmennheten.

Bruddet skjedde 8. april – samme dag som Anthropic og dets administrerende direktør Dario Amodei avslørte at Mythos bare var tilgjengelig for rundt 40 håndplukkede bedriftskunder som en del av «Project Glasswing».

Anthropic sa at Mythos hadde funnet store cybersikkerhetsfeil i «alle større operativsystemer og nettlesere» under intern testing.

De uautoriserte brukerne tilhører et privat nettforum dedikert til å knekke ikke-utgitte AI-modeller på Discord, en populær meldingsapp.

Siden de fikk tilgang, har de brukt Mythos «regelmessig», men ikke for cybersikkerhetsformål, ifølge Bloomberg, som skaffet skjermbilder og ble vist en live demonstrasjon av brukerne som har tilgang til modellen.

Sløvene brøt seg inn i Mythos gjennom en rekke taktikker, inkludert ved å gjette modellens nettadresse basert på navnekonvensjonene Anthropic har brukt i tidligere modellutgivelser, heter det i rapporten.

En av de uautoriserte brukerne hadde angivelig et visst nivå av tilgang til Anthropics systemer på grunn av å jobbe som tredjepartsleverandør for firmaet.

«Vi undersøker en rapport som hevder uautorisert tilgang til Claude Mythos Preview gjennom et av våre tredjepartsleverandørmiljøer,» sa en antropisk talsperson i en uttalelse.

Selskapet la til at det ikke har noen bevis for at gruppens uautoriserte tilgang hadde utvidet seg utover tredjepartsleverandørens miljø eller påvirket noen av dets andre systemer.

En person i Discord-gruppen – medlemmer som ikke ble navngitt – fortalte Bloomberg at de ønsker å teste nye modeller i stedet for å bruke dem til å skape kaos.

Allikevel vekker hendelsen bekymring for omfanget av Anthropics evne til å opprettholde tilsyn med et verktøy som de hevder kan brukes til å ødelegge kritisk infrastruktur som elektriske nett, kraftverk og sykehus hvis det falt i feil hender.

Tidligere denne måneden fortalte AI-sikkerhetsforsker Roman Yampolskiy til The Post at en viss «lekkasje» av modellen var uunngåelig til tross for Anthropics forsøk på å begrense tilgangen.

Anthropic sa at de delte Mythos med bedriftspartnere – inkludert Amazon, Google, Apple, Nvidia, CrowdStrike og JPMorgan Chase – slik at de kunne plugge sine egne cybersikkerhetssårbarheter.

Før utrullingen brøt Mythos ut av en sikker «sandkasse» som var ment å begrense internettilgangen – med en forsker som bare fant ut «ved å motta en uventet e-post fra modellen mens han spiste en sandwich i en park.» Anthropic beskrev den mye omtalte hendelsen som «å demonstrere en potensielt farlig evne for å omgå våre sikkerhetstiltak.»

Finansminister Scott Bessent og sentralbanksjef Jerome Powell holdt nylig et lukket møte der de oppfordret toppbanktjenestemenn til å sikre at systemene deres var klare for risikoen Mythos angivelig utgjør.

Dele
Exit mobile version