Britisk AI-tilsyn knakk GPT-5.5s sikkerhetssperrer på seks timer

Storbritannias AI Security Institute (AISI), et uavhengig statlig evalueringsorgan, publiserte 30. april 2026 en vurdering av OpenAIs GPT-5.5 der de fant en universell jailbreak av modellens cyber-sikkerhetssperrer. Angrepet, som omgikk sperrene for alle de skadelige cyber-spørringene de testet, tok seks timers ekspertarbeid å utvikle. AISI omtalte samtidig GPT-5.5 som «en av de sterkeste modellene vi har testet» på cyberoppgaver.

Hva en jailbreak og en sikkerhetssperre er

AI-modeller er utstyrt med sikkerhetssperrer — innebygde regler som skal hindre at de hjelper til med skadelige oppgaver, som å lage våpen eller gjennomføre dataangrep. En jailbreak er en metode for å lure modellen til å omgå disse sperrene, ofte ved å formulere forespørselen på en bestemt måte. En «universell» jailbreak er spesielt alvorlig fordi den ikke bare virker på ett enkelt spørsmål, men låser opp sperrene bredt på tvers av mange forespørsler.

Det AISI demonstrerte, var nettopp dette: en metode som fikk modellen til å produsere innhold den skulle nektet, på tvers av alle de skadelige cyber-spørringene de prøvde, også i flertrinns oppgaver der modellen jobber som en agent over flere steg. At dette tok seks timer for eksperter er kjernen i bekymringen — sperrene var ikke umulige å bryte, bare litt arbeidskrevende.

Hva funnet faktisk betyr

To ting kan være sanne samtidig: GPT-5.5 er en svært kapabel modell, og sperrene dens kan omgås. AISI målte at modellen nådde en høy gjennomføringsgrad på ekspert-nivå cyberoppgaver — bedre enn flere tidligere modeller — og fullførte et 32-stegs simulert angrep mot et bedriftsnettverk fra start til slutt i 2 av 10 forsøk. Jo mer kapabel en modell er, desto større blir konsekvensen av at sperrene kan brytes.

OpenAI gjorde flere oppdateringer av sikkerhetslaget etter funnet. Men her ligger en viktig nyanse: AISI klarte ikke å verifisere effekten av den endelige konfigurasjonen fordi versjonen de fikk hadde et oppsettsproblem. Det betyr at vi vet sperrene var brytbare i den testede versjonen, men ikke har en uavhengig bekreftelse på at den ferdige rettelsen faktisk lukket hullet. Det er en påminnelse om at «vi har fikset det» fra en leverandør ikke er det samme som uavhengig stadfestet at problemet er borte.

Hva norske virksomheter bør ta med seg

Det praktiske poenget er ikke å frykte at AI-modeller er ubrukelige, men å forstå at innebygde sikkerhetssperrer er en barriere, ikke en garanti. For norske bedrifter som bygger tjenester oppå AI-modeller, betyr det at man ikke kan basere sikkerheten utelukkende på leverandørens sperrer. Egne kontroller — som å begrense hva modellen får tilgang til, logge bruk og ha mennesker i loopen for følsomme handlinger — er fortsatt nødvendig.

Mer overordnet illustrerer saken hvorfor uavhengig evaluering har verdi. At et statlig institutt, ikke selskapet selv, fant og dokumenterte svakheten, er nettopp poenget med ekstern testing. For beslutningstakere er lærdommen at modellenes egne sikkerhetspåstander bør suppleres med uavhengige vurderinger der de finnes, og at sikkerhet må bygges i lag, ikke hviles på ett enkelt forsvar.

«Storbritannias AI Security Institute publiserte 30. april 2026 en evaluering av GPT-5.5 der de fant en universell jailbreak som omgikk modellens cyber-sikkerhetssperrer på tvers av alle testede skadelige spørringer, også i agent-oppsett. Angrepet tok seks timers ekspertarbeid. OpenAI oppdaterte sperrene, men AISI kunne ikke verifisere den endelige konfigurasjonen på grunn av et oppsettsproblem i versjonen de mottok.» — Oppsummert fra AISIs GPT-5.5-evaluering, april–juni 2026 (aisi.gov.uk)

Ofte stilte spørsmål

Hva er en universell jailbreak? En jailbreak er en metode for å lure en AI-modell til å omgå de innebygde sikkerhetssperrene som skal hindre skadelig bruk. En universell jailbreak er spesielt alvorlig fordi den ikke bare virker på ett enkelt spørsmål, men låser opp sperrene bredt på tvers av mange forespørsler. AISI fant en slik universell metode mot GPT-5.5s cyber-sperrer, som virket selv når modellen jobbet som agent over flere steg.

Betyr dette at GPT-5.5 er utrygg å bruke? Ikke nødvendigvis utrygg, men funnet viser at innebygde sperrer er en barriere og ikke en garanti. Modellen er svært kapabel, noe som gjør konsekvensen av brytbare sperrer større. OpenAI oppdaterte sikkerhetslaget, men AISI kunne ikke verifisere den endelige rettelsen uavhengig. Lærdommen er at sikkerhet må bygges i lag og ikke hvile på ett enkelt forsvar.

Hva bør norske bedrifter gjøre? Ikke basere sikkerheten utelukkende på leverandørens sperrer. Bygg egne kontroller: begrens hva modellen får tilgang til, logg bruk, og ha mennesker i loopen for følsomme handlinger. Saken viser også verdien av uavhengig evaluering — modellenes egne sikkerhetspåstander bør suppleres med eksterne vurderinger der de finnes.

Britisk AI-tilsyn knakk GPT-5.5s sikkerhetssperrer på seks timer