Claude Opus 4.8 tar førsteplassen: første modell klart over 60 på Intelligence Index

Anthropics Claude Opus 4.8 tok i slutten av mai 2026 førsteplassen på den uavhengige Artificial Analysis Intelligence Index med en poengsum på 61,4, foran GPT-5.5 sine 60,2. Det er første gang en modell passerer 60 med tydelig margin. Indeksen aggregerer ti ulike evalueringer av resonnering, koding og fagkunnskap.

Hva Intelligence Index faktisk måler

Artificial Analysis Intelligence Index er et forsøk på å samle modellers ytelse i ett tall. Versjon 4.1 av indeksen kombinerer ti separate evalueringer, blant annet GDPval-AA, Terminal-Bench Hard, SciCode, GPQA Diamond og Humanity's Last Exam. Disse dekker alt fra agentiske oppgaver og koding i terminal til vitenskapelig resonnering og bred faktakunnskap.

Claude Opus 4.8 scorer 61,4, opp 4,1 poeng fra Opus 4.7 og 1,2 poeng foran GPT-5.5. Anthropic tar samtidig tilbake ledelsen på GDPval-AA, en evaluering som måler modellens evne til å løse reelle arbeidsoppgaver, med en implisitt seiersrate på rundt 67 prosent mot GPT-5.5. Modellen ble sluppet 28. mai 2026.

Hvorfor marginen er liten — og hva det betyr

Selv om førsteplassen er reell, er forspranget beskjedent. 61,4 mot 60,2 er litt over ett poeng, og rekkefølgen på toppen har skiftet flere ganger denne våren etterhvert som OpenAI, Google og Anthropic slipper nye versjoner i tett rekkefølge. En modell som er nummer én i mai, kan være nummer to i juli.

Det er også verdt å huske at en aggregert poengsum skjuler store variasjoner. En modell kan lede på koding, men ligge bak på språkforståelse eller faktakunnskap. For en konkret arbeidsoppgave er det ofte mer relevant hvordan modellen presterer på akkurat den oppgaven enn hvor den ligger på en samlet indeks. Mange imponerende tall stammer dessuten fra leverandørenes egne tester, så uavhengige målinger som denne har ekstra verdi nettopp fordi de er nøytrale.

Hva dette betyr for norske brukere

For norske bedrifter er hovedpoenget at toppen av markedet er ekstremt jevn, og at ingen leverandør har et varig forsprang. Det taler for å unngå hard innlåsing til én modell, og heller bygge arbeidsflyter som kan bytte mellom leverandører når ytelse eller pris endrer seg.

Anthropic har særlig sterk posisjon på koding og agentiske oppgaver, noe som er relevant for norske utviklingsmiljøer. Men for de fleste praktiske oppgaver — tekstarbeid, oppsummering, kundeservice — er forskjellen mellom de tre–fire toppmodellene liten nok til at pris, personvern og integrasjon ofte bør veie tyngre enn en plassering på en benchmark. Test mot egne oppgaver før du velger.

«Claude Opus 4.8 tar ledelsen på Artificial Analysis Intelligence Index med 61,4, og Anthropic gjenerobrer førsteplassen på GDPval-AA og rykker fram innen terminalbruk og vitenskapelig resonnering.» — Artificial Analysis, mai 2026 (artificialanalysis.ai)

Ofte stilte spørsmål

Hva er Artificial Analysis Intelligence Index? Det er en uavhengig samleindeks som måler språkmodellers ytelse ved å kombinere ti separate evalueringer, blant annet resonnering, koding, vitenskap og faktakunnskap, til ett tall. Den brukes til å sammenligne toppmodeller på tvers av leverandører.

Betyr førsteplassen at Claude Opus 4.8 er best til alt? Nei. En aggregert poengsum skjuler at modeller varierer mellom oppgavetyper. Opus 4.8 leder på indeksen og er sterk på koding og agentiske oppgaver, men forskjellen til nummer to er liten, og en annen modell kan være bedre for en konkret oppgave. Test mot din egen bruk.

Hvor lenge holder en slik førsteplass? Trolig kort. OpenAI, Google og Anthropic slipper nye versjoner i tett rekkefølge, og rekkefølgen på toppen har skiftet flere ganger i 2026. Det taler for å bygge arbeidsflyter som kan bytte modell fremfor å låse seg til én leverandør.

Claude Opus 4.8 tar førsteplassen: første modell klart over 60 på Intelligence Index