AI-benchmarkene er i ferd med å miste verdien – derfor bør du ikke stole på toppscorene

Gjennom 2026 har en debatt blusset opp i AI-miljøet: de etablerte testene som måler språkmodeller er i ferd med å bli ubrukelige for å skille de beste modellene fra hverandre. Populære benchmarker som MMLU ligger nå over 88 prosent for alle frontmodellene, slik at forskjeller på toppen er statistisk meningsløse. Samtidig viser studier en stor avstand mellom labresultater og hvordan modellene faktisk fungerer i virkelig bruk.

Hva «mettet benchmark» betyr

En benchmark er en standardisert prøve, en samling oppgaver med fasit som modeller måles mot. Når en test er ny og vanskelig, sier resultatene mye. Men når alle de beste modellene svarer riktig på nesten alt, er testen «mettet»: den klarer ikke lenger å skille en god modell fra en enda bedre, fordi alle treffer taket. Da blir små forskjeller i prosent like mye tilfeldig støy som reell kvalitet.

For å vise hvor stort gapet kan være, brukes nyere og hardere tester. På en av dem, ofte omtalt som «Humanity's Last Exam», kommer de beste modellene til rundt 35 prosent, mens menneskelige fageksperter ligger nær 90. Den forskjellen forsvinner helt hvis du bare ser på de gamle, mettede testene. Poenget er ikke at modellene er dårlige, men at ett enkelt tall på et reklameark sjelden forteller hele historien.

Avstanden mellom labtest og virkelig bruk

Det mest praktisk relevante funnet er gapet mellom benchmark og hverdag. Analyser av bedrifters bruk av agentbaserte AI-systemer har vist en betydelig forskjell mellom scorene i kontrollerte tester og ytelsen ute i reell drift, samtidig som kostnaden for å oppnå samme nøyaktighet kan variere kraftig mellom oppsett. En modell som glitrer på en standardprøve, kan altså snuble på dine konkrete oppgaver.

Flere forhold forklarer dette. Testdata kan ha lekket inn i treningen, slik at modellen i praksis har «sett fasiten». Noen benchmarker kan spilles ved at man trener spesifikt mot dem. Og selv velmente tester inneholder feilmerkede oppgaver. Summen er at en høy benchmark-score er et signal, ikke et bevis. Den forteller at modellen er kapabel, ikke at den løser nettopp din oppgave godt.

Hva norske bedrifter bør gjøre i stedet

Rådet er enkelt og lite glamorøst: test på dine egne oppgaver. Sett sammen en liten samling realistiske eksempler fra din egen hverdag, med svar du selv vet er riktige, og kjør de aktuelle modellene mot dem. Det trenger ikke være avansert; tjue til femti gode eksempler avslører ofte mer enn alle de offentlige tallene til sammen.

Mål også det som faktisk betyr noe for deg: ikke bare om svaret er riktig, men hvor ofte modellen finner på ting, hvor godt den håndterer norsk, hva den koster per oppgave og hvor raskt den svarer. Og test på nytt med jevne mellomrom, for modeller endrer seg. Den som velger AI-verktøy ut fra en topplassering på en mettet benchmark, risikerer å betale for en vinner som taper på akkurat det arbeidet bedriften faktisk skal gjøre.

«MMLU og MMLU-Pro er i praksis mettet over 88 prosent for frontmodellene, slik at forskjeller på toppen er statistisk meningsløse. Bedrifters agentbaserte AI-systemer viser et betydelig gap mellom labresultater og ytelse i reell drift, med stor variasjon i kostnad for samme nøyaktighet.» — Oppsummert fra analyser av AI-benchmarker, 2026 (kili-technology.com)

Ofte stilte spørsmål

Hva betyr det at en benchmark er «mettet»? En mettet benchmark er en test der alle de beste modellene svarer riktig på nesten alt, slik at den ikke lenger klarer å skille en god modell fra en enda bedre. Populære tester som MMLU ligger nå over 88 prosent for alle frontmodellene, og da blir små forskjeller i score mer tilfeldig støy enn reell kvalitet. Nyere, hardere tester avslører fortsatt store forskjeller.

Kan jeg stole på benchmark-tallene når jeg velger AI-verktøy? Bare delvis. En høy score er et signal om at modellen er kapabel, men ikke et bevis på at den løser dine konkrete oppgaver godt. Studier viser et betydelig gap mellom labtester og virkelig bruk, og testdata kan ha lekket inn i treningen. Behandle benchmark-tall som et utgangspunkt, ikke en fasit.

Hvordan bør norske bedrifter teste AI-modeller selv? Sett sammen tjue til femti realistiske eksempler fra din egen hverdag med kjente, riktige svar, og kjør de aktuelle modellene mot dem. Mål om svaret er riktig, hvor ofte modellen finner på ting, hvor godt den håndterer norsk, kostnad per oppgave og svartid. Gjenta testen med jevne mellomrom, siden modellene endrer seg over tid.

AI-benchmarkene er i ferd med å miste verdien – derfor bør du ikke stole på toppscorene