DeepMinds AI-medmatematiker: når modeller går fra prøver til ekte forskning
Frontiermodeller går fra å bestå eksamener til å hjelpe med åpne forskningsproblemer. Vi forklarer hva FrontierMath Tier 4 måler, hvorfor 48 % er bemerkelsesverdig, og hvor langt unna «AI som forsker selv» vi faktisk er.
DeepMinds AI-medmatematiker: når modeller går fra prøver til ekte forskning
Google DeepMind presenterte i 2026 AI Co-Mathematician, en interaktiv arbeidsbenk av AI-agenter som skal støtte hele forskningsarbeidsflyten i matematikk. Systemet skåret 48 prosent på FrontierMath Tier 4 — den vanskeligste kategorien i en benchmark laget for å være ekstremt krevende. Det markerer et skifte fra modeller som består prøver, mot modeller som hjelper på åpne problemer uten kjent fasit.
Hva FrontierMath Tier 4 faktisk måler
FrontierMath er en samling matematikkoppgaver laget for å være vanskelige også for de skarpeste modellene, og Tier 4 er den tyngste delen. Poenget med en slik benchmark er ikke skoleregning, men problemer som krever dyp innsikt og lange resonneringskjeder — ofte oppgaver der selv erfarne matematikere bruker betydelig tid. At et system løser nær halvparten av disse, er bemerkelsesverdig nettopp fordi terskelen er satt så høyt.
Samtidig er det viktig å lese tallet nøkternt. 48 prosent betyr at over halvparten fortsatt ikke løses, og en benchmark er en kontrollert test, ikke et bevis på at systemet kan erstatte en forsker. Skår på en testmengde forteller om kapasitet under gitte betingelser, ikke om hvor pålitelig systemet er på et helt nytt problem ingen har sett før.
Fra «svarmaskin» til «medforsker»
Det interessante med AI Co-Mathematician er ikke bare skåren, men formen: en arbeidsbenk av flere agenter som skal støtte hele forskningsløpet, ikke bare spytte ut ett svar. Det føyer seg inn i en bredere bevegelse i 2026, der frontiermodeller tilbyr «forskningsgrad»-resonnering gjennom API-er — for harde optimaliseringsproblemer, design av nye algoritmer, og oppgaver uten kjent løsning.
Skiftet er verdt å merke seg. Tidligere ble modeller målt på om de kunne bestå eksamener mennesker allerede har fasit til. Nå handler det i økende grad om åpen oppdagelse: kan systemet bidra med noe nytt på et uløst problem? Det er en mye høyere ambisjon, og nettopp derfor bør påstandene leses kritisk til de er etterprøvd av uavhengige fagfolk.
Hva dette betyr for norske fagmiljøer
For norske forskere, ingeniører og dataanalytikere er det realistiske bildet at slike verktøy blir en kraftig assistent, ikke en erstatning. En AI-medmatematiker kan foreslå tilnærminger, sjekke utregninger og utforske mange retninger raskt, men ansvaret for å verifisere resultatene ligger hos mennesket. I matematikk og forskning er et plausibelt svar uten bevis verdiløst — og det er nettopp verifisering modellene fortsatt er svakest på.
Det praktiske rådet er å se på denne typen systemer som et hjelpemiddel i tidlige, utforskende faser, der det å generere og luke ut mange hypoteser har stor verdi. Men hold mennesket i førersetet for konklusjonene, og behandl ethvert AI-generert resultat som et forslag som må kontrolleres, ikke som en fasit.
«Google DeepMind presenterte i 2026 AI Co-Mathematician, en interaktiv arbeidsbenk av AI-agenter som støtter hele forskningsarbeidsflyten i matematikk. Systemet skåret 48 prosent på FrontierMath Tier 4, den vanskeligste tieren i benchmarken.» — Oppsummert fra Google DeepMinds forskningskommunikasjon, juni 2026 (deepmind.google)
Ofte stilte spørsmål
Hva er AI Co-Mathematician? Det er en interaktiv arbeidsbenk av AI-agenter fra Google DeepMind, presentert i 2026, som skal støtte hele forskningsarbeidsflyten i matematikk — fra å foreslå tilnærminger til å sjekke utregninger. Systemet skåret 48 prosent på FrontierMath Tier 4, den vanskeligste kategorien i en benchmark laget for å være ekstremt krevende.
Betyr 48 % at AI nå kan forske selv? Nei. 48 prosent betyr at over halvparten av de vanskeligste oppgavene fortsatt ikke løses, og en benchmark er en kontrollert test, ikke et bevis på at systemet kan erstatte en forsker. Skår forteller om kapasitet under gitte betingelser, ikke om pålitelighet på et helt nytt problem. Mennesket må fortsatt verifisere resultatene.
Hvordan kan norske fagmiljøer bruke slike verktøy? Se på dem som en kraftig assistent i tidlige, utforskende faser, der det å generere og luke ut mange hypoteser har verdi. Men hold mennesket i førersetet for konklusjonene. Behandl ethvert AI-generert resultat som et forslag som må kontrolleres, ikke som en fasit — særlig i matematikk, der et svar uten bevis er verdiløst.
Slik vurderer vi
Vi baserer innholdet på offisielle priser, leverandørenes egne sider og uavhengige kilder, oppdatert løpende. Vi tjener provisjon på enkelte lenker, men det påvirker ikke vurderingen.