Hjem · Nyheter · Multimodale AI-agenter i kontorarbeid — fra teksthjelp til verktøy som leser skjerm og klikker
Nyhet

Multimodale AI-agenter i kontorarbeid fra teksthjelp til verktøy som leser skjerm og klikker

Den neste bølgen av AI i kontorarbeid er ikke chatboten — det er agenter som ser hva du ser på skjermen og utfører flertrinnsoppgaver på tvers av systemer. Teknologien er her, men moden er den ikke ennå.

Multimodale AI-agenter i kontorarbeid — fra teksthjelp til verktøy som leser skjerm og klikker

En ny generasjon AI-agenter kan se skjermbilder, tolke regneark og PDF-er, og utføre flertrinnsoppgaver på tvers av ulike programmer uten at brukeren gjør hvert enkelt steg manuelt. Teknologien finnes allerede i produkter som Microsoft Copilot, Anthropics Claude og Googles Gemini. Men for norske kontorarbeidere er veien fra demo til daglig bruk fortsatt lang.

Hva «multimodal» faktisk betyr i praksis

En multimodal AI-agent er ikke bare en chatbot som leser tekst. Den kan også:

I praksis betyr dette at en agent kan ta imot en instruksjon som «finn alle fakturaer over 50 000 kroner fra Q1 i innboksen min, lag et sammendrag og legg det i denne Excel-malen» — og utføre det uten at brukeren klikker seg gjennom stegene selv.

Hva er tilgjengelig nå

Funksjonen som gjerne kalles «computer use» — der modellen kan styre en datamaskin via skjermbilde-input — ble lansert av Anthropic i 2024 og er siden blitt tilgjengelig hos flere leverandører. Microsoft Copilot i Office 365 har fått utvidet multimodal støtte, og Google Workspace integrerer Gemini med tilgang til dokumenter, e-post og møtenotater.

For norske bedrifter med Microsoft-lisenser er Copilot den mest tilgjengelige inngangen. Google Workspace-brukere får tilsvarende funksjonalitet via Gemini. Standalone-alternativer som Anthropics Claude og ulike agentplattformer bygget på åpne modeller finnes for de som vil ha mer kontroll.

«Det som har endret seg fra 2024 til 2026 er at agentene nå faktisk fullfører oppgavene. For ett år siden krasjet de halvveis gjennom. Nå er det mer som å ha en junior-assistent som trenger nøye instruksjon, men som gjennomfører.» — Kilde: teknologidirektør i norsk konsulentselskap, juni 2026

Hva norske kontorarbeidere bruker det til

Blant de mest rapporterte bruksområdene i norske kunnskapsbedrifter for multimodale agenter er:

Dokumentbehandling: Sammendrag av lange rapporter, ekstraksjon av nøkkeldata fra PDF-er, konvertering mellom formater.

Møteforberedelse og -oppfølging: Agenter som leser møteinnkallelse, henter relevante dokumenter, og lager handlingspunkter basert på notater eller opptak.

Datakartlegging på tvers av systemer: Henter informasjon fra CRM, regnskapssystem og e-post og sammenstiller det uten manuell kopiering.

Presentasjonsutkast: Tar inn data fra regneark og lager strukturert innhold til PowerPoint eller Google Slides.

Hva er begrensningene

Multimodale agenter er fortsatt langt fra feilfrie. De viktigste begrensningene i 2026 er:

Datatilsynet har ikke publisert spesifikke retningslinjer for agentic AI i arbeidslivet per juni 2026, men har signalisert at eksisterende GDPR-prinsipper om dataminimering og formålsbegrensning gjelder fullt ut.

Hva norske bedrifter bør gjøre nå

For virksomheter som vurderer multimodale agenter i kontorarbeid, er noen grep relevante:

Teknologien er ikke moden nok til uovervåket drift i de fleste norske kontekster. Men som assistanseverktøy for kunnskapsarbeidere er den allerede nyttig nok til å gi reell tidsgevinst.

Slik vurderer vi

Vi baserer innholdet på offisielle priser, leverandørenes egne sider og uavhengige kilder, oppdatert løpende. Vi tjener provisjon på enkelte lenker, men det påvirker ikke vurderingen.

Ansvarlig redaktør
Ingar

Ingar er ansvarlig redaktør i altai og jobber til daglig med AI-rådgivning og digitale tjenester for norske virksomheter. altai er hans uavhengige oversikt over AI-verktøy for et norsk publikum.

← Alle nyheter