AI og samisk norsk språkteknologi møter minoritetsspråkene
Samisk er ikke ett språk men en familie med mange varianter — og alle er underrepresentert i dagens AI-modeller. Forskere, Sametinget og teknologiselskaper begynner å adressere gapet, men veien er lang.
AI og samisk — norsk språkteknologi møter minoritetsspråkene
Norsk talegjenkjenning og maskinoversettelse har gjort store sprang de siste årene. Men for samiske språk — de opprinnelige språkene i Sápmi, delt mellom Norge, Sverige, Finland og Russland — er situasjonen langt mer krevende. Lite treningsdata, mange dialektvarianter og begrenset kommersiell interesse gjør samisk til et teknologisk uutnyttet felt.
Ni språk, ikke ett
Det er vanlig å snakke om «samisk» som ett språk, men det er i realiteten en familie på ni distinkte språk med varierende grad av innbyrdes forståelse. Nordsamisk er det største med rundt 20 000 til 30 000 talere; sydsamisk og lulesamisk har langt færre. Ume-, pite-, skolte-, enare-, kildin- og tersamisk er alle truede eller sterkt truede.
For AI-trening er dette avgjørende. En modell trent på nordsamisk tekst fra avisartikler og offentlige dokumenter vil ikke fungere for skoltesamisk, som har helt annen grammatikk, morfologi og et minimalt digitalt tekstkorpus.
Hva finnes av samisk AI-teknologi?
Giellatekno ved UiT Norges arktiske universitet er det fremste forskningsmiljøet for samisk språkteknologi i verden. De har siden 2000-tallet bygd grammatikkverktøy, stave- og grammatikkontrollere og morfologiske analysatorer for en rekke samiske språk.
Giellatekno-verktøyene brukes i dag i offentlige tjenester og av NRK Sápmi. De er regelbaserte snarere enn rent maskinlæringsbaserte — en bevisst strategi for lavressursspråk der treningsdata er begrenset.
Maskinoversettelse mellom nordsamisk og norsk finnes som en tidlig tjeneste hos Divvun (Giellateknos søsterprosjekt), og NTNU og UiT har forskningsprosjekter på tale-til-tekst for nordsamisk. Resultatene er lovende men langt fra kommersiell kvalitet: ordgjenkjenningsraten er lav for ukjente talere og dialektvariasjon.
Nordsamisk har rundt 20 000–30 000 talere. Til sammenligning trente de første gode norske talemodelleene på tusenvis av timer med transkribert tale. Samisk innspilt, transkribert tale er tilgjengelig i timevis, ikke tusenvis av timer — det er et fundamentalt dataproblem.
Sametinget og det politiske presset
Sametinget har lenge arbeidet for at offentlige digitale tjenester skal tilbys på samisk. EU AI Acts krav om ikke-diskriminering og tilgjengelighet setter ytterligere press på norske myndigheter til å sikre at AI-baserte offentlige tjenester ikke systematisk diskriminerer samiskspråklige brukere.
I 2025 vedtok Sametinget å prioritere utvikling av språkteknologi som en del av revitaliseringsstrategien for samiske språk. Det innebærer støtte til tekstkorpus-innsamling, taleopptak og åpen publisering av datasettene.
Kommunal- og distriktsdepartementet finansierer deler av dette arbeidet gjennom tilskuddsordninger for samisk språkutvikling, men midlene er spredt og koordineringen mellom forskningsmiljøer, Sametinget og teknologiselskaper er ikke alltid optimal.
Internasjonalt: hva gjøres for andre minoritetsspråk?
Situasjonen for samisk speiler et globalt mønster. Meta, Google og Microsoft har alle investert i lavressursspråk de siste årene, men prioriterer de store minoritetsspråkene — tamilsk, swahili, wolof — fremfor arktiske minoritetsspråk med under 30 000 talere.
Prosjekter som Masakhane for afrikanske språk og Indigenous AI i Canada viser at fellesskapsdrevne datakollektiv kan gi gode resultater. Felles treningsdatasett bygget av talere selv, med kontroll over hvem som bruker dataene og til hva, er en tilnærming som diskuteres for samisk.
Finsk forskningstradisjon er relevant her: Finsk, som grammatikalsk ligner samiske språk i sin morfologiske kompleksitet, er et av de best representerte ikke-Indo-europeiske språkene i AI-trening. Finske erfaringer brukes aktivt i samisk NLP-forskning.
Kommersielle aktørers interesse
Store kommersielle AI-selskaper har foreløpig ikke satset på samisk. Markedet er for lite, og insentivene er svake uten offentlig finansiering. Noen norske teknologiselskaper har begynt å inkludere nordsamisk i tjenester der det er naturlig — Finn.no og Nav har vurdert det — men implementasjoner er foreløpig begrenset.
Det mest realistiske scenarioet for de neste to til tre årene er at teknologifellesskapet rundt Giellatekno og Divvun bygger åpne modeller for nordsamisk som kan deles og brukes av alle interessenter, mens de øvrige samiske språkene forblir utenfor kommersielle AI-tjenester.
Hva betyr dette for norske bedrifter og offentlig sektor?
Organisasjoner med plikt til å tilby tjenester på samisk — kommuner i samisk forvaltningsområde, NRK, Nav, Sametinget — bør følge utviklingen tett. Automatisk oversettelse mellom norsk og nordsamisk nærmer seg brukbar kvalitet for enkle tekster, og kan allerede gi besparelse i oversettelseskostnader for standardisert informasjonstekst.
For tekster der nøyaktighet er kritisk — juridiske dokumenter, helsetjenesteinformasjon — er menneskelig oversettelse fortsatt nødvendig, og kapasiteten er begrenset. AI som støtteverktøy for menneskelige oversettere er en mer realistisk kortsiktig gevinst enn full automatisering.
Spørsmål og svar
Slik vurderer vi
Vi baserer innholdet på offisielle priser, leverandørenes egne sider og uavhengige kilder, oppdatert løpende. Vi tjener provisjon på enkelte lenker, men det påvirker ikke vurderingen.