Lokale AI-modeller 2026 — kjør AI på din egen maskin (komplett guide)

Q: Er lokal AI like bra som ChatGPT eller Claude?

For de fleste daglige oppgaver som e-post, sammendrag, oversettelse og det meste av koding er forskjellen marginal i 2026. Open-weight-modeller har nådd kvalitetsparitet med de beste sky-tjenestene på mange oppgaver. På de aller hardeste resonneringsoppgavene ligger de tyngste sky-modellene som Claude Opus og GPT-5.5 Thinking fortsatt et hakk over. Men du får full datakontroll, ingen kostnad per bruk og full offline-funksjon.

Q: Hva er forskjellen på Ollama og LM Studio?

Ollama er et kommandolinje-verktøy for utviklere: installeres på én kommando, kjører som bakgrunnstjeneste og eksponerer et OpenAI-kompatibelt API. LM Studio er en polert skrivebordsapp for vanlige brukere: du blar i en visuell modellkatalog, klikker last ned og chatter uten terminal. På NVIDIA-kort er Ollama 10-20 prosent raskere; på Apple Silicon er LM Studio ofte raskere takket være MLX. Mange installerer begge.

Q: Er lokal AI trygt for bedrifter og GDPR?

Ja, det er faktisk det tryggeste alternativet. Når modellen kjører på bedriftens egen maskin eller server, forlater dataene aldri nettverket. Det fjerner hele spørsmålet om databehandleravtale, overføring til tredjeland og samtykke til modelltrening. Mange advokatfirmaer, helseaktører og finansmiljøer i Norge bygger lokal AI inn i arbeidsflyten med en vLLM-server bak brannmuren. Sjekk likevel modellens lisens.

Lokale AI-modeller 2026: kjør AI på din egen maskin

Du kjører AI lokalt ved å installere et verktøy som Ollama eller LM Studio og laste ned en open-weight-modell. I 2026 er Llama 4 Scout det beste førstevalget for de fleste, Qwen 3.6 27B for koding og Gemma 4 for små maskiner. Alt kjører offline, gratis, uten at noe data sendes til en skyleverandør — du trenger bare nok minne (RAM eller VRAM) til modellen du velger.

For to år siden hadde du ett valg hvis du ville bruke en kraftig AI-modell: sende dataene dine til en annens server og betale per token. I 2026 er den begrensningen borte. Open-weight-modeller har nådd kvalitetsnivået til de beste sky-tjenestene på mange oppgaver, vanlige forbruker-GPU-er har nok minne til å kjøre kvantiserte modeller på 70 milliarder parametere, og verktøy som Ollama tar deg fra null til en fungerende lokal AI på én kommando. Denne guiden viser deg nøyaktig hvordan — med ekte modellnavn, ekte maskinkrav og ekte priser bekreftet juni 2026.

Hva betyr «lokal AI», egentlig?

Lokal AI betyr at selve språkmodellen kjører på din maskin — din PC, Mac eller en server du selv kontrollerer — i stedet for på OpenAI, Google eller Anthropics datasentre. Når du skriver en melding, prosesseres den av prosessoren og grafikkortet ditt, og svaret genereres uten at et eneste tegn forlater maskinen.

Det er tre ord du må kjenne for å forstå resten av guiden:

Open-weight-modell: En AI-modell der selve «vektene» (de trente tallene som utgjør modellen) er lastet ned og kjørbare på din maskin. Llama, Qwen, Gemma og DeepSeek er alle open-weight. ChatGPT og Claude er ikke — de finnes bare som tjeneste i skyen. «Open weight» er ikke helt det samme som «open source»: vektene er åpne, men treningsdata og lisensvilkår varierer.

Parametere: Størrelsen på modellen, oppgitt i milliarder (B = billion). En 7B-modell har 7 milliarder parametere. Flere parametere gir vanligvis høyere kvalitet, men krever mer minne. I 2026 har en 27B-modell ofte bedre kvalitet enn en eldre 70B-modell, fordi arkitekturen er forbedret.

Kvantisering (quantization): En komprimeringsteknikk som krymper modellen så den får plass i mindre minne. «Q4» betyr 4-bits kvantisering — den klart vanligste. En 27B-modell som i utgangspunktet trenger ~54 GB minne, får plass i omtrent 18–20 GB etter Q4-kvantisering, med bare et lite kvalitetstap. Tommelfingerregel: en mindre modell på høy kvantisering (Q8) slår ofte en større modell på aggressiv kvantisering (Q2).

Hvorfor kjøre AI lokalt?

Det er fire grunner folk bytter til lokal AI i 2026, og personvern er den tyngste.

Personvern og taushetsplikt. Ingenting du skriver forlater maskinen. For advokater, leger, regnskapsførere, journalister med kilder, eller hvem som helst som håndterer persondata under GDPR, fjerner dette hele problemet med databehandleravtaler og overføring til USA. Det er ingen leverandør som kan lese, lagre eller trene på samtalene dine, fordi det ikke finnes noen leverandør i bildet.

Ingen kostnad per bruk. Etter at maskinvaren er på plass er hver melding gratis. Ingen abonnement, ingen token-teller, ingen overraskelsesregning. Bruker du AI tungt hver dag, betaler en god maskin seg inn raskt sammenlignet med 200–2000 kroner i månedlige API- eller abonnementskostnader.

Ingen grenser eller nedetid. Ingen daglige meldingstak, ingen «kapasiteten er nådd, prøv igjen senere», ingen rate-limiting midt i en arbeidsøkt. Modellen er din, og den svarer så fort maskinen klarer.

Full offline-funksjon. Lokal AI fungerer på fly, i hytta uten dekning, eller bak en brannmur uten internett. For mange bedrifter er nettopp dette — å holde AI innenfor et lukket nettverk — selve poenget.

Den ærlige baksiden: de aller største modellene (DeepSeek V4 Pro på 1,6 billioner parametere) krever datasenter-maskinvare og er urealistiske å kjøre hjemme. Og topp-tier sky-modeller som Claude Opus eller GPT-5.5 Thinking ligger fortsatt et hakk over det du kjører lokalt på de tyngste resonnerings-oppgavene. Men for det store flertallet av daglige oppgaver er forskjellen i 2026 marginal.

De beste lokale AI-modellene i 2026

Open-weight-landskapet beveger seg fort. Ollama-biblioteket har over 4 500 modeller, og nye slipper ukentlig. Her er de fem familiene som faktisk betyr noe, med hva hver er best til og hvilken maskinvare den krever.

1. Llama 4 Scout (Meta) — beste førstevalg for de fleste

Llama 4 Scout er det mest utbredte open-weight-valget i verden, og med god grunn. Det er en Mixture-of-Experts-modell (MoE) med 109 milliarder parametere totalt, men bare 17 milliarder aktive per token — det betyr at den er kraftig, men minnenøysom. Den får plass på et vanlig gaming-grafikkort.

Det virkelig spesielle er kontekstvinduet: opptil 10 millioner tokens, det desidert største i den åpne verden. Du kan mate inn en hel kodebase eller en bunke lange dokumenter og få presise svar på tvers av alt sammen.

Arkitektur: MoE, 17B aktive / 109B totalt
Minne: ~10 GB VRAM (Q4)
Sterk på: Generell samtale, instruksjonsfølging, flerspråklighet, lange dokumenter
Svak på: Ren matematikk og de hardeste kode-benchmarkene
Last ned: ollama pull llama4:scout

2. Qwen 3.6 27B (Alibaba) — kodespesialisten

Qwen-familien fra Alibaba har vært den jevneste open-weight-serien i to år. Qwen 3.6 27B er en tett (dense) modell som scorer 77,2 % på SWE-bench Verified — en av de høyeste kode-benchmark-scorene for en lokal modell — og 94,1 % på matte-prøven AIME 2026. Den slår til og med Qwens egen mye større 397B-modell på kode, takket være arkitektur-innovasjon fremfor ren størrelse.

Den kjører på ett enkelt RTX 4090-kort eller en M-serie Mac, har Apache 2.0-lisens (ren kommersiell bruk) og støtter bildeforståelse. Hvis du koder profesjonelt, er dette modellen din.

Arkitektur: Tett (dense), 27B
Minne: ~18–20 GB VRAM (Q4)
Sterk på: Kodegenerering, kodegjennomgang, matematikk, strukturert output, verktøykall
Svak på: Tyngre enn 7B-alternativer; krever mellomklasse-GPU
Last ned: ollama pull qwen3.6:27b

3. Gemma 4 (Google) — beste kvalitet per gigabyte

Gemma 4 fra Google er den best designede familien for maskiner med lite minne. Lineupen går fra en 2B-variant som kjører på mobil, via en effektiv 26B MoE-variant (bare 3,8B aktive parametere), til en 31B tett modell. Apache 2.0-lisens gir ren kommersiell bruk, den har innebygd bildeforståelse og 256K kontekstvindu på de mellomstore variantene.

Hvis du har et 8 GB-grafikkort eller en MacBook med 16 GB, er Gemma 4 9B det naturlige valget. Trenger du bildeforståelse lokalt, er Gemma førstevalget uansett maskinstørrelse.

Arkitektur: Tett og MoE-varianter, 2B–31B
Minne: ~5–6 GB (9B) opp til ~20 GB (31B), Q4
Sterk på: Bildeforståelse, verktøykall, kvalitet per gigabyte, edge/mobil
Svak på: Ikke like sterk som Qwen på rene kode-benchmarks
Last ned: ollama pull gemma4:9b

4. DeepSeek (DeepSeek AI) — for resonnering og matematikk

DeepSeek leverte V4 sent i 2025 i to varianter. Den store V4 Pro (1,6 billioner parametere) leder hele det åpne økosystemet på benchmarks — 80,6 % på SWE-bench Verified og 90,1 % på GPQA Diamond — men krever en 8× H100-klynge og er ikke realistisk hjemme. For lokal bruk er det de mindre R1-variantene du henter, og de er glimrende på resonnering og matematikk:

deepseek-r1:7b — ~6 GB VRAM, resonnering på inngangsnivå
deepseek-r1:14b — ~10 GB VRAM, god balanse
deepseek-r1:32b — ~20 GB VRAM, dyp resonnering

Velg DeepSeek-R1 når oppgaven krever logiske resonneringskjeder, matematikk eller komplekse algoritmer fremfor flytende prosa.

5. Mistral og Phi — de europeiske og de bittesmå

Mistral (fransk, Apache 2.0) er det sterkeste EU-jurisdiksjonsvalget. Mistral Small 4 samler flere tidligere produkter i én modell med justerbar resonnerings-innsats, aktiverer bare ~6B parametere per token, og er populær der GDPR og europeisk datalagring er avgjørende.

Phi (Microsoft, MIT-lisens) er kvalitet-per-byte-mesteren for begrenset maskinvare. Phi-4 leverer overraskende sterk resonnering for en 14B-modell, og Phi-4 Mini (3,8B) kjører på en Raspberry Pi eller mobil. Velg Phi når maskinen er svak men du fortsatt vil ha brukbar resonnering.

Verktøyene: Ollama vs. LM Studio vs. Jan vs. vLLM

Du trenger et program for å laste ned og kjøre modellene. Fire dominerer i 2026, og valget avhenger av om du er utvikler, vanlig bruker eller skal betjene et helt team.

Ollama — for utviklere og servere

Ollama er det CLI-først verktøyet (kommandolinje) som resten av det lokale AI-økosystemet forventer at du har. Det installeres på én kommando, kjører som en alltid-på bakgrunnstjeneste, og eksponerer et OpenAI-kompatibelt endepunkt på http://localhost:11434/v1. Det betyr at du kan bytte ut OpenAIs adresse med denne i hvilken som helst app, og koden din fungerer uendret.

Ollama er gratis og åpen kildekode (MIT-lisens), har offisielt Docker-bilde, lavest minnebruk (~100 MB i tomgang) og raskest kaldstart (~1,8 sekunder). På NVIDIA-kort er det jevnt 10–20 % raskere enn LM Studio. Det er standardvalget for selvhosting, hjemmelab og hvis du skal koble lokal AI inn i andre verktøy som Open WebUI, Aider eller Continue.

LM Studio — for ikke-tekniske brukere

LM Studio er «ChatGPT, men lokalt på maskinen din». Du åpner programmet, blar i en visuell modellkatalog, klikker «Last ned» og begynner å chatte — uten å røre en terminal. Det har en polert chat-flate, søker modeller direkte fra Hugging Face, og kan slå på en lokal server med OpenAI- og Anthropic-kompatibelt API på port 1234 når du trenger det.

LM Studio er gratis (men ikke åpen kildekode), best på Apple Silicon takket være moden MLX-integrasjon, og har bredest maskinvarestøtte på Windows via Vulkan-backend (fungerer også med integrert grafikk). Baksiden: det krever et skrivebordsmiljø — du kan ikke kjøre det over SSH på en server uten skjerm, og minnebruken er høyere (~500 MB).

Jan — det åpne alternativet

Jan er et fullverdig, åpen kildekode ChatGPT-alternativ som kjører helt offline med innebygd brukergrensesnitt. Det gir GUI-opplevelsen til LM Studio kombinert med åpen kildekode-friheten til Ollama, og passer for den som vil ha en polert chat uten å gi opp åpenhet.

vLLM — for produksjon og team

vLLM er ikke for nybegynnere — det krever Python-miljø og CUDA-oppsett — men det er produksjonsmotoren. Med «continuous batching» betjener det mange samtidige brukere effektivt, noe de andre tre ikke gjør godt. Skal du la et helt team dele én lokal AI-server, er vLLM på et RTX 5090- eller multi-GPU-oppsett riktig valg.

Kort sagt: Er du utvikler, start med Ollama. Er du vanlig bruker, start med LM Studio (eller Jan). Skal teamet dele en server med sensitive data, bruk vLLM. Mange installerer både Ollama og LM Studio — LM Studio for å oppdage modeller, Ollama som motor i produksjon.

Hva slags maskin trenger du?

Dette er spørsmålet som avgjør hvilke modeller du faktisk kan kjøre. Det avhenger nesten utelukkende av minne — VRAM på et NVIDIA/AMD-grafikkort, eller «unified memory» på en Apple Silicon-Mac, der CPU og GPU deler samme minne.

Nivå	Maskinvare	Største modell (Q4)	Forventet hastighet	Pris (ca.)
Inngang	Brukt RTX 3090 (24 GB)	~30B tett / Scout-MoE	~20 tokens/sek	5 000–10 000 kr
Mellom	RTX 4090 (24 GB) / RTX 5090 (32 GB)	~70B kvantisert (trangt) / Scout komfortabelt	~30–45 tokens/sek	15 000–30 000 kr
Proff	RTX PRO 6000 (96 GB) / multi-4090	70B+ på høy kvantisering	~50+ tokens/sek	50 000 kr+
Apple	MacBook Pro M4 Max (128 GB)	70B Q4 komfortabelt	~15–25 tokens/sek	~55 000 kr
Apple Ultra	Mac Studio M4 Ultra (192–512 GB)	100B+ / flere modeller	~20–30 tokens/sek	~85 000 kr+

Et par praktiske nivåer i tillegg:

8–12 GB RAM eller VRAM: Små Phi- eller Qwen-varianter, Gemma 4 9B. Greit til chat, korte sammendrag og lett kodehjelp.
16 GB: Phi-4 kvantisert, mindre Gemma-varianter, Llama 4 Scout. Lett resonnering og kodegjennomgang.
24 GB VRAM (RTX 4090): Qwen 3.6 27B, Gemma 4 31B kvantisert, DeepSeek-R1 32B. Dette er «søtpunktet» for lokal AI i 2026 — der profesjonell koding og privat prosjektarbeid blir reelt.
32–64 GB unified memory (Apple): Større Qwen-varianter, DeepSeek R1-distillasjoner, lange dokumenter.

Apples M-serie er spesielt sterk for lokal AI fordi det delte minnet lar selv en bærbar kjøre store modeller. En MacBook Pro M4 Max med 128 GB kjører en kvantisert 70B-modell helt i minnet — noe som krever en dyr arbeidsstasjon på PC-siden.

Slik kommer du i gang på fem minutter

Den raskeste veien til en fungerende lokal AI:

Installer Ollama. Last ned fra ollama.com og kjør installasjonen. På Mac og Windows er det én fil; på Linux én kommando.
Hent en modell. Åpne en terminal og skriv ollama pull llama4:scout. Modellen lastes ned én gang (noen gigabyte).
Snakk med den. Skriv ollama run llama4:scout og begynn å skrive. Det er alt — du kjører nå AI lokalt, offline, gratis.
Vil du ha et grensesnitt? Installer Open WebUI (en ChatGPT-lignende nettside som kobler seg til Ollama) eller bare bruk LM Studio i stedet for steg 1–3.

For ikke-tekniske brukere: hopp over terminalen helt. Last ned LM Studio eller Jan, klikk deg gjennom modellkatalogen, last ned Llama 4 Scout eller Gemma 4, og chat. Ingen kommandolinje involvert.

Lokal AI for norske brukere og bedrifter

For norsk tekst håndterer de største modellene bokmål godt — Llama 4, Qwen 3.6 og Gemma 4 er alle brukbare på norsk, om enn et hakk svakere enn på engelsk. Nynorsk er gjennomgående svakere lokalt enn i de store sky-modellene. Et tips: kjør en større modell (27B+) hvis norsk kvalitet er viktig, siden de minste modellene strever mer med nyansert norsk.

For bedrifter er personvern-argumentet det avgjørende. Behandler du persondata under GDPR, fjerner lokal AI hele spørsmålet om databehandleravtale, overføring til tredjeland og samtykke til modelltrening — fordi dataene aldri forlater bedriftens eget nettverk. En lokal AI-server på vLLM bak brannmuren gir et helt team tilgang til kraftig AI uten at en eneste kundeopplysning sendes ut av huset. Det er grunnen til at advokatfirmaer, helseaktører og finansmiljøer i økende grad bygger lokal AI inn i arbeidsflyten i 2026.

Vanlige fallgruver

Du velger en modell maskinen ikke klarer. Kjører du en modell som overstiger minnet, begynner den å «swappe» til disk og blir ulidelig treg. Den beste modellen du kan kjøre jevnt slår alltid en større modell som henter fra disk. Sjekk minnekravet før du laster ned.

Du stirrer deg blind på parameterantall. En 7B-modell på Q8 slår ofte en 13B-modell på Q2. Og for MoE-modeller er totaltallet misvisende: Qwen 3.6 35B-A3B har 35B totalt men aktiverer bare 3B per token, så den oppfører seg minne- og hastighetsmessig som en 3B-modell.

Du forventer Claude Opus-kvalitet på en laptop. Lokale modeller i 2026 er genuint gode, men på de aller hardeste resonneringsoppgavene, lange resonneringskjeder og spesialiserte fagdomener vil du fortsatt merke at de tyngste sky-modellene ligger et hakk over. Til e-post, sammendrag og det meste av kode er forskjellen marginal.

Du tester bare én modell. Ikke velg på rangering alene. Kjør dine to–tre toppvalg på et representativt utvalg av ditt eget arbeid og sammenlign. Oppgavespesifikk kvalitet varierer på måter ingen benchmark fanger fullt ut.

Du glemmer lisensen. Llama 4 har en egen «Community License» med restriksjoner for de aller største selskapene. Qwen, Gemma, Mistral og Phi har rene Apache 2.0- eller MIT-lisenser som tillater fri kommersiell bruk. Sjekk lisensen før du bygger et produkt på en modell.

Anbefalt lokal AI-stack etter behov

Vanlig bruker, begrenset maskin (8–16 GB): LM Studio + Gemma 4 9B. Polert grensesnitt, kjører på de fleste laptoper, bildeforståelse inkludert.

Utvikler med RTX 4090 / M-serie Mac: Ollama + Qwen 3.6 27B (koding) + Llama 4 Scout (allround) + DeepSeek-R1 14B (resonnering). Dekker nær sagt alt profesjonelt arbeid.

Privatperson som vil teste: Ollama eller LM Studio + Llama 4 Scout. Start her hvis du er ny til lokal AI — beste balanse av kvalitet og maskinkrav.

Bedrift med sensitive data: vLLM på RTX 5090 eller multi-GPU-server + Qwen 3.6 eller Gemma 4 bak brannmuren. Produksjonsgjennomstrømning, samtidige brukere, full datakontroll.

Maks kvalitet, mye maskinvare: Mac Studio M4 Ultra eller multi-GPU + DeepSeek V4 Flash / Llama 4 Maverick. Når du vil presse lokal AI så langt det går.

Lokal AI i 2026 er ikke lenger et kompromiss. For de fleste daglige oppgaver er du innenfor noen få prosentpoeng av de beste sky-modellene — men du får det med full datakontroll, uten månedlige kostnader og uten at noe forlater maskinen. Spørsmålet er ikke lenger *om* du bør kjøre AI lokalt, men hvilken modell og maskin som passer ditt arbeid.

Kilder

Ofte stilte spørsmål

Hvilken lokal AI-modell bør jeg starte med?

For de aller fleste er Llama 4 Scout det beste førstevalget. Den kjører på et vanlig gaming-grafikkort med ~10 GB minne (takket være Mixture-of-Experts-arkitektur), har et enormt kontekstvindu, og er god på generell samtale, instruksjonsfølging og flerspråklighet. Last den ned med ollama pull llama4:scout. Har du en svakere maskin, velg Gemma 4 9B i stedet. Koder du profesjonelt, legg til Qwen 3.6 27B.

Hvilken maskin trenger jeg for å kjøre AI lokalt?

Det avhenger av modellstørrelsen, og minne er nøkkelen. Med 8–12 GB RAM eller VRAM kjører du små modeller som Gemma 4 9B eller Phi-4 Mini. Med 16 GB kjører du Llama 4 Scout og Phi-4. «Søtpunktet» er 24 GB VRAM (et RTX 4090-kort), som kjører Qwen 3.6 27B og DeepSeek-R1 32B komfortabelt. Apple Silicon-Mac-er er spesielt sterke fordi det delte minnet lar selv en bærbar kjøre store modeller — en M4 Max med 128 GB kjører en kvantisert 70B-modell.

Er lokal AI like bra som ChatGPT eller Claude?

For de fleste daglige oppgaver — e-post, sammendrag, oversettelse, det meste av koding — er forskjellen marginal i 2026. Open-weight-modeller har nådd kvalitetsparitet med de beste sky-tjenestene på mange oppgaver. På de aller hardeste resonneringsoppgavene, lange resonneringskjeder og spesialiserte fagdomener ligger de tyngste sky-modellene (Claude Opus, GPT-5.5 Thinking) fortsatt et hakk over. Men du betaler for den forskjellen med full datakontroll, ingen kostnad per bruk og full offline-funksjon.

Hva er forskjellen på Ollama og LM Studio?

Ollama er et kommandolinje-verktøy for utviklere: det installeres på én kommando, kjører som en bakgrunnstjeneste og eksponerer et OpenAI-kompatibelt API som du kobler andre verktøy til. LM Studio er en polert skrivebordsapp for vanlige brukere: du blar i en visuell modellkatalog, klikker last ned og chatter — uten å røre en terminal. På NVIDIA-kort er Ollama 10–20 % raskere; på Apple Silicon er LM Studio ofte raskere takket være MLX. Mange installerer begge: LM Studio for å oppdage modeller, Ollama som motor.

Koster det noe å kjøre AI lokalt?

Selve programvaren og modellene er gratis. Den eneste kostnaden er maskinvaren. Et brukt RTX 3090-kort (24 GB) koster rundt 5 000–10 000 kroner og kjører overraskende store modeller. Et nytt RTX 4090- eller 5090-kort ligger på 15 000–30 000 kroner. En MacBook Pro M4 Max med nok minne ligger rundt 55 000 kroner. Etter at maskinvaren er på plass er hver melding gratis — ingen abonnement, ingen token-teller, ingen regning.

Er lokal AI trygt for bedrifter og GDPR?

Ja — faktisk er det det tryggeste alternativet. Når modellen kjører på bedriftens egen maskin eller server, forlater dataene aldri nettverket. Det fjerner hele spørsmålet om databehandleravtale, overføring til tredjeland og samtykke til modelltrening, fordi det ikke finnes noen ekstern leverandør i bildet. Mange advokatfirmaer, helseaktører og finansmiljøer i Norge bygger derfor lokal AI inn i arbeidsflyten med en vLLM-server bak brannmuren. Sjekk likevel modellens lisens: Qwen, Gemma, Mistral og Phi har rene kommersielle lisenser.

Fungerer lokale AI-modeller på norsk?

De største modellene håndterer bokmål godt — Llama 4, Qwen 3.6 og Gemma 4 er alle brukbare på norsk, om enn et hakk svakere enn på engelsk. Nynorsk er gjennomgående svakere lokalt enn i de store sky-modellene. Tipset er å kjøre en større modell (27B eller mer) hvis norsk kvalitet er viktig, siden de minste modellene strever mer med nyansert norsk.

Hva betyr kvantisering (Q4, Q8)?

Kvantisering er komprimering som krymper modellen så den får plass i mindre minne. «Q4» betyr 4-bits kvantisering, det vanligste og en god standard. En 27B-modell som trenger ~54 GB ukomprimert, får plass i ~18–20 GB etter Q4 med bare lite kvalitetstap. Tommelfingerregel: en mindre modell på høy kvantisering (Q8) slår ofte en større modell på aggressiv kvantisering (Q2). Når du laster ned uten å spesifisere, gir Ollama deg vanligvis Q4_K_M, som passer for de fleste.

Kan jeg kjøre AI lokalt på en helt vanlig laptop?

Ja, men med små modeller. En laptop med 16 GB RAM kjører Gemma 4 9B, Phi-4 eller Llama 4 Scout greit til chat, sammendrag og lett kodehjelp. Phi-4 Mini (3,8B) kjører til og med på en Raspberry Pi eller mobil. For tyngre arbeid trenger du et dedikert grafikkort med 24 GB VRAM eller en Apple Silicon-Mac med mye minne. Start med LM Studio og en liten modell, så ser du fort hva maskinen din klarer.

Lokale AI-modeller 2026 kjør AI på din egen maskin (komplett guide)