KI-hallusinasjoner har kommet for å bli – det gjør chatboter utfordrende å bruke i opplæring
Debatt: Chatboter hallusinerer. Problemet er ikke bare at KI-verktøy gir feil svar, men at altfor få forstår hvor ofte det skjer.
Vi lærere er i gang med nok et skoleår der bruksområder for generativ KI ennå ikke har revolusjonert måten vi lærer på, mens elevene for lengst har skjønt at de kan bruke det til juks.(1)
Det er for tidlig å konkludere med om KI-teknologi vil bidra til økt læring. Foreløpig er det i hvert fall lite som tyder på at det skal bli enkelt å bruke det i undervisningen. Èn av grunnene til det er at chatboter er upålitelige. De dikter opp svar, og dermed er det en forutsetning at brukeren har kunnskap nok til å vurdere om svaret er riktig. Som Steinar Ludvigsen(2025) sier i et intervju «For en elev på 12, 13, 14 eller 15 år, vil jeg nok si det er umulig på et dypere nivå [ å skille mellom falsk og ekte informasjon ].» Både Ludvigsen og stipendiat Henrik Tjønn er enige om at bruk av chatboter i undervisningen var langt vanskeligere enn de hadde sett for seg og at elevene trenger lærerstøtte.(2)
Vi sier at chatboter hallusinerer når de dikter opp svar selv om dette ikke er en god metafor for problemet. For å si det enkelt; chatboter hallusinerer like ofte som de har fordøyelsesproblemer. Når de dikter opp svar, er det ikke en «bug», en tilfeldig hendelse som da du fikk blåskjerm i Windows. Nei, når store språkmodeller dikter opp svar gjør de akkurat det de skal gjøre; De genererer tekst, ikke sannhet. Vi tror de gir oss informasjon, men egentlig gir de oss noe som ligner på informasjon. Denne totale mangelen på forståelse av sannhet gjør at mange foretrekker ordet «bullshit», definert som utsagn «uten hensyn til om innholdet er sant eller ikke.[sic]»(3)
For enkelhets skyld, kommer jeg allikevel til å bruke «hallusinasjoner», siden uttrykket er mer kjent.
Har du brukt chatboter, har du sikkert sett hallusinasjoner. Eller kanskje du har ledd av tilfeller der folk får høre at de kan ha lim på pizza eller spise stein?(4) Husk at vi ler av slike eksempler fordi de fleste av oss er eksperter på dette. Vi vet at vi ikke bør ha lim på pizza (og at det i hvert fall ikke holder osten på plass.) Hva med de tilfellene der vi ikke er eksperter? Ikke minst: De tilfellene der elevene/studentene dine ikke er eksperter? Er KI-verktøy så fantastisk at vi fagpersoner må bruke tid på å kvalitetssjekke innholdet for elevene i stedet for å faktisk gi dem informasjonen selv?
Ja, sa en KI-foreleser med bakgrunn innen EDB og motiverte meg til å skrive denne artikkelen. For «alle» vet at chatboter hallusinerer, men nesten ingen vet hvor ofte de gjør det. Hyppigheten av hallusinasjoner vil kanskje overraske deg.
Hallusinasjoner er et stort problem
Før vi ser på hvor ofte chatboter hallusinerer, er det verdt å merke seg at dette er et stort problem for tilliten til og nytteverdien av generativ KI. Det finnes utallige eksempler der store språkmodeller har gitt svar som spenner over morsomme og ufarlige til svært kostbare, skadelige eller dødelige. (Hvis du vil vite mer om dette og andre KI-relaterte ulykker, anbefaler jeg å besøke AI risk depository database fra MIT). Hallusinasjoner undergraver også troen på at AGI( superintelligens) blir realisert med nåværende teknologi. En superintelligens som dikter opp svar fordi den setter sammen ord etter sannsynlighet uten å forstå hva som er sant, samsvarer ikke helt med den forestillingen vi har av en slik teknologi.
Vi kan ikke regne med en løsning på problemet heller. Hallusinasjoner har kommet for å bli. OpenAI har mer eller mindre innrømmet at de ikke kan løse problemet fordi det handler om hvordan man trener store språkmodeller som ChatGPT. Dette har lenge vært kjent, men nå har OpenAIs forskere gitt en grundig matematisk forklaring på hvorfor det skjer.(5)
Jovisst, det er mulig å redusere sannsynligheten for hallusinasjoner. En løsning som har blitt pekt på av blant annet OpenAI( ibid.) er at chatboter i større grad skal trenes til å kunne si at de ikke vet svaret, framfor å generere hallusinasjoner. Det blir neppe særlig populært blant de som bruker chatboter. Dersom hallusinasjoner oftere erstattes av et «vet ikke» trenger vi ikke ekspertkunnskap for å se hvor ofte chatboter hallusinerer.
Som bringer oss tilbake til spørsmålet, hvor ofte dikter chatboter opp svar?
Chatboter hallusinerer i så mye som 50% av tilfellene eller mer
Det er utfordrende å gi et konkret svar på mengden hallusinasjoner fordi teknologien er lite transparent. Uavhengige forskere og teknologiselskaper får ikke tilgang på tekniske detaljer som datamateriale og treningsmetoder. Målemetoder kan lett manipuleres, og vi bør derfor være skeptisk til tallene, særlig dersom de kommer fra noen som har økonomiske bindinger til teknologien. Det vi får se er sannsynligvis det noen vil vi skal se. En undersøkelse fra Chatbot arena viser at selskaper som Google, OpenAI og Meta jevnlig tester varianter av KI-modellene sine internt og bare deler de beste resultatene.(6)
La oss ta Vectara som et eksempel på hvordan resultatene kan manipuleres, siden de blant annet har vært omtalt i NY Times.(7) I deres målinger har chatbottene mellom 0.6- 1.9% «hallusinasjoner» per 16.oktober. (I 2023 var det mellom 3-27%)
Men.
Dette gir ikke et godt bilde på omfanget av hallusinasjoner. For det første viser de bare bare hallusinasjoner innenfor et begrenset bruksområde. Vectara tester chatboter ved å be dem oppsummere innholdet i tekster som:
«Plantene ble funnet da politiet ransaket et varehus nær Ashbourne lørdag morgen. Politiet opplyser at de var i “et avansert dyrkingsanlegg” En mann i slutten av 40-åra ble arrestert på åstedet.» (8)
Dersom en chatbot legger til detaljer som ikke var i den opprinnelige teksten, eller oppgir feil, regnes det som en «hallusinasjon».(ibid.) Vectara påpeker at de også bruker tekster som er lengre enn dette eksempelet og at de ikke finner hallusinasjoner med 100% treffsikkerhet.(ibid.) En slik målemetode tar derimot ikke høyde for at hallusinasjoner ofte oppstår når det er mangler i treningsmaterialet. Dersom du spør ChatGPT hvem Arve Hjalmar Holmen er, vil ChatGPT forsøke å gi et svar. Chatboten hallusinerte at han er en barnemorder. Et annet eksempel er når programmer som Midjourney genererer bilder av samer som ikke samsvarer med virkeligheten. Rett og slett fordi det ikke er nok bilder av samer i datagrunnlaget.(9) (10)
Et annet argument mot Vectaras målemetode er at den ikke sier noe om alvorlighetsgraden til feilene. De teller bare feil. Vi kan se for oss at det ville vært langt mer alvorlig om en chatbot genererer teksten « Tiltalte sier han ikke angrer på drapene» enn om den genererer « tiltalte spiste en sjokoladepudding til frokost».
Og- på tross av at tallene kan se lave ut hos Vectara, samsvarer ikke dette med hva andre undersøkelser har funnet. Chatboter ser faktisk ut til å være spesielt dårlige på å gjengi innhold.
BBC hadde en undersøkelse der de spurte chatboter som kunne søke på nett om dagsaktuelle hendelser. De avslørte at chatbotenes svar hadde betydelige feil i over halvparten av tilfellene selv om de hadde tilgang på faktasjekket informasjon.(11) En undersøkelse utført av Tow Center for digital journalism avdekket at det i snitt var 60% hallusinasjoner når chatbotene ble spurt om nyhetssaker(12), mens en undersøkelse utført av 22 allmennkringkastere viste at chatboter gjengir faktainnhold feil i 45% av tilfellene. (13)
Hilke Schellman gjorde en undersøkelse for Columbia Journalism review og konstanterte at chatboter er gode på korte oppsummeringer, men at de gjør det langt dårligere enn mennesker på lengre oppsummeringer. Det anbefales derfor at journalister ikke publiserer sammendrag som overstiger mer enn noen hundre ord. (14) En annen undersøkelse utført med 5 LLM-er, blant annet GPT 4o, hadde i gjennomsnitt 75% hallusinasjoner når chatbotene oppsummerte innholdet i to dokumenter[!](15) Som forskerne påpekte: Det var et gjennomgående problem at chatbotene overgeneraliserte eller la til informasjon som ikke var i det opprinnelige dokumentet de skulle oppsummere. Det krever ikke mye fantasi å se for seg hvor problematisk dette kan være i blant annet medisin og jus. (16) Overgeneraliseringer er en form for hallusinasjoner som kan være vanskeligere å oppdage for brukerne. En undersøkelse sammenlignet 4900 oppsummeringer av vitenskapelig tekst med 10 store språkmodeller. Det viste seg at disse overgeneraliserte funnene 26-73% av tilfellene.(17) Et eksempel på overgeneraliseringer er å endre ikke-generiske utsagn til generiske utsagn som når «behandlingen viste effekt i denne studien»,» ble til «behandlingen er effektiv»( ibid.)
OpenAI har en annen måte å måle hallusinasjoner på. De har utviklet SimpleQA som består av 4362 verfiserte spørsmål basert på informasjon tilgjengelig på nettet. Et eksempel på et slikt spørsmål er « Hvem mottok IEEE Frank Rosenblatt- utmerkelsen i 2010?» På OpenAI sin måling hadde GPT-5 en hallusinasjonsrate på 47% uten tilgang til internett. (18) Til sammenligning hadde GPT 4.5 færre hallusinasjoner med 37%, som fortsatt er et høyt tall.(19) Tidligere modeller hadde langt høyere antall hallusinasjoner. Blant annet hadde de resonerende modellene(LRM) o3 og o4-mini henholdsvis 51 og 79% hallusinasjoner. (20)
Da GPT-5 fikk tilgang til nettsøk, sank hallusinasjoner til 9.6%(ibid), men det er heller ikke så vanskelig for et menneske med tilgang på nett å finne ut at Michio Sugeno vant IEEE Frank Rosenblatt Award i 2010. Washington Post stilte chatboter med nettilgang 900 spørsmål og lot bibliotekarer dobbeltsjekke svarene. En av konklusjonene deres var at vi kanskje bør revurdere om chatboter er et godt alternativ til et Google-søk. Washington Post påpekte også at «Bibliotekarene sa at i 64% av spørsmålene ville et enkelt Google-søk gitt dem et brukbart svar på ett eller to klikk, selv om det kunne ha tatt lenger tid.»(21)
Et annet problem som oppstår når chatboter får tilgang på nett, er at flere aktører forsøker å påvirke hva chatbotene svarer oss. Amerikanske Newsguard har overvåket 10 chatboter i ett år og tallene er dyster lesning: I 2024 oppga chatboter svar som var desinformasjon( altså bevisst falske nyheter) i 18% av tilfellene. I August 2025 hadde dette tallet steg til 35%. I 2024 unngikk chatboter temaet i 31% av tilfellene. I August 2025 hadde dette sunket til null.(22)
Dette handler ikke bare om at chatboter med tilgang på nett blir «lokket» inn på en nettside med desinformasjon. Misvisende eller skadelig informasjon kan også bli tatt opp i treningsmaterialet. Det kan føre til at modellene gir partiske svar, dårlige svar, eller sprer desinformasjon selv når de ikke søker på nett før de svarer. Da jeg testet chatboten til CC tenkemotoren, en KI-tjeneste som tilbys gratis til elever og lærere, påstod den blant annet at Truth social appen er blant «flere sosiale medier og plattformer som er forbudt i Ukraina.» Denne påstanden har blitt tilbakevist av blant annet Politfact. (23)
Selv om muligheten til å manipulere chatboter kan være gode nyheter for SEO-er, er det en stor utfordring for generativ KI-teknologien. Store språkmodeller kan ikke «glemme» datamateriale den er trent på. Det er derfor en chatbot kan gjengi store deler av opphavsrettslig materiale ord for ord.(24)
De store språkmodellene forgiftes og resulatet kan være at de blir enda mer upålitelige. Det er også undersøkelser som tyder på at det skal ekstremt lite til for å påvirke chatboter. En samarbeidsstudie mellom Anthropic, The Alan Turing institute og UK AI security institute fant ut at 250 dokumenter var nok til å innføre en bakdør i en språkmodell.(25)En annen studie viste at det holdt å bytte ut bare 0,001% av den totale tekstmengden(målt i tokens) med medisinsk feilinformasjon for å gjøre modellene merkbart mer tilbøyelige til å generere potensielt skadelig medisinsk innhold. (26)
Konsekvenser for skolen:
At chatboter har svakheter betyr ikke at vi kan utelukke nytteverdi. Det finnes metastudier som antyder at bruk av chatboter kan gi effekt(27)(28), men vi må naturligvis være forsiktige med å tolke slike forskningsfunn ukritisk. Studien til Weng og Fang( 2025) ble kritisert av Ingrebrigtsen og Lucik(2025) for å ha flere svakheter. (29)
Laun og Wollf(2025) gjennomførte en metastudie der de tok høyde for publiseringsbias- altså at tidsskrifter oftere vil publisere forskning som viser positive resultater og har mindre kontrollgrupper. Med dette filteret konkluderte de med at det var en liten til moderat positiv effekt av chatboter på læringsresultater. Dette tilsier at hypen rundt KI i utdanning trolig føer til at effekten blir overvurderert. Laun og Wollf påpeker imidlertidig at med tanke på lærermangelen verden over og økt behov for tilpasset opplæring, kan selv små forbedringer over tid ha verdi. (30)
Vi bør dempe forventningene og bruke mer tid på kritisk forståelse framfor bruksforståelse. Chatboter bør brukes som et utgangspunkt, ikke en fasit. De bør ikke brukes til å finnne informasjon om dagsaktuelle hendelser og de bør brukes med forsiktighet til å oppsummere tekster. Brukere kan heller ikke stole på at svarene de får på faktaspørsmål stemmer. I årene som kommer må vi bruke mer tid på å lære elevene kritisk AI literacy framfor å tro at magien kommer av seg selv bare vil tilbyr chatboter til alle. Hallusinasjoner har kommet for å bli, derfor må elevene fortsatt lære å finne svarene på egen hånd før de bruker chatboter.
I denne artikkelen er GPT-5 brukt til å generere litteraturlisten i APA 7-stil. Forfatteren tar fullt ansvar for eventuelle feil i den KI-genererte teksten.
(1) Bruhaug, I.-S., & Strøm, P. (2025, 5. november). Elever vil ha KI på timeplanen: – Vi bruker det hver dag, men på feil måte. NRK Nordland. https://www.nrk.no/nordland/isak-onsker-a-laere-mer-om-bruken-av-ki-i-arbeidslivet-pa-skolen-1.17620469
(2) Nickelsen, T. (2025, 18. august). Forskere: – Ikke alle elever lærer noe av å bruke KI. Apollon – Forskningsnytt, Universitetet i Oslo. https://www.uio.no/forskning/forskningsnytt/apollon/artikler/2025/3_ki_skolen.html
(3) Kvaal, S. (2024, 5. desember). KI er bullshit. Khrono. https://www.khrono.no/ki-er-bullshit/925406
(4) ) Baugerød Stokke, O. P. (2024, 27. mai). Googles AI-søk rulles ut, og resultatene er grusomme. kode24. https://www.kode24.no/artikkel/googles-ai-sok-rulles-ut-og-resultatene-er-grusomme/202982
(5) Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv. https://arxiv.org/abs/2509.04664
(6) Singh, S., Nan, Y., Wang, A., D’souza, D., Kapoor, S., Üstün, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N. A., Ermis, B., Fadaee, M., & Hooker, S. (2025). The leaderboard illusion. arXiv. https://arxiv.org/abs/2504.20879
(7) Metz, C. (2023, November 6). Chatbots often lie. Here’s where they got their hallucination rates. The New York Times. https://www.nytimes.com/2023/11/06/technology/chatbots-hallucination-rates.html
(8) Hughes, S. (2023, November 6). Cut the bull… Detecting hallucinations in large language models. Vectara. https://www.vectara.com/blog/cut-the-bull-detecting-hallucinations-in-large-language-models
(9) Muhaisen, S., Elster, K., & Cosson-Eide, H. (2025, 20. mars). ChatGPT hevdet nordmann drepte barna sine – Nå klager han. NRK. https://www.nrk.no/norge/nordmann-klager-chatgpt-til-datatilsynet-1.17348958
(10) Rojahn Schwebs, I. J. (2024, 21. februar). Dette mener KI er samisk. NRK. https://www.nrk.no/norge/dette-mener-ki-er-samisk-1.16761140
(11) BBC. (2024). BBC research into AI assistants. https://www.bbc.co.uk/aboutthebbc/documents/bbc-research-into-ai-assistants.pdf
(12) Jaźwińska, K., & Chandrasekar, A. (2025, March 6). AI search has a citation problem: We compared eight AI search engines. They’re all bad at citing news. Columbia Journalism Review (Tow Center). https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
(13) Sullivan, A. (2025, October 22). AI chatbots fail at accurate news, major study reveals. DW. https://www.dw.com/en/artificial-intelligence-ai-chatbot-chatgpt-google-news-misinformation-fact-check-copilot/a-74392921
(14) Schellmann, H. (2025, August 19). I tested how well AI tools work for journalism: Some tools were sufficient for summarizing meetings. For research, the results were a disaster. Columbia Journalism Review. https://www.cjr.org/analysis/i-tested-how-well-ai-tools-work-for-journalism.php
(15) Belém, C. G., Pezeshkpour, P., Iso, H., Maekawa, S., Bhutani, N., & Hruschka, E. (2025, April). From single to multi: How LLMs hallucinate in multi-document summarization. In Findings of the Association for Computational Linguistics: NAACL 2025 (pp. 5276–5309). Association for Computational Linguistics. https://aclanthology.org/2025.findings-naacl.293/
(16) Burke, G., & Schellmann, H. (2025, October 27). Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said. AP News. https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14
(17) Chin-Yee, B., & Peters, U. (2025, April 30). Medicine’s over-generalization problem — and how AI might make things worse. The Conversation. https://theconversation.com/medicines-over-generalization-problem-and-how-ai-might-make-things-worse-252486
(18) Mauran, C. (2025, August 7). OpenAI says GPT-5 hallucinates less — what does the data say? Mashable. https://mashable.com/article/openai-gpt-5-hallucinates-less-system-card-data
(19) OpenAI. (2025, May 13). Introducing GPT-4.5. https://openai.com/index/introducing-gpt-4-5/
(20) Metz, C., & Weise, K. (2025, May 5). AI’s hallucination problem isn’t going away. The New York Times. https://www.nytimes.com/2025/05/05/technology/ai-hallucinations-chatgpt-google.html
(21) Fowler, G. A. (2025, August 27). We asked AI search engines basic questions. They often got the facts wrong. The Washington Post. https://www.washingtonpost.com/technology/2025/08/27/ai-search-best-answers-facts/
(22) NewsGuard. (2025, September 4). August 2025 — AI False Claim Monitor: AI false information rate nearly doubles in one year. https://www.newsguardtech.com/ai-monitor/august-2025-ai-false-claim-monitor/
(23) Cranford, C. (2025, February 25). No, Zelenskyy did not ban Truth Social in Ukraine. PolitiFact. https://www.politifact.com/factchecks/2025/feb/25/social-media/no-zelenskyy-did-not-ban-truth-social-in-ukraine/
(24) Chang, K. K., Cramer, M., Soni, S., & Bamman, D. (2023). Speak, memory: An archaeology of books known to ChatGPT/GPT-4. arXiv. https://arxiv.org/abs/2305.00118
(25) Souly, A., Rando, J., Chapman, E., Davies, X., Hasircioglu, B., Shereen, E., Mougan, C., Mavroudis, V., Jones, E., Hicks, C., Carlini, N., Gal, Y., & Kirk, R. (2025). Poisoning attacks on LLMs require a near-constant number of poison samples. arXiv. https://arxiv.org/abs/2510.07192
(26) Alber, D. A., Yang, Z., Alyakin, A., Yang, E., Rai, S., Valliani, A. A., Zhang, J., Rosenbaum, G. R., Amend-Thomas, A. K., Kurland, D. B., Kremer, C. M., Eremiev, A., Negash, B., Wiggan, D. D., Nakatsuka, M. A., Sangwon, K. L., Neifert, S. N., Khan, H. A., Save, A. V., Palla, A., Grin, E. A., Hedman, M., Nasir-Moin, M., Liu, X. C., Jiang, L. Y., Mankowski, M. A., Segev, D. L., Aphinyanaphongs, Y., Riina, H. A., Golfinos, J. G., Orringer, D. A., Kondziolka, D., & Oermann, E. K. (2025). Medical large language models are vulnerable to data-poisoning attacks. Nature Medicine, 31, 618–626. https://doi.org/10.1038/s41591-024-03445-1
(27) Deng, R., Jiang, M., Yu, X., Lu, Y., & Liu, S. (2025). Does ChatGPT enhance student learning? A systematic review and meta-analysis of experimental studies. Computers & Education, 227, 105224. https://doi.org/10.1016/j.compedu.2024.105224
(28) Wang, J., & Fan, W. (2025). The effect of ChatGPT on students’ learning performance, learning perception, and higher-order thinking: Insights from a meta-analysis. Humanities and Social Sciences Communications, 12, 621. https://doi.org/10.1057/s41599-025-04787-y
(29) Ingebrigtsen, M., & Lukic, M. (2025, 12. juni). Nei, denne metaanalysen viser ikke bedre læring med ChatGPT. Khrono. https://www.khrono.no/nei-denne-metaanalysen-viser-ikke-bedre-laering-med-chatgpt/976160
(30) Laun, M., & Wolff, F. (2025). Chatbots in education: Hype or help? A meta-analysis. Learning and Individual Differences, 119, 102646. https://doi.org/10.1016/j.lindif.2025.102646