Foto: PIxabay

Vi kan trekke frem mye problematisk med KI-respons på elevarbeider

Debatt: Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.

Siv Sørås Valand Siv Sørås Valand Siv Sørås Valand norsklektor og phd-stipendiat, UIO

Bjørn Silas Dvergastein Bjørn Silas Dvergastein Bjørn Silas Dvergastein norsklektor, Lambertseter vgs.

Marit Eikeland Marit Eikeland Marit Eikeland norsklektor, Oslo Katedralskole

Anne Lise Jomisko Anne Lise Jomisko Anne Lise Jomisko norsklektor, Elvebakken vgs.

Publisert 17.12.2025 - 09:22

Omfanget av tekstvurdering er et påtrengende problem for norsklærere, og anbefalinger om god vurderingspraksis kommer i konflikt med norskfagets tvingende omstendigheter. 30 eller flere elever i klassene er en hard realitet som pedagogiske idealer ikke kan overkomme.

Samtidig saumfarer KI-aktører skolen etter problemer å løse. Kan KI løse vurderingsknuten i norskfaget? Maskinvurdering er ikke science fiction lenger. Det finnes forskning som forteller oss at KI-respons kan fremme skriveutviklingen (Engeness, 2025, Burner et al, 2025). En mye sitert artikkel forteller dessuten at GKI gir nesten like god tekstrespons som lærere (Steiss et al, 2024).

FAKTA

I et samarbeid mellom Osloskolen og UiO (FIKS), utforsker vi fagdidaktisk bruk av kommunens KI-løsning. I gruppa for norskfaget undersøkes om og eventuelt hvordan generativ kunstig intelligens kan brukes til å utvikle elevers skriveferdigheter. Norskgruppa har utviklet og testet chatboter som gir formativ respons underveis i skriveprosesser. Etter utprøvinger i klasserommet er erfaringene blandede.

Norskgruppa består av norsklektorene Bjørn Silas Dvergastein (Lambertseter vgs.), Marit Eikeland (Oslo Katedralskole), Anne Lise Jomisko (Elvebakken vgs.) og Siv Sørås Valand, tidligere norsklektor, nå phd-stipendiat ved UiO.

For godt til å være sant? Det er i hvert fall verdt å undersøke nærmere. I et samarbeidsprosjekt mellom FIKS ved UiO og Osloskolen har vi dykket dypere i påstander om GKI som redskap for formative tilbakemeldinger. I en artikkel i Norsklæreren beskrives hvordan vi utviklet, testet og vurderte en chatbot som skulle gi formativ vurdering på en norskfaglig besvarelse (Valand et al., 2025). Til tross for timesvis med prompting, testing og justeringer, fungerte chatboten bare sånn passe. Her deler vi noen kritiske refleksjoner som oppstod underveis og i etterkant av prosjektet.

Vi utviklet en chatbot som skulle gi formativ tilbakemelding på sjangeren retorisk analyse. Idéen var å lage en tilbakemeldingsbot som skulle fungere som en ressurs for elevene underveis i skriveprosessen. Chatboten ble hardt instruert til å nekte å skrive tekst for elevene, og ellers foret med faglig kontekst, definisjoner, eksempler, vurderingskriterier og funksjonsinstrukser.

Ved første øyekast virket de KI-genererte tilbakemeldingene imponerende. Chatboten gav tilsynelatende konkret respons, både underveis i teksten og i form av en sluttkommentar. Men ved skraping i overflaten, oppdaget vi at tilbakemeldingene, både løpende i teksten, og i sluttkommentarene, var generiske og tidvis meningstomme. Av og til glimtet chatboten til med treffende tilbakemeldinger, men den var lite konsistent og gav ulik respons ved repeterte forsøk. Den bestod i det hele tatt ikke testen særlig tilfredsstillende.

Vi kan trekke frem mye problematisk med KI-respons på elevarbeider. Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.

Første refleksjon: Tilbakemeldingsboten gir ikke et treffende bilde av elevens skrivekompetanse

De store språkmodellene bygger på sannsynlighet og store data. Prosjektet vårt viste at språkmodellen får problemer når den skal forholde seg til et begrepsapparat som er særegent for den norske læreplanen, og særlig når den skal gi tilbakemelding på en så pass spesifikk og sammensatt sjanger som den norskfaglige retoriske analysen. At språkmodeller responderer etter hyppighet i data merker vi også kvalitativt i tilbakemeldingene.

Det virker som om den underliggende språkmodellen konstruerer språk fra feedback-diskursen heller enn å forholde seg til den konkrete elevbesvarelsen. En gjenganger for norsklærerne, er å be elever om å utdype mer, konkretisere og å vise og å tolke eksempler. Det gjorde chatboten til gagns.

Den prioriterer typiske tilbakemeldinger, og derfor gir den ikke et treffende og nyansert bilde av den enkelte elevs skrivekompetanse.

Andre refleksjon: Arrrg! Å vurdere chatbotens vurderinger var utmattende og frustrerende

Selv med lang vurderingserfaring, var det krevende og frustrerende å vurdere kvaliteten på KI-generert respons. Skråsikre tilbakemeldinger fra chatboten pirket borti troen på vår egen vurderingskompetanse. Da vi møttes etter individuelle vurderinger av både elevtekster og chatbotens tilbakemeldinger, var det derfor en lettelse å finne ut at vi var samstemte i våre egne vurderinger av de utvalgte elevbesvarelsene.

Dette er interessant og foruroligende. Hvorfor var det så krevende å avsløre chatbotens svakheter? Vi tror i stor grad det skyldes at den har klart å appropriere «vurderingsspråket» vårt. Chatboten er god til å etterlikne. Den etterlikner så godt at det kan være vanskelig å se hvor meningstomt innholdet tidvis er. Følelsen vi sitter igjen med er derfor at chatboten er en papegøye som plaprer overbevisende vurderingsspråk. Og når erfarne norsklærere synes det er krevende, hva da med nyutdannede, og ikke minst elevene? Denne erfaringen forteller oss at vi skal være varsomme med å la KI gi respons til elever.

Det krever at lærere og elever klarer å filtrere og vurdere KI-responsen. For eleven krever denne vurderingen en sterkere tekstkompetanse enn mange av dem har i dag.

Tredje refleksjon: Utvikling av norskfaglige chatboter krever erfaring

Det er norskfaglig kompetanse som har gjort oss i stand til å lage norskfaglige tilbakemeldingsboter. I utvikling, testing og justering har det handlet om å vurdere outputen chatboten gir, og å bruke erfaring og kompetanse til å vurdere hva som bør justeres, endres, forsterkes, legges til eller fjernes i systemprompten. Vi hadde aldri klart å lage/justere tilbakemeldingsboten uten erfaringen som norsklærere.

Dersom uerfarne lærere lar GKI gi tilbakemeldinger og i mindre grad gjør det selv, hva skjer i så fall med vurderingskompetansen? Det er ikke urealistisk at det snart dukker opp en chatbot som faktisk klarer å gi god formativ respons. Spørsmålet blir da: Om norsklæreres vurderingskompetanse samlet blir svakere, hvem skal i så fall vurdere chatbotens vurderinger? God formativ vurdering er en ferdighet norsklæreren utvikler gjennom erfaring, tolkningsfellesskap og elevmøter, over tid.

Sats på smale, målrettede chatboter

Vi utelukker ikke at GKI kan bidra til å utvikle elevers skrivekompetanse. Det er mulig at oppgaven med å vurdere en så spesifikk oppgave i en norsk kontekst, blir for krevende. Tidligere har vi utviklet chatboter som er rettet mot enkeltferdigheter og spesifikke tekstelementer. Erfaringen er enn så lenge at det er enklere å få snevre chatboter til å gi konsistent og meningsfull respons. Muligens er det også enklere for elever å forholde seg til chatboter som gir konkret respons på mer instrumentelle delferdigheter? Vår oppfordring i alle tilfeller er at norsklærere tester KI-verktøy grundig før de slippes løs på elevene, og at vi tar diskusjonen om hva vi eventuelt taper og vinner på å la GKI gi respons på elevers skriving.

Referanser

Burner, T., Lindvig, Y., & Wærness, J. I. (2025). “We Should Not Be Like a Dinosaur”—Using AI Technologies to Provide Formative Feedback to Students. Education Sciences, 15(1), 58.

Engeness, I. (2025). Cultural-Historical Perspective to Design Pedagogical AI for Enhancing Student Writing. Technology, Knowledge and Learning, 1-22.

Steiss, J., Tate, T., Graham, S., Cruz, J., Hebert, M., Wang, J., Moon, Y., Tseng, W., Warschauer, M. and Olson, C.B.. (2024). Comparing the quality of human and ChatGPT feedback of students’ writing. Learning and Instruction, 91, 101894.

Valand, S.S, Dvergastein, S., Eikeland, M., Jomisko, A.L. (2025) Norsklærer versus chatbot - Kvalitet på praterobotens tekstrespons i norskfaget. I Norsklæreren: 2-2025.

Vi kan trekke frem mye problematisk med KI-respons på elevarbeider

Debatt: Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.

FAKTA

Foreldrenes misnøye med bemanningen øker

Advarer mot å fjerne ekstra timer i Oslo-skolen

– Ikke et forslag som kommer til å øke rekrutteringen til yrkesfag

Ber kontrollutvalget undersøke mulig systemsvikt i barnehagene

Skolene får 191 millioner til innkjøp av praktisk utstyr

Erfaringene fra tidligere satsinger på fysisk aktivitet må tas på alvor

Elevene mangler ikke vilje. De mangler forutsetninger.

Ikke gjør underbemanning lovlig – behold lærernormen

Reagerer på utspill om håndhilsing

Når Høgre seier dei vil fjerne detaljstyringa – men sjølv detaljstyrer skulen

– Registrering av svømmeferdigheter bør ikke være tilfeldig

Fant kakerlakk i barnehage

– Det finnes mange fordeler

Hjerneforsker: Lærere trenger skikkelige pauser

Sp vil sikre elever tilbud om skolegudstjeneste

Nyhetsbrev fra Utdanningsnytt

Nå ryker S-matten: – Dette er midt i blinken

Amerikansk lærerleder mener norske læreres nazi-motstand bør inspirere

MEST LEST

Reagerer på Frølich-utspill om håndhilsing i skolen: – Går på tilliten løs

Hjerneforsker: Lærere trenger skikkelige pauser

Svensk kommune skyver på skoleåret: Gjør høstterminen kortere og vårterminen lenger

Quiz 07/2026: Hvilket språk kommer ordet sauna fra?

Fant kakerlakk i barnehage

Nå ryker S-matten: – Dette er midt i blinken

– Halvparten av femteklassingane strevde med å knyte ein knute

«Norskfaget gjorde at eg ikkje blei elektrikar»

Rapport fra puggeskolen

Demokratikunnskap i tilbakegang

Lærlingene får samme rabatt som studentene på all kollektivtransport

Jobbsikkerhet viktigst for unge

Kamera i klasserommet ga bedre undervisning

Det er ting å lære av den franske puggeskolen

Lærere slår alarm: – Halvparten av femteklassingane strevde med å knyte ein knute

Høyre landet ny skolepolitikk: Tilbake til penn og papir – bort fra skjermen

Elever med fluktbakgrunn sine erfaringer bør benyttes som en ressurs i undervisningen

Privat sektor ble lønnsvinner Frykter lærerflukt

Denne lærergjengen er kåret til årets forbilder

Hvilket språk kommer ordet sauna fra?

Trump-administrasjonen saksøker Harvard-universitetet

Svenneby vil ta skolen tilbake til røttene

Flere trives med lærerutdanningen, men den scorer fortsatt lavt

Da Lenes skulder begynte å krangle ble lærlingene redningen – nå har hun fire

Avlyser barnehagesalg: Ville selge for 100 millioner kroner – fikk tilbud om 38

Krevende å se sammenhengen mellom underveis- og sluttvurdering

Lager nye innholdslister for grunnskolen: – Ikke tilstrekkelig

Elever i Oslo kan få færre skoletimer

Skolene i Oslo setter på låst nettfilter for nettbrett

Kvinne mistenkt for skolemassakre i Canada – ti drept

Hyller lærere med monolog i to skoletimer og et friminutt

Rekordmange elever velger yrkesfag

Kritiserer Høyres forslag om obligatorisk barnehage

KI tvinger fram slutt på skriftlig ex.phil.-eksamen i Tromsø

Nå ryker S-matten:

– Dette er midt i blinken

Lærere slår alarm:
– Halvparten av femteklassingane strevde med å knyte ein knute

Høyre landet ny skolepolitikk:

Tilbake til penn og papir
– bort fra skjermen

Privat sektor ble lønnsvinner

Frykter lærerflukt

Avlyser barnehagesalg:
Ville selge for 100 millioner kroner – fikk tilbud om 38

Lager nye innholdslister for grunnskolen:

– Ikke tilstrekkelig