pc
kontor
vurdering
vurderingsarbeid

Vi kan trekke frem mye problematisk med KI-respons på elevarbeider

Debatt: Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.

Publisert

Omfanget av tekstvurdering er et påtrengende problem for norsklærere, og anbefalinger om god vurderingspraksis kommer i konflikt med norskfagets tvingende omstendigheter. 30 eller flere elever i klassene er en hard realitet som pedagogiske idealer ikke kan overkomme.

Samtidig saumfarer KI-aktører skolen etter problemer å løse. Kan KI løse vurderingsknuten i norskfaget? Maskinvurdering er ikke science fiction lenger. Det finnes forskning som forteller oss at KI-respons kan fremme skriveutviklingen (Engeness, 2025, Burner et al, 2025). En mye sitert artikkel forteller dessuten at GKI gir nesten like god tekstrespons som lærere (Steiss et al, 2024).

FAKTA

I et samarbeid mellom Osloskolen og UiO (FIKS), utforsker vi fagdidaktisk bruk av kommunens KI-løsning. I gruppa for norskfaget undersøkes om og eventuelt hvordan generativ kunstig intelligens kan brukes til å utvikle elevers skriveferdigheter. Norskgruppa har utviklet og testet chatboter som gir formativ respons underveis i skriveprosesser. Etter utprøvinger i klasserommet er erfaringene blandede.

Norskgruppa består av norsklektorene Bjørn Silas Dvergastein (Lambertseter vgs.), Marit Eikeland (Oslo Katedralskole), Anne Lise Jomisko (Elvebakken vgs.) og Siv Sørås Valand, tidligere norsklektor, nå phd-stipendiat ved UiO.

For godt til å være sant? Det er i hvert fall verdt å undersøke nærmere. I et samarbeidsprosjekt mellom FIKS ved UiO og Osloskolen har vi dykket dypere i påstander om GKI som redskap for formative tilbakemeldinger. I en artikkel i Norsklæreren beskrives hvordan vi utviklet, testet og vurderte en chatbot som skulle gi formativ vurdering på en norskfaglig besvarelse (Valand et al., 2025). Til tross for timesvis med prompting, testing og justeringer, fungerte chatboten bare sånn passe. Her deler vi noen kritiske refleksjoner som oppstod underveis og i etterkant av prosjektet.

Vi utviklet en chatbot som skulle gi formativ tilbakemelding på sjangeren retorisk analyse. Idéen var å lage en tilbakemeldingsbot som skulle fungere som en ressurs for elevene underveis i skriveprosessen. Chatboten ble hardt instruert til å nekte å skrive tekst for elevene, og ellers foret med faglig kontekst, definisjoner, eksempler, vurderingskriterier og funksjonsinstrukser.

Ved første øyekast virket de KI-genererte tilbakemeldingene imponerende. Chatboten gav tilsynelatende konkret respons, både underveis i teksten og i form av en sluttkommentar. Men ved skraping i overflaten, oppdaget vi at tilbakemeldingene, både løpende i teksten, og i sluttkommentarene, var generiske og tidvis meningstomme. Av og til glimtet chatboten til med treffende tilbakemeldinger, men den var lite konsistent og gav ulik respons ved repeterte forsøk. Den bestod i det hele tatt ikke testen særlig tilfredsstillende.

Vi kan trekke frem mye problematisk med KI-respons på elevarbeider. Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.

Første refleksjon: Tilbakemeldingsboten gir ikke et treffende bilde av elevens skrivekompetanse

De store språkmodellene bygger på sannsynlighet og store data. Prosjektet vårt viste at språkmodellen får problemer når den skal forholde seg til et begrepsapparat som er særegent for den norske læreplanen, og særlig når den skal gi tilbakemelding på en så pass spesifikk og sammensatt sjanger som den norskfaglige retoriske analysen. At språkmodeller responderer etter hyppighet i data merker vi også kvalitativt i tilbakemeldingene. 

Det virker som om den underliggende språkmodellen konstruerer språk fra feedback-diskursen heller enn å forholde seg til den konkrete elevbesvarelsen. En gjenganger for norsklærerne, er å be elever om å utdype mer, konkretisere og å vise og å tolke eksempler. Det gjorde chatboten til gagns. 

Den prioriterer typiske tilbakemeldinger, og derfor gir den ikke et treffende og nyansert bilde av den enkelte elevs skrivekompetanse.

Andre refleksjon: Arrrg! Å vurdere chatbotens vurderinger var utmattende og frustrerende

Selv med lang vurderingserfaring, var det krevende og frustrerende å vurdere kvaliteten på KI-generert respons. Skråsikre tilbakemeldinger fra chatboten pirket borti troen på vår egen vurderingskompetanse. Da vi møttes etter individuelle vurderinger av både elevtekster og chatbotens tilbakemeldinger, var det derfor en lettelse å finne ut at vi var samstemte i våre egne vurderinger av de utvalgte elevbesvarelsene. 

Dette er interessant og foruroligende. Hvorfor var det så krevende å avsløre chatbotens svakheter? Vi tror i stor grad det skyldes at den har klart å appropriere «vurderingsspråket» vårt. Chatboten er god til å etterlikne. Den etterlikner så godt at det kan være vanskelig å se hvor meningstomt innholdet tidvis er. Følelsen vi sitter igjen med er derfor at chatboten er en papegøye som plaprer overbevisende vurderingsspråk. Og når erfarne norsklærere synes det er krevende, hva da med nyutdannede, og ikke minst elevene? Denne erfaringen forteller oss at vi skal være varsomme med å la KI gi respons til elever. 

Det krever at lærere og elever klarer å filtrere og vurdere KI-responsen. For eleven krever denne vurderingen en sterkere tekstkompetanse enn mange av dem har i dag.

Tredje refleksjon: Utvikling av norskfaglige chatboter krever erfaring

Det er norskfaglig kompetanse som har gjort oss i stand til å lage norskfaglige tilbakemeldingsboter. I utvikling, testing og justering har det handlet om å vurdere outputen chatboten gir, og å bruke erfaring og kompetanse til å vurdere hva som bør justeres, endres, forsterkes, legges til eller fjernes i systemprompten. Vi hadde aldri klart å lage/justere tilbakemeldingsboten uten erfaringen som norsklærere.

Dersom uerfarne lærere lar GKI gi tilbakemeldinger og i mindre grad gjør det selv, hva skjer i så fall med vurderingskompetansen? Det er ikke urealistisk at det snart dukker opp en chatbot som faktisk klarer å gi god formativ respons. Spørsmålet blir da: Om norsklæreres vurderingskompetanse samlet blir svakere, hvem skal i så fall vurdere chatbotens vurderinger? God formativ vurdering er en ferdighet norsklæreren utvikler gjennom erfaring, tolkningsfellesskap og elevmøter, over tid.

Sats på smale, målrettede chatboter

Vi utelukker ikke at GKI kan bidra til å utvikle elevers skrivekompetanse. Det er mulig at oppgaven med å vurdere en så spesifikk oppgave i en norsk kontekst, blir for krevende. Tidligere har vi utviklet chatboter som er rettet mot enkeltferdigheter og spesifikke tekstelementer. Erfaringen er enn så lenge at det er enklere å få snevre chatboter til å gi konsistent og meningsfull respons. Muligens er det også enklere for elever å forholde seg til chatboter som gir konkret respons på mer instrumentelle delferdigheter? Vår oppfordring i alle tilfeller er at norsklærere tester KI-verktøy grundig før de slippes løs på elevene, og at vi tar diskusjonen om hva vi eventuelt taper og vinner på å la GKI gi respons på elevers skriving.

Referanser 

Burner, T., Lindvig, Y., & Wærness, J. I. (2025). “We Should Not Be Like a Dinosaur”—Using AI Technologies to Provide Formative Feedback to Students. Education Sciences, 15(1), 58.

Engeness, I. (2025). Cultural-Historical Perspective to Design Pedagogical AI for Enhancing Student Writing. Technology, Knowledge and Learning, 1-22.

Steiss, J., Tate, T., Graham, S., Cruz, J., Hebert, M., Wang, J., Moon, Y., Tseng, W., Warschauer, M. and Olson, C.B.. (2024). Comparing the quality of human and ChatGPT feedback of students’ writing. Learning and Instruction, 91, 101894.

Valand, S.S, Dvergastein, S., Eikeland, M., Jomisko, A.L. (2025) Norsklærer versus chatbot - Kvalitet på praterobotens tekstrespons i norskfaget. I Norsklæreren: 2-2025.