Vi kan trekke frem mye problematisk med KI-respons på elevarbeider
Debatt: Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.
Omfanget av tekstvurdering er et påtrengende problem for norsklærere, og anbefalinger om god vurderingspraksis kommer i konflikt med norskfagets tvingende omstendigheter. 30 eller flere elever i klassene er en hard realitet som pedagogiske idealer ikke kan overkomme.
Samtidig saumfarer KI-aktører skolen etter problemer å løse. Kan KI løse vurderingsknuten i norskfaget? Maskinvurdering er ikke science fiction lenger. Det finnes forskning som forteller oss at KI-respons kan fremme skriveutviklingen (Engeness, 2025, Burner et al, 2025). En mye sitert artikkel forteller dessuten at GKI gir nesten like god tekstrespons som lærere (Steiss et al, 2024).
For godt til å være sant? Det er i hvert fall verdt å undersøke nærmere. I et samarbeidsprosjekt mellom FIKS ved UiO og Osloskolen har vi dykket dypere i påstander om GKI som redskap for formative tilbakemeldinger. I en artikkel i Norsklæreren beskrives hvordan vi utviklet, testet og vurderte en chatbot som skulle gi formativ vurdering på en norskfaglig besvarelse (Valand et al., 2025). Til tross for timesvis med prompting, testing og justeringer, fungerte chatboten bare sånn passe. Her deler vi noen kritiske refleksjoner som oppstod underveis og i etterkant av prosjektet.
Vi utviklet en chatbot som skulle gi formativ tilbakemelding på sjangeren retorisk analyse. Idéen var å lage en tilbakemeldingsbot som skulle fungere som en ressurs for elevene underveis i skriveprosessen. Chatboten ble hardt instruert til å nekte å skrive tekst for elevene, og ellers foret med faglig kontekst, definisjoner, eksempler, vurderingskriterier og funksjonsinstrukser.
Ved første øyekast virket de KI-genererte tilbakemeldingene imponerende. Chatboten gav tilsynelatende konkret respons, både underveis i teksten og i form av en sluttkommentar. Men ved skraping i overflaten, oppdaget vi at tilbakemeldingene, både løpende i teksten, og i sluttkommentarene, var generiske og tidvis meningstomme. Av og til glimtet chatboten til med treffende tilbakemeldinger, men den var lite konsistent og gav ulik respons ved repeterte forsøk. Den bestod i det hele tatt ikke testen særlig tilfredsstillende.
Vi kan trekke frem mye problematisk med KI-respons på elevarbeider. Her vil vi dele tre refleksjoner vi mener det er viktig å ta på alvor.
Første refleksjon: Tilbakemeldingsboten gir ikke et treffende bilde av elevens skrivekompetanse
De store språkmodellene bygger på sannsynlighet og store data. Prosjektet vårt viste at språkmodellen får problemer når den skal forholde seg til et begrepsapparat som er særegent for den norske læreplanen, og særlig når den skal gi tilbakemelding på en så pass spesifikk og sammensatt sjanger som den norskfaglige retoriske analysen. At språkmodeller responderer etter hyppighet i data merker vi også kvalitativt i tilbakemeldingene.
Det virker som om den underliggende språkmodellen konstruerer språk fra feedback-diskursen heller enn å forholde seg til den konkrete elevbesvarelsen. En gjenganger for norsklærerne, er å be elever om å utdype mer, konkretisere og å vise og å tolke eksempler. Det gjorde chatboten til gagns.
Den prioriterer typiske tilbakemeldinger, og derfor gir den ikke et treffende og nyansert bilde av den enkelte elevs skrivekompetanse.
Andre refleksjon: Arrrg! Å vurdere chatbotens vurderinger var utmattende og frustrerende
Selv med lang vurderingserfaring, var det krevende og frustrerende å vurdere kvaliteten på KI-generert respons. Skråsikre tilbakemeldinger fra chatboten pirket borti troen på vår egen vurderingskompetanse. Da vi møttes etter individuelle vurderinger av både elevtekster og chatbotens tilbakemeldinger, var det derfor en lettelse å finne ut at vi var samstemte i våre egne vurderinger av de utvalgte elevbesvarelsene.
Dette er interessant og foruroligende. Hvorfor var det så krevende å avsløre chatbotens svakheter? Vi tror i stor grad det skyldes at den har klart å appropriere «vurderingsspråket» vårt. Chatboten er god til å etterlikne. Den etterlikner så godt at det kan være vanskelig å se hvor meningstomt innholdet tidvis er. Følelsen vi sitter igjen med er derfor at chatboten er en papegøye som plaprer overbevisende vurderingsspråk. Og når erfarne norsklærere synes det er krevende, hva da med nyutdannede, og ikke minst elevene? Denne erfaringen forteller oss at vi skal være varsomme med å la KI gi respons til elever.
Det krever at lærere og elever klarer å filtrere og vurdere KI-responsen. For eleven krever denne vurderingen en sterkere tekstkompetanse enn mange av dem har i dag.
Tredje refleksjon: Utvikling av norskfaglige chatboter krever erfaring
Det er norskfaglig kompetanse som har gjort oss i stand til å lage norskfaglige tilbakemeldingsboter. I utvikling, testing og justering har det handlet om å vurdere outputen chatboten gir, og å bruke erfaring og kompetanse til å vurdere hva som bør justeres, endres, forsterkes, legges til eller fjernes i systemprompten. Vi hadde aldri klart å lage/justere tilbakemeldingsboten uten erfaringen som norsklærere.
Dersom uerfarne lærere lar GKI gi tilbakemeldinger og i mindre grad gjør det selv, hva skjer i så fall med vurderingskompetansen? Det er ikke urealistisk at det snart dukker opp en chatbot som faktisk klarer å gi god formativ respons. Spørsmålet blir da: Om norsklæreres vurderingskompetanse samlet blir svakere, hvem skal i så fall vurdere chatbotens vurderinger? God formativ vurdering er en ferdighet norsklæreren utvikler gjennom erfaring, tolkningsfellesskap og elevmøter, over tid.
Sats på smale, målrettede chatboter
Vi utelukker ikke at GKI kan bidra til å utvikle elevers skrivekompetanse. Det er mulig at oppgaven med å vurdere en så spesifikk oppgave i en norsk kontekst, blir for krevende. Tidligere har vi utviklet chatboter som er rettet mot enkeltferdigheter og spesifikke tekstelementer. Erfaringen er enn så lenge at det er enklere å få snevre chatboter til å gi konsistent og meningsfull respons. Muligens er det også enklere for elever å forholde seg til chatboter som gir konkret respons på mer instrumentelle delferdigheter? Vår oppfordring i alle tilfeller er at norsklærere tester KI-verktøy grundig før de slippes løs på elevene, og at vi tar diskusjonen om hva vi eventuelt taper og vinner på å la GKI gi respons på elevers skriving.
Referanser
Burner, T., Lindvig, Y., & Wærness, J. I. (2025). “We Should Not Be Like a Dinosaur”—Using AI Technologies to Provide Formative Feedback to Students. Education Sciences, 15(1), 58.
Engeness, I. (2025). Cultural-Historical Perspective to Design Pedagogical AI for Enhancing Student Writing. Technology, Knowledge and Learning, 1-22.
Steiss, J., Tate, T., Graham, S., Cruz, J., Hebert, M., Wang, J., Moon, Y., Tseng, W., Warschauer, M. and Olson, C.B.. (2024). Comparing the quality of human and ChatGPT feedback of students’ writing. Learning and Instruction, 91, 101894.
Valand, S.S, Dvergastein, S., Eikeland, M., Jomisko, A.L. (2025) Norsklærer versus chatbot - Kvalitet på praterobotens tekstrespons i norskfaget. I Norsklæreren: 2-2025.