En fagkritikk av Læringslaben

Det er startet en kritisk debatt om Læringslabens virksomhet i norsk skole, og professor Svein Sjøberg oppfordrer alle interesserte til selv å vurdere Læringslabens rapporter. Artikkelforfatteren tar for seg rapport nr. 17/06.

 

I denne artikkelen vil jeg i noe detalj ta for meg den ferske rapporten "Realisering av læringspotensial" (Læringslabens rapport nr. 17/2006). Den er skrevet av Yngve Lindvig, Jarl Inge Wærness, Erling Lars Dale, Ove Hatlevik og Linda Marie Viddal.

Rapporten "inneholder en analyse av forholdet mellom læringspotensial, lærernes deltagelse i organisasjonslæring og elevenes opplevelse av eget læringsmiljø". Rapporten er finansiert av Utdanningsdirektoratets bevilgning til prosjektet "Utprøving, videreutvikling og implementering av verktøy for organisasjonslæring og tilpasset og differensiert opplæring". Bevilgningen er til Fredrikstad kommune og kommer fra Kunnskapsdepartementets Program for skoleutvikling. Rapporten selges fra Læringslabens nettbutikk for kr 249,- (minus 25 prosent rabatt ved kjøp av 10 eller flere).

Hvis dette var et utkast til en semesteroppgave fra en student, ville jeg bedt kandidaten om å rydde bort de mest elementære feilene og manglene før vi kunne komme inn på de faglige og forskningsmessige diskusjonene. Knapt en side i rapporten ville ha sluppet unna en sensors røde penn. Denne rapporten er imidlertid ikke bare et utkast – den er utgitt som bok for salg.

I det følgende vil jeg kommentere noe småfeil og slurv, men først og fremst feil og misforståelser knyttet til det analysemessige og til fortolkningene som er gjort. Sidetallene i parentes refererer til sider med eksempler relevante for mine kommentarer.

Udefinert utvalg av elever og lærere
Rapporten bygger på data samlet gjennom fire undersøkelser fra lærere og elever fra ulike nivåer i skolen. Undersøkelsen er gjennomført på fem ungdomsskoler, fire videregående skoler pluss et antall "skoler" (s 5). Det sies imidlertid ikke noe om hva som her menes med "skoler". Er det 1.-10. klasse? Kanskje 1.-7.? Eller litt av hvert? Det er også uklart hvor datamaterialet stammer fra, hvem som har samlet det, hvem som har gitt tillatelse til bruk, hvordan data forvaltes osv.

I en del av boka brukes data fra fire videregående skoler og fem ungdomsskoler fra samme geografiske region (s 33). Det sies ikke hvilken region. En annen del bruker et utvalg med 42.000 elever fra to kommuner og ni fylkeskommuner (s 93). Videre er det et kapittel som bruker et utvalg bestående av 7500 skolemedarbeidere fra en kommune og fem fylker (s 141).

Hvordan disse ulike utvalgene henger sammen med hverandre og de fire undersøkelsene nevnt over, får vi ikke vite. Videre vet vi verken hvordan elevene fordeler seg aldersmessig i utvalgene, hvor mange av "medarbeiderne" som er lærere, på hvilke nivåer lærerne arbeider eller i hvilke fag. Legg merke til at for å nøste sammen informasjon om utvalget, må jeg henvise til fire ulike sidetall og deler av boka. Framstillingen er uoversiktlig og lite leservennlig, og utvalget er svært vanskelig å begripe.

Det sies heller ikke noe om hvorvidt de 42.000 elevene og de 7500 medarbeiderne er valgt ut på en slik måte at de kan regnes som representative for populasjonen i fylket/kommunen. Derimot er det opplagt at siden det bare er brukt data fra elever og lærere i henholdsvis ni og fem av Norges nitten fylker, kan utvalget ikke representere hele landet. For eksempel er verken Oslo eller Akershus med.

Dette betyr at datamaterialet ikke kan gi støtte for påstander som at det er "bare 41 prosent av norske elever som sier at skolemiljøet er bra ..." (s 14) eller at "bare 29 prosent av norske lærere opplever at de arbeider på en skole med gode organisatoriske forutsetninger ..." (s 14). Det gjøres en rekke tilsvarende uholdbare generaliseringer. For eksempel hevder forfatterne at 50 prosent av norske ungdomsskoler og videregående skoler er på et "kritisk nivå" når det gjelder en rekke forhold – og at dette funnet bør få "umiddelbare konsekvenser" (s 14)!

Slurv og utydelighet
Rapporten viser 18 tabeller med resultater fra én og samme type analyse. Bortsett fra første kolonne og rad, inneholder cellene desimaltall. Alle tabellene viser altså samme type materiale. Likevel finnes intet system i framstillingsmåte:

• noen av tabellene har fått nummer (s 69), mens andre har ikke (s 86)
• noen steder kalles tabellen for tabell (s 40), mens andre steder omtales den som figur (s 86).
• noen tabeller har fullt rutenett (s 55), mens andre har ikke engang linjer (s 74)
• noen steder er såkalte faktorladninger på hovedfaktor markert med fete typer (s 72), andre steder med gulfarge (s 55), og atter andre steder er det ingen typografisk markering av hovedladninger (s 69)
• noen desimaltegn skrives som komma (s 55), andre som punktum (s 48)
• noen steder er det to desimaler (s 71), andre steder er det tre (s 86) og atter andre vises åtte (s 57)
• noen steder sier kolonnehodene "Faktor 1", "Faktor 2" osv. (s 57), mens andre viser "F1", "F2" osv. (s 69)
• noen kolonnehoder er norske (s 71), mens andre er engelske (86)
• noen steder har de (viktige!) minustegnene fått lov til å være med (s 57), mens de andre steder er sløyfet (s 41)
• osv. osv.

Også korrelasjonsmatriser er rapportert med tilsvarende mangel på konsistens. Jeg dropper detaljene denne gangen, og nevner bare at noen steder blir to stjerner (**) brukt for å indikere signifikansnivå på 1 prosent (s 70) mens de samme to stjernene andre steder markerer et nivå på 5 prosent (s 58). Jeg tror at alle som er kjent med denne typen analyser, vil mene at dette er et ganske spesielt grep for rapporteringen.

Også i forbindelse med referansene er håndverket under enhver kritikk. Mange steder henviser teksten til kilder som ikke finnes i referanselisten (s 38). Og de elementene som står i referanselisten bak i boka er satt opp uten system. Noen ganger står forfatterne med fullt navn, mens andre ganger er fornavnet bare gitt ved forbokstaven; noen ganger står det "og", andre ganger "&" og atter ganger "and" mellom forfattere osv.

Ganske gresk
Ofte er språket forståelig, og det er lite tastefeil og ortografiske feil. Men det kan også være vrient å forstå hva forfatterne mener: "Analytisk og global informasjonsbearbeidelse" (s 71) står uten noen utdypning. At "faktor 2 heller er en anti-delteknikk enn en helhetsteknikk" (s 71) er vel uinteressant så lenge man ikke vet hva disse teknikkene innebærer. Og det at de ikke finner "en faktor som dekker den teoretiske beskrivelsen av faktoren helhetsteknikk" (s 71) blir vel også en leser likegyldig, siden en ikke skjønner hva det betyr.

Rapporten oppsummeres med at "læringspotensialet ligger i realiseringen av de sju differensieringskategoriene samt i relasjonen mellom organisatoriske forutsetninger og læringstrykk" (s 15). For meg er dette temmelig uforståelig.

Pålitelig og gyldig?
Det sier seg selv at forskning som verken er pålitelig eller gyldig er totalt verdiløs. Derfor er pålitelighet og gyldighet (også kalt reliabilitet og validitet) to helt avgjørende begreper innen forskning. Alle forskere må adressere målingenes reliabilitet og fortolkningenes validitet.

Forfatterne av rapporten synes å ha misforstått begrepene reliabilitet og validitet. For eksempel viser de til høy reliabilitet (høye alpha-koeffisienter) for noen variabler, og skriver at "Faktorene er med andre ord funnet å dekke de begrepene jeg har forsøkt å måle i svært høy grad" (s 87). Dette er et misforstått reliabilitetsbegrep. Selv om dataene har målt ett-eller-annet begrep pålitelig, betyr det ikke at dette ett-eller-annet er det samme begrepet som forskeren har forsøkt å måle. For å undersøke hvorvidt dette kan fortolkes som et gyldig (valid) mål på det en ønsker å måle, må det gjøres helt andre vurderinger med helt andre tilnærminger og metoder.

For – oversatt til en mer dagligdags sammenheng: Jeg kan være utrustet med en hel rekke lengdemål – alle noe ulike, upresise og ujevne. Når jeg bruker dem ser jeg at de samvarierer i det jeg måler (pluss-minus litt). Derfor finner jeg belegg for å si at til sammen gir disse ymse målebåndene og linjalene en noenlunde pålitelig (reliabel) lengdeangivelse. Likevel trengs andre vurderinger en dette for å finne ut hva jeg egentlig har målt – for var det en persons høyde? vedkommendes skrittlengde? eller bredden på en låvedør? Altså: Selv om måleredskapene til sammen gir et rimelig pålitelig lengdemål, må jeg gjøre andre betraktninger for å kunne si noe om hva de egentlig har målt. Men forfatterne av Læringslabens rapport mener altså at fordi deres ulike mål ser ut til å måle omtrent det samme, utgjør de også et gyldig mål for akkurat den størrelsen de hadde planlagt å måle.

PISA-undersøkelsene (Programme for International Student Assessment, www.pisa.no) gjør målinger på denne måten. Spørreskjemaet har en rekke spørsmål. Reliabilitetsanalyser viser at sammenlagt gir dataene fra disse et godt mål på en størrelse (et konstrukt). Forskerne fortolker størrelsen til å være for eksempel elevenes motivasjon eller selvoppfatning.

Læringslab-forfatterne sier følgende: "Denne indikatoren bygger på konstruktene fra PISA (Lie mfl., 2001:242). Selv om vi benytter færre spørsmål enn PISA-undersøkelsen, viser vår faktoranalyse de samme resultatene som dem som fremgår i PISA. Derfor mener vi det er forsvarlig å benytte faktorer med kun to spørsmål.". (Teksten er forresten ordrett gjentatt hele syv ganger over åtte sider i rapporten, s 117-124.)

Dette er feil. Det er ikke holdbart å bruke faktoranalyse for å forsvare at de bruker bare to spørsmål. Ved å skjære ned til to spørsmål har selvfølgelig reliabiliteten blitt svekket. Forfatterne velger å ikke oppgi hvor lav reliabiliteten for deres tospørsmåls konstrukter er.

Teori og fortolkning
Noen steder er det en "jeg" som er forskeren (s 87), andre steder er det "vi" som har gjort arbeidet (s 87), og ganske ofte er det overhodet ingen forsker bak – fortolkningene synes å ha kommet ut av dataene helt av seg selv. For eksempel skriver de at "faktoranalysen viser at det fremkommer tre klare faktorer for henholdsvis lære gjennom samarbeid (faktor 1), støtte fra omgivelser (faktor 2) og kommunisere behov (faktor 3)" (s 41). Noe slikt kan aldri en faktoranalyse vise. For det første er antall faktorer man får fra statistikkprogrammet avhengig av bestillingen man har gjort, og vi får ikke vite noe om hvilket kriterium de har brukt for fastsetting av antall faktorer. For det andre kan faktoranalysen ikke fortelle hvilke begrep eller konstrukter faktorene står for.

Forfatterne har øyensynlig satt seg inn i mye litteratur, og har ut fra dette utviklet to egne "tilbakemeldingsdiskurser": De har lest John Deweys erfaringsfilosofi, Matin Bubers dialogfilosofi, Axel Honneths anerkjennelsesteori, Pierre Bourdieus relasjonelle vitenskapsfilosofi og Susan Askews tilbakemeldingsteori (alle blir ramset opp uten referanser, s 78). Ut fra dette rike og mangfoldige teoritilfanget har de kommet fram til hele to typer tilbakemeldinger som elever kan få fra lærere: monologiske og dialogiske (s 78). Enkelt og litt for greit? Mon tro om tenkere som Dewey og Bourdieu hadde nikket anerkjennende til Læringslabens oppsummering?

Forfatterne har gjort en prinsipal komponentanalyse (PCA), og slår fast at det finnes minst to komponenter (s 86). De kaller de to komponentene for dialogiske og monologiske tilbakemeldinger. Forfatterne mener at analysen viser at det finnes en gruppe elever som mener læreren ga monologiske tilbakemeldinger. Dette er imidlertid en feiltolkning av resultatene. Hvor høye skårer de to komponentene får kan ikke besvares på grunnlag av PCA.

Denne feiltolkningen avdekkes også senere i rapporten: Grafer viser at elevene i liten grad sier seg enige i at de får monologiske tilbakemeldinger fra lærerne i klasseromssammenheng. Derimot er de enige i at tilbakemeldingene er dialogiske (s 134-135). Forfatterne sier at "Av plasshensyn blir ikke grafene kommentert" (s 134). Likevel bruker de mye plass på neste side til en diskusjon omkring det at "langt fra alle [...] får dialogiske tilbakemeldinger" og at "Noen lærere gir ikke elevene tilstrekkelig tillit til at de får realisert sitt potensial" (s 135).

Forfatterne problematiserer altså den monologiske tilbakemeldingen, men diskusjonen virker påklistret og irrelevant. For hvorfor prioritere plass til dette og ikke til de faktiske funnene – som vitterlig sier at elevene stort sett er uenige i at de blir utsatt for monologisk tilbakemelding?

Tvilsomme implikasjoner
Forfatterne merker resultater med rødt, gult og grønt ettersom hvor ille eller bra de mener norsk skoles kvalitet er på ulike områder. Og: "Når resultater er på rødt nivå, bør resultatet tas alvorlig og få umiddelbare konsekvenser" (s 14). Men hvordan kan de fastsette en presis grense mellom for eksempel rødt og gult? Forfatterne er klar over at grensen ikke er gitt av noen som helst standard. De skriver sågar at "Noen grenseverdier er blitt finjustert i forhold til i fjor" (s 103). Det vil si at resultater som i 2005 var "gule" og indikerte middels kvalitet, i denne rapporten kan være omgjort til "røde". Da er resultatet "alvorlig, og burde få umiddelbare konsekvenser" (s 103).

Dette sier noe om hvor skjønnsmessig disse skillelinjene settes. Dette gjelder selvfølgelig mye forskning. Det som imidlertid ikke bør forekomme i ansvarlig forskning, er påstander om at grenseverdiene impliserer "umiddelbare konsekvenser".

Forfatterne ønsker å "utvikle teori, begreper og verktøy som kan bidra til at skolene greier å realisere intensjonene i Kunnskapsløftet" (s 17). Mon tro om de ikke med denne rapporten lykkes langt bedre i å frustrere en leser over nettopp teorier, begreper og verktøy.

Artikkelforfatteren er dr.scient. post.doc ved Det matematisk naturvitenskapelige fakultet, Universitetet i Oslo