Annonse

Professorene Monica Melby-Lervåg og Arne Lervåg vil ha mer debatt om svakheter i forskningslitteraturen også på utdanningsfeltet. Foto: Stig B. Hansen.

Sentrale utdanningsforskere vil ha slutt på Hattie-forenklinger i skoledebatten

Medisinske forskere varsler om en kredibilitetskrise fordi forskningen viser seg å være langt mer feilbarlig enn man liker å tro. Utdanningsforskningen er i en lignende situasjon, og det tas altfor lite på alvor, mener professor Monica Melby-Lervåg.

Annonse

 

Følg Utdanningsnytt på Facebook!

 

I forskningens verden er det den medisinske forskningen som regnes som å ha kommet lengst. Flere tiår med utvikling av metoder har gjort dette til det mest gjennomdiskuterte og testede forskningsfeltet. At tiltak og oppfølging er forskningsbasert, har blitt selve kjernen i helsevesenet.

Andre felt kommer imidlertid etter, og begrepet forskningsbasert får også stadig mer innpass i utdanningssystemet.

Men hva betyr egentlig forskningsbasert? Hvor sikker kan man være på at forskningen faktisk gir riktige svar?

Det er spørsmål som er brennhete i det medisinske forskningsmiljøet for tiden, etter at en rekke studier viser at det som har vært ansett som viktige forskningsfunn, ikke lar seg reprodusere i nye studier. Enkelte vedtatte sannheter kan vise seg å være feil. Flere har gitt uttrykk for at det på mange forskningsfelt er krise fordi forskningen er langt mer feilbarlig enn mange har likt å tro.

Utdanning har hørt med flere sentrale utdanningsforskere i Norge for å finne ut hva de mener om status på deres forskningsfelt.

 

– De fleste funn er feil

Krisedebatten innen medisinsk forskning begynte i stor grad med en artikkel fra professor ved Stanford University i USA, John Ioannidis, i 2005. Da skrev han artikkelen «Why most published research findings are false».

«Det kan bevises at flertallet av forskningsfunn er feil», skrev Ioannidis i artikkelen. Mye av kritikken retter seg mot bruk av for svake metoder, og et system hvor det er blitt viktigere å publisere nye og spennende funn enn å sjekke om tidligere funn faktisk stemmer. 

Siden har debatten rullet og gått. Ikke minst har flere forskergrupper dukket ned i materien for å se om det er hold i påstanden om at så mange funn er uriktige.

Forskergruppen til Ioannidis gikk selv gjennom 49 av de mest siterte studiene innenfor medisinsk behandling. 34 av disse hadde blitt testet på nytt gjennom en eller flere nye studier. Da viste det seg at i 14 av dem viste oppfølgingsundersøkelser at de opprinnelige resultatene var feil eller betydelig overdrevet. Dette var studier som hadde påvirket medisinsk behandling over hele verden. 11 av de opprinnelige 49 studiene hadde aldri blitt forsøkt reprodusert.

Lignende studier innen kreftforskning har gitt tilsvarende resultater . Og i 2015 ble funn fra gigantprosjektet Open Science Collaboration publisert i prestisjetidsskriftet Science. Her forsøkte en stor gruppe forskere å reprodusere funnene i 100 studier innen psykologi. I godt under halvparten av studiene de undersøkte klarte de å bekrefte de opprinnelige funnene.

Tidskriftet Nature har skrevet en artikkel om denne studien her.

Problemet er at funn som viser seg å være feil uansett lever videre og påvirker politikk og praksis.

– Hvis du har tusenvis av forskere som har gjort karriere på en spesifikk teori, vil de fortsette å publisere artikler om den selv når bevisene viser at teorien er feil, sa Ioannidis til The Atlantic i 2010.

Når dette kan utspille seg innen det mest modne forskningsfeltet av alle, medisin, er det da en fare for at det også vil ramme utdanningsforskningen?

 

– Vi er der allerede

– Det er ikke en fare for at utdanningsforskningen kan komme i en slik situasjon, de er allerede i en slik situasjon, i likhet med de fleste andre lignende fagfelt, sier Monica Melby-Lervåg.

Hun er professor ved Institutt for spesialpedagogikk ved Universitetet i Oslo. Professor Arne Lervåg, som er professor ved Institutt for pedagogikk ved samme universitet, er enig i at dette problemet kan være vel så stort innen utdanningsforskningen. De to er blant Norges mest anerkjente utdanningsforskere på sine felt.

Melby-Lervåg har skrevet en bloggpost om krisen som nå diskuteres på flere forskningsfelt. Der påpeker hun at det så absolutt kan settes spørsmålstegn ved flere studier på utdanningsfeltet.

– Dessverre har det blitt tatt lite på alvor i tidsskrifter innenfor utdanning, sier hun og etterlyser langt mer debatt.

I bloggen peker hun på en studie som viser at kun 0,13 prosent av studiene i de beste forskningstidsskriftene på utdanningsfeltet er såkalte replikasjonsstudier. Det vil si studier som kan bekrefte eller avkrefte funn fra en annen studie.  

Det kreves en rekke studier for å kunne si noe sikkert om et forskningsfunn er riktig eller ikke. Det er nemlig ofte at et funn fra en første studie viser seg å være feil når andre forskere forsøker å gjenta eksperimentet. Denne type replikasjonsstudier har imidlertid lav prestisje i et forskningsmiljø som gjerne ønsker å komme med nye og spennende funn. Det er også vanskeligere å få publisert replikasjonsstudier ettersom de ikke har samme nyhetsverdi for de vitenskapelige tidsskriftene. Men hvis det ikke gjøres, blir denne type feilaktige funn fort stående som forskningsbaserte sannheter.

Med en replikasjonsrate på 0,13 prosent er definitivt utdanningsforskningen blant de dårlige i klassen. Det er for eksempel langt dårligere enn på forskningsfeltet psykologi, hvor denne replikasjonskrisen har fått størst oppmerksomhet. Der er den tilsvarende raten rundt en prosent ifølge en studie fra 2012.

Forskerne bak studien som fant raten på 0,13 prosent, sa til nettstedet Inside Higher Ed i 2014 at de gjerne skulle sett at ti prosent av all forskning var replikasjonsstudier, selv om de tror det er et urealistisk mål.

– De funnene som påvirker samfunnet, har behov for å bli testet på nytt. Hvis vi ikke kan bekrefte våre egne resultater, mister vi den tilliten og kredibiliteten vi trenger for å kunne ha noe håp om å påvirke politikken, sa Matthew Makel, forsker ved Duke University i USA, til Inside Higher Ed.

Mangel på replikasjonsstudier vil også smitte over på det som kalles metaanalyser, hvor man sammenfatter og analyserer en rekke studier på samme tiltak for å kunne si mer sikkert om tiltaket fungerer eller ikke. Hvis det er få gode studier på et område, vil de få studiene som finnes kunne få uforholdsmessig stor vekt, selv om de kanskje senere vil vise seg å være feil.

Det er nettopp en slik metaanalyse som er grunnen til at verdens mest diskuterte utdanningsforsker de siste årene heter John Hattie.

 

«Søppel inn, søppel ut»

Hattie har gjort en omfattende analyse av 800 metaanalyser på utdanningsfeltet. I boken "Visible Learning" oppsummerer han resultatene og hevder å påvise hva som har effekt på elevenes læring.

Hattie deler inn effektene etter en statistisk metode som beregner effektstørrelser. Så rangerer han skoletiltak ut fra dette. Jo høyere effektstørrelse, jo bedre effekt. Ifølge Hattie bør tiltak ha en effektstørrelse på minst 0,4 for at de skal være verdt bryet. Mange politikere har brukt hans oversikt som argumenter for hva man bør satse på i norske skoler.

Et søk i mediearkivet Retriever viser at navnet hans er nevnt i over 600 norske medieinnslag siden 2009. Bare i 2015 var han nevnt i 181 saker, noe som er mer enn ti ganger så mye som direktør for Kunnskapssenter for utdanning, Sølvi Lillejord, var samme år. Senteret hun leder, skal produsere og spre forskningskunnskap om ulike problemstillinger i utdanningssektoren.

– At John Hattie har hatt stort gjennomslag, er ikke rart. Det er nok første gang noen har gjort et forsøk på å lage en slik form for oversikt som forener både kvalitative og kvantitative studier. Jeg tror ikke noen har kommet fram til at rangeringen hans er "feil", men de fleste har ikke fått med seg hva han har gjort, måten han har gjort det på og alle forbeholdene han tar, sier Sølvi Lillejord.

Hun mener Hatties analyse er mer interessant for forskere å diskutere enn for lærere ute i praksis.

– Når noe havner langt ned på hans liste over tiltak, kan det like gjerne skyldes forhold ved forskningen, at det er lite forskning på temaet eller at forskerne ikke klarer å konkludere. Praksis blir neppe bedre av at lærerne øver på de fem øverste momentene på Hatties liste, for å si det sånn, sier Lillejord.

Arne Lervåg og Monica Melby-Lervåg er sterkt kritiske til måten Hattie presenterer sin hva-virker-liste på.

– Grunnen er at undersøkelser med velkontrollerte design, som randomiserte kontrollerte forsøk, ofte vil gi lavere effektstørrelser. Undersøkelser med dårlige design, for eksempel uten kontrollgruppe, overestimerer ofte effekter. Når Hattie sier at effektstørrelser under 0,4 ikke er interessant, kaster han nærmest ut alle undersøkelsene som er randomiserte kontrollerte forsøk, siden disse ofte gir små effekter. Det hjelper lite med store effekter hvis de ikke er sanne fordi de er basert på en dårlig designet undersøkelse, sier Melby-Lervåg.

Hun viser til et kjent uttrykk blant forskere, «garbage in, garbage out» - inkluderer du studier med metoder som er søppel i en analyse, blir også resultatet av analysen søppel.

Hun og Arne Lervåg har tidligere skrevet en omfattende kritikk av Hattie i tidsskriftet Bedre Skole i 2014.

 

– Punktering av myter

Professor Kirsti Klette ved Institutt for lærerutdanning og skoleforskning synes også bruken av Hattie i utdanningsdebatten har sine problematiske sider.

– Det positive har vært at det kanskje har punktert noen myter om hva som virker og ikke virker i skolen. Veldig lenge har vi hatt en form for flat verden i diskusjonen om undervisning og læring hvor alt har blitt regnet som like viktig, sier Klette.

Hun er tilhenger av mer konsentrert diskusjon i en verden av ulike skoletiltak, fordi det finnes en del forskningskunnskap om hva som fungerer og ikke fungerer.

– Men samtidig er det kjempeproblematisk hvordan Hattie har gjort sin inndeling, hvor han samler likt og ulikt innen forskningen og presser inn i samme mal, sier Klette.

Hun sier han lyktes med å få i gang en diskusjon, noe som kan ha hatt positive effekter.

– Han var forbilledlig på den måten at han var tydelig, samtidig forenklet han veldig. Som forsker har du imidlertid ansvar for hva du sier, og hvordan ting blir brukt. Og Hattie har blitt brukt til mye rart. Om han i ettertid er fornøyd med hvordan forskningen hans er blitt brukt, vet jeg ikke, sier Klette.

 

Fra kvalitativt til kvantitativt

Klette har vært leder av programstyret for forskningssatsingen Utdanning 2020 i Forskningsrådet. Hun sier det har vært en rivende utvikling innen utdanningsforskning de siste årene.

– Det er et helt annet volum enn tidligere. Det er mer fokus på metodisk kompetanse og metodemangfold, og det er mer empirisk forskning. Slik sett er utdanningsforskning i dag drevet av data framfor å være drevet av ideologi, sier Klette.

Hun sier det i en lang periode fram til rundt 2005 var en veldig overvekt av kvalitative studier i utdanningsforskningen i Norge.

– Nå ser vi mer kvantitative studier og effektstudier, sier Klette.

Hun er positiv til den endringen. Selv om hun også mener kvalitativ forskning er viktig, sier hun de kvantitative metodene ofte er bedre til å få fram klarere funn og gjør dem lettere å nå ut med.

– Ser du på tildelte midler fra Forskningsrådet på utdanningsfeltet, er det nå en fin fordeling mellom kvalitative og kvantitative metoder. En periode var det en ren metodekrig, hvor mange var mot at det ble brukt kvantitative metoder i utdanningsforskning. Den krigen er nå heldigvis over, sier Klette.

Hun sier det gjennom det siste tiåret har vært en særlig sterk prioritering av områder det har vært lite forsket på, ofte som grunnlag for utforming av politikk.

– Man har sett at det mangler forskning på et område, og så satser man på det. Fokuset har vært at forskning skal være innovativ og banebrytende, men forskning er også et nitidig puslespill hvor kunnskap bygges stein på stein. Istedenfor å bygge opp noen få områder med solid kunnskap, satser man på nye områder og med liten mulighet for replikasjon og reproduksjon av studier, sier Klette.

Hun mener forskningen da blir spredt ut så bredt at man ikke får bygd opp forskningsgrunnlaget som trengs for å gi mer sikker kunnskap på et felt.

 

Ønsker mer forskning på effekter

De kvantitative metodene i forskningen fokuserer på ting som kan telles og måles, noe mange mener har fått for stor betydning på utdanningsfeltet de siste årene. Arne Lervåg og Monica Melby-Lervåg ønsker seg mer samarbeid mellom forskere som jobber med kvantitative metoder og forskere som jobber med kvalitative metoder.

– Metodene utfyller hverandre. Mye handler om å velge riktig metode til de ulike problemstillingene, sier Arne Lervåg.

De sier randomiserte kontrollerte forsøk får stadig mer innflytelse. Slike forsøk regnes som gullstandarden innen forskning for å måle effekter av tiltak. Metoden stammer fra medisinsk forskning, hvor det bokstavelig talt har vært livsviktig å vite sikkert om en behandling fungerer eller ikke. Et randomisert kontrollert forsøk sammenligner hvordan en gruppe responderer på et tiltak sammenlignet med en identisk gruppe som ikke får tiltaket. Innenfor medisin, psykologi, økonomi og andre samfunnsfag er randomiserte kontrollerte studier mye bruk, og grunnen er at slike undersøkelser gir sikrest kunnskap om årsaksforhold.

– Slike forsøk gjør at vi kan trekke mye sikrere konklusjoner om hvilke pedagogiske tiltak som har betydning og er viktige å satse på. Fortsatt er nok dette bare i startgropen her i Norge, men vi har fått flere undersøkelser enn vi hadde, sier Monica Melby-Lervåg.

Kvalitativ metode kan på sin side belyse hva som skjer under implementeringen av tiltaket.

– Kvalitativ metode er svært nyttig for eksempel for å forstå hvorfor et tiltak møter motstand på en skole. Slike ting kan være vanskelig å fange opp med rene kvantitative data, sier Melby-Lervåg.

Også de trekker fram at kvalitativ forskning har dominert utdanningsforskningen i Norge fram til ganske nylig, og at det fortsatt dominerer innenfor pedagogisk og spesialpedagogisk forskning. De mener denne skjevfordelingen er problematisk.

– Det er derfor fint at det de siste årene har blitt større metodemangfold. Men det er langt igjen til vi på landsbasis har en balanse i bruk av ulike metoder. Én årsak til at studier som John Hatties har fått stor oppmerksomhet, kan være at feltet har manglet kompetanse på kvantitativ metode, sier Melby-Lervåg.

 

Tester lærertetthet

Forskeren John Ioannidis, som i stor grad startet krisedebatten på det medisinske forskningsfeltet, har beregnet at rundt 80 prosent av ikke-randomiserte forsøk har resultater som vil vise seg å være feil. Men ifølge hans beregninger gjelder det også hvert fjerde randomiserte kontrollerte forsøk. Ifølge Ioannidis er mye av årsaken at forskere ofte studerer et tiltak de har tro på at skal virke. Dermed er sjansen større for at de gjennom en rekke ubevisste og bevisste valg lager et forsøk som har større sannsynlighet for å vise at tiltaket virker.

Randomiserte kontrollerte forsøk er kostbare og vanskelig å gjennomføre i skoler og barnehager. Det er nemlig ikke så lett å hente ut tilfeldige utvalg med barn som gjennom en tidsperiode enten skal få eller ikke få et tiltak. I tillegg er det vanskelig å kontrollere for alle andre påvirkninger barna er utsatt for i skole- og barnehagehverdagen. Uten slik kontroll blir det umulig å si om det er tiltaket som fører til eventuelle forskjeller mellom dem som får og ikke får et tiltak, eller om det er helt andre ting.

Men det er mulig å få det til. For øyeblikket pågår det blant annet et omfattende randomisert kontrollert forsøk i Norge som skal kunne gi svar på om økt lærertetthet gir bedre læringsresultater for elevene.

– Denne type studier er stor mangelvare innenfor utdanningssektoren og trengs sårt hvis lærere skal bli i stand til å utvikle det «faglige skjønn som skal avgjøre hvilke metoder og virkemidler som skal tas i bruk i undervisningen» slik Stortinget vedtok at de skal i 2016, sier de to professorene Lervåg.

Hvis det skal gjennomføres store tiltak på skolefeltet basert på forskning, er de klare på at denne type studier må ligge til grunn der det er mulig.

– Hvis en er ute etter å si noe om effekter, er det ingen vei utenom de randomisert kontrollerte intervensjonene, sier Arne Lervåg.

 

Økonomenes inntreden

Sølvi Lillejord er enig i at bruken av kvantitative metoder øker. Blant annet har mange økonomer gått inn i utdanningsforskningen for å se på effekter av ulike faktorer.

– Men interessen for kvalitativ forskning er fortsatt sterk. Mange foretrekker blandet metode, det vil si studier som både har en kvantitativ og en kvalitativ del, sier Lillejord.

– En del er kritiske til at stadig mer i skolepolitikken og skoleutvikling skal basere seg på hva som kan måles og telles. Er det en fare for at økt fokus på kvantitative data forsterker den utviklingen?

– Nei, jeg tror ikke det. Jeg tror det har begynt å gå opp for politikere at effektmål kan vise hva som hjelper på ett avgrenset område, men å vite hva som har effekt er ikke det samme som å vite hva man skal gjøre for å få god kvalitet, sier Lillejord.

I Kunnskapssenter for utdanning jobber de med store kunnskapsoppsummeringer basert på den beste forskningen.

– Når vi siler ut studier til våre oversikter, sitter vi ofte igjen med flere veldig gode kvalitative studier. For eksempel når det gjelder overgangen mellom barnehage og skole og språk i flerkulturelle barnehager. Skillet går ikke mellom kvalitativ og kvantitativ metode. Skillet går på god forskningskvalitet innen begge metodene, sier Lillejord.

– Påvirkes forskningen også av hva som er på moten å drive med?

– Ja, forskere følger ofte pengene, sånn er det bare. Forskere er også nysgjerrige på å undersøke konsekvenser av utdanningspolitiske tiltak, så politikk vil også påvirke hva det forskes på. At det etableres programmer, for eksempel i Forskningsrådet, som etterspør forskning om bestemte tema, bidrar også til å påvirke profilen på forskningen, sier Lillejord.

Fortsatt er det USA som dominerer forskningen på utdanningsfeltet.

– Men vi ser at Asia kommer stadig sterkere, sier hun.

– Hvordan ligger Norge an?

– Norge ligger fortsatt nokså langt nede på lista.

 

 

 

Nyhetsbrev


Meld deg på!


 
 

 

 

 

Fakta

Randomisert kontrollert forsøk

Regnes som gullstandarden innen forskning for å finne ut om et tiltak har effekt.

At et forsøk er kontrollert betyr at man har to identiske grupper hvor kun en av gruppene får tiltaket som skal testes. Den andre gruppen fortsetter kun som vanlig, eller de får et alternativt tiltak. Deretter sammenlignes resultatene i de to gruppene for å se om tiltaksgruppen har bedre resultater enn kontrollgruppen.

Randomisering betyr at det er trukket tilfeldig hvem som får tiltaket og hvem som ikke får.

Metoden skal sikre at man med størst mulig sikkerhet kan si om tiltaket som testes har effekt, og at denne effekten ikke kommer av andre ting som ikke har med tiltaket å gjøre.

Kjøreregler for debatten

Her kan du kommentere artikkelen.

Utdanning setter pris på friske meningsbrytninger, men vis omtanke for dine med- og motdebattanter, hold deg til saken og bruk fullt navn. Dersom du ønsker å skrive et lengre innlegg, er du velkommen til å sende det til denne adressen: debatt@utdanningsnytt.no.

Hvis du ser kommentarer som du oppfatter som støtende, kan du varsle redaksjonen ved å merke den aktuelle kommentaren som upassende. Det gjør du ved å klikke helt til høyre for kommentaren du vil varsle oss om. (Dette fungerer ikke fra mobil. Vi jobber med en løsning).
Vi forbeholder oss retten til å fjerne innlegg. Kommentarer kan bli brukt på alle Utdannings plattformer.

Fullt navn er en forutsetning for å delta i debatten!

Fakta

Randomisert kontrollert forsøk

Regnes som gullstandarden innen forskning for å finne ut om et tiltak har effekt.

At et forsøk er kontrollert betyr at man har to identiske grupper hvor kun en av gruppene får tiltaket som skal testes. Den andre gruppen fortsetter kun som vanlig, eller de får et alternativt tiltak. Deretter sammenlignes resultatene i de to gruppene for å se om tiltaksgruppen har bedre resultater enn kontrollgruppen.

Randomisering betyr at det er trukket tilfeldig hvem som får tiltaket og hvem som ikke får.

Metoden skal sikre at man med størst mulig sikkerhet kan si om tiltaket som testes har effekt, og at denne effekten ikke kommer av andre ting som ikke har med tiltaket å gjøre.