Kunstig intelligens er et angrep på kunnskap

Debatt: Å bruke språkmodeller som ChatGPT som kunnskapskilde svekker vår evne til å vurdere informasjon kritisk. 

KI kunstig intelligens chatgpt
Publisert

Å bruke språkmodeller som ChatGPT som kunnskapskilde svekker vår evne til å vurdere informasjon kritisk. Elever som venner seg til dette tidlig, vil trolig fortsette med det som voksne.

Det er ikke vanskelig å se at normativ bruk av KI på denne måten er en motsigelse av formålsparagrafen til opplæringslovens kapittel 1.3: «Elevene skal kunne vurdere ulike kilder til kunnskap og tenke kritisk om hvordan kunnskap utvikles». Dersom skolen, Google, Bing, foreldre og voksne sammen fremstiller tekster hentet fra kunstig intelligens som troverdig, så blir det utrolig vanskelig for skolen å også fremstille kildekritikk som verdifull praksis uten at det fremstår som hykleri.

Daglig blir elever servert svar fra Google og Bing uten engang å trenge å trykke på en nettside. Hvordan kan vi overbevise elever om at det finnes verdi i kildekritikk når vi daglig også bruker disse kildene for å få svar? Det er ikke bare vår feil: Google og Microsoft har plassert KI i svarene på toppen av søkevindu et, i appene vi bruker, og i automatiske oppsummeringer. De ønsker ikke at vi skal bruke andre kilder. De vil normalisere dette, samtidig setter de i liten skrift at de ikke tar noen ansvar for feil i de KI-genererte svarene.

Dermed leser og bruker vi tekster som intet menneske har skrevet og ingen tar ansvar for, og bruker dette til å forklare verden rundt oss. For å utforske hvorfor du ikke bør bruke utdata fra språkmodeller i kunnskapsutvikling, kan vi bruke et eksisterende rammeverk og kritisk metodikk for å undersøke en arbitrær tekst ge nerert av ChatGPT. Folk bruker ChatGPT til så mangt, men det kan ofte oppsummeres som et forsøk på å lære noe nytt. Det faktiske innholdet i teksten som modellen spytter ut, betyr ikke så mye for vår analyse.

Enkel analyse

Ifølge Store norske leksikon er kildekritikk i sin aller enkleste form å stille to enkle spørsmål, nemlig:

  • Hvem er kilden?
  • Hvor troverdig er det som sies akkurat her?
  • Jeg liker denne formen fordi den er en enkel form av kildekritikk du kan lett repetere i dagliglivet. Og jeg anbefaler å øve denne muskelen, så vi lettere kan oppdage sammen hvorfor KI-generert materiale ikke er egnet for våre hensikter. Da starter vi!

Hvem er kilden?

Dette er et overraskende vanskelig spørsmål med KI, og kan egentlig bare besvares dersom en har en basisforståelse for hvordan disse modellene fungerer: Alle generative KI-modeller som spytter ut lyd, tekst, bilde eller video, har blitt trent på en massiv mengde data, ofte hentet fra Internett. En samling av kildedata for en KI-modell kalles korpus. Språkmodeller, ofte forkortet som «LLM» for «Large Language Model», setter sammen ord basert på den statistiske sannsynligheten av at disse ordene eksisterte i nærhet av hverandre i korpus. 

Et typisk eksempel på korpus er: millioner av bøker (både romaner og sakprosa), millioner av transkripsjoner av Youtube-videoer, nettsider av alle slag som Wikipedia, 4chan, Reddit, forumer, blogger, nyhetsnettsider og lignende. Det er enkelt å tro at KI-modeller er trent på et korpus av all menneskelig kunnskap, men det er de ikke! Dette er primært engelskspråklige tekster som har gått gjennom mange forskjellige filtre, påvirket av hvor lett tilgjengelig disse tekstene var ved treningen av KI-modellen. ChatGPT, Gemini, Claude og andre språkmodeller er ikke kilder. 

Kildene er i det originale korpuset, og dette korpuset er ukjent for deg som leser. Dette gjør det umulig for deg som leser å vurdere kilden. Det beste en kan si, er at kilden er en blanding av et ukjent stort korpus av data pluss flere ledd med filtrering, trening, overskriving av statistikk basert på fordommer, livserfaringer og blindsoner til en håndfull primært mannlige utviklere mellom 20–35 år i Silicon Valley. Over tid vil mye av informasjonen som lastes opp på Internett være generert av språkmodeller som styrker disse fordommene, og disse tekstene blir det nye korpus for neste generasjon.

Hvor troverdig er det?

Den statistiske sannsynligheten av at to ord eksisterer nær hverandre i korpuset, har ingenting å gjøre med troverdigheten eller sannheten til teksten. Det viser bare hvor ofte teksten har blitt repetert i korpuset som modellen er trent på, og påvirker hvor ofte de genereres ved siden av hverandre. Begrepet «hallusinasjon» har blitt populært i kontekst av språkmodeller, men dette begrepet gjør det vanskeligere å forstå hva som skjer.

Det som skjer når en modell spytter ut sann og usann tekst, er nøyaktig det samme. Den har funnet et statistisk svar i begge tilfeller. Det er du, og ikke maskinen, som hallusinerer og skaper mening av genererte tekster. Dersom teksten som genereres av språkmodellen samsvarer med virkeligheten, så er det et heldig sammentreff. Og hvis du ikke allerede er kunnskapsrik i emnet, så vil du ha det vanskelig å bedømme om det stemmer.

Disse modellene skapes og drives av noen av de mektigste selskapene og rikeste individene i verden. De har geopolitiske interesser og har mye å tjene på å kontrollere og være de nye primærkildene til allmenn kunnskap. Et tragikomisk eksempel er Elon Musks sine forsøk på å få Grok til å snakke mer om en oppfunnet politisk sak: «folkemord av hvite bønder i Sør-Afrika» og «kollaps av fødselsrater», temaer han er personlig besatt av.

Fordommer og rasisme

Modellene arver fordommer, kjønnsholdninger og rasisme innebygd i korpuset og fra skaperne. Mange som har benyttet seg av billedgeneratorer opplever at den kun genererer hvite menn dersom en ber om et menneske, eller genererer afroamerikanere dersom du ber om et bilde av en kriminell person.

Tekst uten skribent

Normal kildekritisk tenkning blir nesten banalt når vi prøver det på KI-genererte tekster. Det blir en pinlig og nytteløs øvelse å vurdere teksten i seg selv. Vi må gjøre en slags metaanalyse av hvordan teksten ble skapt, gjennom en nesten utmattende avansert digital og abstrakt prosess hvor vi ikke kan detaljene:

  • Vi kan ikke tenke direkte på personen bak, deres livserfaringer, deres insentiver eller ekspertise. 
  • Vi kan ikke tenke på statusen til publikasjonen hvor skribenten jobber, og deres rolle som institusjon. 
  • Vi kan ikke tenke på de sosiale forventningene eller normene på forumet hvor teksten befinner seg, og hvordan det påvirker målformen. 

Nei, ved å bruke kildekritikk blir vi i stedet tvunget til å vurdere et abstrakt korpus som vi verken har lest eller sett. Vi må gjøre hoderegning og stole på den statistiske sannsynligheten av at det en leser er sant og at modellen sitt korpus kanskje inneholder nok nyttig informasjon om emnet, og at det blir servert til deg.

Alt dette kognitive arbeidet bare for en tekst som ingen engang har tatt seg bryet med å skrive selv. Kunstnerisk initiativ for regulering av kunstig intelligens (KIKI), som jeg er en del av, kjemper for at det blir lovfestet beskyttelse av kunst, kultur og kunnskapsarbeidere, slik at deres arbeid ikke blir misbrukt i kampen om ødeleggelsen av våre felles kritiske læreferdigheter. Dette er noe vi alle kan kjempe imot hjemme, på skoler og arbeidsplasser, ved å bruke helt normal kritisk sans.