Når robotene svarer: ChatGPT på medisineksamen

Tekst: Anders Hagen Jarmund, Skjalg Skogmo Ottesen og Andreas Grøndalen (medisinstudenter ved Norges teknisk-naturvitenskapelige universitet (NTNU) i Trondheim)

Generativ kunstig intelligens (KI) ble i 2022 for alvor tilgjengelig for alle. Kan det ha noen konsekvenser for legeprofesjonen? Anders Hagen Jarmund, Skjalg Skogmo Ottesen og Andreas Grøndalen, som er medisinstudenter ved ved Norges teknisk-naturvitenskapelige universitet (NTNU) i Trondheim har undersøkt hvorvidt ChatGPT gir det riktige svaret på en typisk medisineksamen.

For alle teknologi-interesserte vil nok 2022 utpeke seg som det året da en rekke KI-baserte produkter med overraskende høy kvalitet ble gjort tilgjengelig for allmennheten. Innen dette innlegget kommer på trykk, vil nok konkurransen ha utviklet seg ytterligere. Det begynte like over sommeren da bilde-genererende tjenester fikk mye oppmerksomhet (1) - DALL-E (2), Stable Diffusion (3), og MidJourney (4) - og mot slutten av året kom en rekke artikler om den dialog-førende tjenesten ChatGPT fra OpenAI (5). Teknologien er allerede så god at Nature har måttet gå ut og tydeliggjøre at ChatGPT ikke kan regnes som medforfatter (6). Mange i utdanningssektoren har engasjert seg i bruken av disse tjenestene, og bekymringene har særlig dreid seg om vurdering og eksamen (7,8). Kung et al. (9) har allerede rapportert at ChatGPT består eller er svært nær å bestå den amerikanske medisineksamen/USMLE. Vi har her undersøkt hvordan ChatGPT presterer på norsk medisineksamen.

Hva er generativ KI?

De generative KI-tjenestene ser relativt like ut for brukeren: du har et tekst-felt hvor du kan beskrive hva du ønsker (såkalt prompt - vi bruker her ordet forespørsel), og få sekunder etter at man trykker på kjør-knappen så får man ut et ferdig resultat (Figur 1, Tabell 1). Er man misfornøyd, kan man be om en ny generering. Hver slik generering er basert på store statistiske modeller som igjen er bygget på enorme mengder treningsdata. Resultatet man får ut bygger altså på eksisterende data, men er likevel unikt og originalt. Firmaene som står bak gir en ofte vide bruksrettigheter på innholdet, selv om de opphavsrettslige sidene ved bruken av treningsdataene fortsatt er uavklart.

**Figur 1:** Generativ kunstig intelligens kan produsere data av flere typer, inkludert bilder. Disse tre bildene er generert ved hjelp av enkle tekstbeskrivelser. Bilder av Anders Hagen Jarmund via DALL-E 2 (OpenAI).

Det er viktig å være klar over at disse modellene først og fremst er statistiske språk-modeller. Hvordan forespørselen formuleres (prompt engineering) har stor betydning for modellens respons. At den først og fremst er trent på språk gjør for eksempel at den har svært begrensede matematiske evner. Det betyr også at modellen ikke nødvendigvis vet hva som er sant eller ikke, bare hvilke ord som statistisk sett hører sammen - man kan nærmest snakke om konfabulering. Selv om enkelte modeller er laget for å kunne henvise til kildene sine , kan man også risikere at modellen bare genererer egne referanser som høres plausible ut. Foreløpig er ChatGPT “[f]luent but not factual” (10). Tabell 2 demonstrerer dette fenomenet.

“Det betyr også at modellen ikke nødvendigvis vet hva som er sant eller ikke, bare hvilke ord som statistisk sett hører sammen”

ChatGPT cand.med.?

Vi ønsket å undersøke hvorvidt ChatGPT var i stand til å gi meningsfulle og riktige svar på en typisk medisineksamen. Vi gikk derfor systematisk igjennom to oppgavesett fra NTNU, hvorav ett ble testet i både norsk og engelsk oversettelse. Både metode og datamateriale er gjort tilgjengelig via Open Science Framework (11). ChatGPT var ikke i stand til å bestå noen av oppgavesettene og skår varierte mellom 43 og 51% (stågrense 65%). Noen eksempler på både gode og dårlige svarforslag er gitt i Tabell 3.

Selv om ChatGPT foreløpig ikke ser ut til å kunne bestå medisineksamen, kan det likevel være et svært nyttig verktøy. Tjenesten er godt egnet til oppgaver som å oppsummere tekster, revidere språk og foreslå språklige forbedringer (særlig på engelsk), eller forklare en tekst med andre ord (10). Gjennom å spesifisere forespørselen kan resultatet tilpasses gitte målgrupper og sammenhenger.

Denne teknologien utvikler seg raskt og teknologi-miljøet er delt i hva fremtiden vil bringe: Noen frykter for jobben sin, mens andre mener fenomenet er en hype. Det som er sikkert er at disse tjenestene nå er tilgjengelige for folk flest - også medisinstudenter, leger, og pasienter. Vi må være forberedt på at pasienter konsulterer slike tjenester; for noen kan en falsk betrygging medføre at man ikke oppsøker nødvendig helsehjelp, for andre kan svarene en får skape bekymring, og for atter andre kan slike tjenester bli en trøst i møte med ensomhet eller en kilde til opplevd støtte. I bakhodet må vi også ha at det er kommersielle selskaper som står bak. Som samfunn må vi forberede oss: Når robotene (snart) svarer, hva vil vi de skal si?

Referanser

1. Li X. Se bildene som forbløffer verden [Internett]. NRK. 2022 [sitert 5. februar 2023]. Tilgjengelig på: https://www.nrk.no/kultur/er-dette-fremtidens-kunst_-1.16048335

2. DALL·E 2 [Internett]. OpenAI. [sitert 5. februar 2023]. Tilgjengelig på: https://openai.com/dall-e-2/

3. Stable Diffusion Public Release [Internett]. Stability AI. [sitert 5. februar 2023]. Tilgjengelig på: https://stability.ai/blog/stable-diffusion-public-release

4. Midjourney [Internett]. Midjourney. [sitert 5. februar 2023]. Tilgjengelig på: https://midjourney.com/

5. Eriksen D. Lærere fortvilet over ny kunstig intelligens [Internett]. NRK. 2022 [sitert 5. februar 2023]. Tilgjengelig på: https://www.nrk.no/kultur/laerere-fortvilet-over-ny-kunstig-intelligens-1.16210580

6. Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Nature. 24. januar 2023;613(7945):612–612.

7. Arnesen M. Universiteter oppdaget robotsvar på eksamen [Internett]. 2022 [sitert 5. februar 2023]. Tilgjengelig på: https://khrono.no/universiteter-oppdaget-robotsvar-pa-eksamen/746164

8. Arnesen M, Svendsen NV. Chatbot løste eksamensoppgave på få sekunder. Fikk karakter B [Internett]. 2022 [sitert 5. februar 2023]. Tilgjengelig på: https://khrono.no/chatbot-loste-eksamensoppgave-pa-fa-sekunder-fikk-karakter-b/740911

9. Kung TH, Cheatham M, ChatGPT, Medenilla A, Sillos C, Leon LD, mfl. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models [Internett]. medRxiv; 2022 [sitert 5. februar 2023]. s. 2022.12.19.22283643. Tilgjengelig på: https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2

10. Stokel-Walker C, Van Noorden R. What ChatGPT and generative AI mean for science. Nature. 6. februar 2023;614(7947):214–6.

11. Jarmund AH. Medisineksamen og kunstig intelligens. 8. desember 2022 [sitert 7. februar 2023]; Tilgjengelig på: https://osf.io/6dczk/

Når robotene svarer: ChatGPT på medisineksamen

Er minoriteter i Norge mer utsatt for psykiske plager?

Hvilke tiltak er iverksatt for å forebygge diskriminering i helsevesenet?