Kunstig intelligens: Avslører sykdom før symptomene kommer

Kroppens måte å bekjempe virus og bakterier på, er nesten ufattelig komplisert. Er det mulig å forstå mer med kunstig intelligens – og avsløre sykdom før symptomene kommer?

Når immunsystemet kombineres med kunstig intelligens, er det mulig å forstå mer. Illustrasjon: Apollon. Underlagsbilder: Colourbox

– Jeg leter etter problemer som er så vanskelige at det bare er avansert maskinlæring som kan løse dem, forteller professor Geir Kjetil Sandve på Institutt for informatikk.

Selv er han en av Universitetet i Oslos fremste forskere på kunstig intelligens. Han samarbeider med forskere fra flere fagfelt, blant dem medisinere.

– Det var slik jeg snublet over immunsystemet. Dette systemet er så sofistikert at det vil kreve årevis med systematisk, metodisk forskning fra et helt felt av maskinlærere å nøste opp i det, erkjenner Sandve.

«Det er nesten like mange potensielt forskjellige antistoffer som det er atomer i universet.»

Lange lenker

Når et virus eller en bakterie invaderer kroppen vår, blir målrettete tiltak satt i gang for å ødelegge den ubudne gjesten. Det skjer framfor alt gjennom produksjon av noen spesielle proteiner, nemlig antistoffer.

Proteiner er, som vi vet, bygd opp av aminosyrer. Det finnes 20 forskjellige typer av dem. De kan kombineres på enormt mange ulike måter og med ulike lengder. Aminosyrer binder seg nemlig sammen i lange lenker. Hvert protein har en unik rekkefølge av aminosyrer, bestemt etter oppskrift fra genene. Immuncellene har et protein som likner antistoffer.

Et kort ord

– Jeg jobber med å forstå reglene for hvordan en immuncelle gjenkjenner en trussel – et virus, en bakterie, eller i noen tilfeller – en misforstått trussel som fører til autoimmun sykdom, som leddgikt, diabetes type 1 og cøliaki, forteller Sandve.

Måten antistoffene gjenkjenner virus og bakterier på, er helt spesiell. Hver enkelt immuncelle vet nøyaktig hva den skal reagere på blant en helt enorm mengde trusler.

– Men utrolig nok: all informasjonen som trengs for å greie det, er i hovedsak lagret i en omtrent 15 bokstaver lang sekvens. Denne delen av immuncellens ‘antistoff’ kalles Complementarity-determining region 3, forkortet CDR3, opplyser han, og legger til at navnet ikke er tilfeldig: Det er nettopp denne delen av immuncellens antistoff som avgjør hvilke farer som blir gjenkjent.

BARE ÉN BLODPRØVE: Maskinlæring finner mønstre som immunforsvaret har lagd, og som avslører sykdom. – Målet vårt er at det om noen år er mulig å sjekke for hundrevis av forskjellige sykdommer basert på én enkelt blodprøve, sier Geir Kjetil Sandve. (Foto:Trine Nickelsen)
 

– Vi kan gi hver av de 20 forskjellige aminosyrene en bokstav. Det betyr at hver eneste immuncelle reagerer på akkurat det den skal, ut fra en tekstlinje som er bare 15 bokstaver lang.

Men er dette noen stor utfordring for forskerne? Er det ikke da bare snakk om å analysere 15 bokstaver, og ut fra de 15 bokstavene finne ut om immuncellen gjenkjenner et bestemt virus eller en bakterie – og dermed kan sette i gang sitt motangrep?

– Det høres kanskje enkelt ut. Men vi må huske at immunsystemet kan gjenkjenne milliarder ulike ting – og det altså bare med et slikt 15 bokstaver lang ord.

Atomer i universet

For at så korte ord skal kunne gjenkjenne så mye ulikt, må det være slik at selv små endringer i ordene fører til at noe helt annet blir gjenkjent.

– Var ordene derimot kjempelange, kunne de være ekstremt forskjellige. Da hadde det vært mye lettere for oss å lære å skille dem fra hverandre. At de er så korte, er akkurat det som gjør det så vanskelig å bestemme hva en bestemt immuncelle kan gjenkjenne av inntrengere, erkjenner forskeren. 

Sandve ber oss se matematisk på det. Som sagt, antistoffer er proteiner som består av aminosyrer – byggeklosser det finnes 20 forskjellige utgaver av. Hvis vi tenker på hvor mange ulike ord du kan skrive av noe som er 15 bokstaver langt, blir det 20 muligheter på den første plassen, 20 på den neste, og så videre fram til den femtende plassen.

– Multipliserer vi dette, får vi en anelse om hvor svimlende komplekst immunsystemet vårt er: Det gir oss nesten like mange potensielt forskjellige antistoffer som det er atomer i universet.

Gjør feil

Men immunsystemet kan også gjøre feil. Uheldigvis gjenkjenner det ting i kroppen som det oppfatter som inntrengere, men som i virkeligheten er kroppens eget vev. Da oppstår autoimmune sykdommer, som leddgikt, diabetes type 1 og multippel sklerose.

Selv har Sandve spesielt jobbet med cøliaki. Dette er en betennelsessykdom i tynntarmen. Sykdommen blir utløst av gluten – som immunceller oppfatter som en trussel. Feilen gjør at immunforsvaret i tarmen bli satt i gang.

Målet til Sandve og kollegene er å forstå mer om sykdomsprosessen og utvikle mye måter å stille diagnosen på – begge deler basert på analyse av mønstre i de korte bokstavsekvensene som avgjør hva immuncellene kjenner igjen av trusler. Men likevel er det ikke slik at bare én sekvens gjenkjenner gluten. Nei, det gjør masse ulike sekvenser av de 15 bokstaver lange ordene.

Leter etter mønstre

Rommet for variasjon er enormt. Det er ikke som med Visa-kortet ditt: Endrer du ett siffer, kan du ikke lenger betale med det. Kroppen derimot, er ikke avhengig av å lage en helt fast bestemt sekvens – rekkefølge på bokstavene. Det er faktisk en helt enorm mengde ulike sekvenser som kan gjenkjenne gluten, eller influensavirus eller hva det skal være.

– Samtidig vet vi at fra naturens side fungerer immungjenkjenningen svært presist og forutsigbart. Derfor burde det være mulig å finne mønstre for hvilke immunceller som gjenkjenner hva. I virkeligheten foregår dette ved at molekyler binder seg til hverandre. En intuitiv strategi er derfor å studere molekylene på atomnivå, sier Sandve.

Men det er enklere sagt enn gjort.

– Selv om formler fra kvantemekanikk i prinsippet gjør det mulig å beregne om ett molekyl vil feste seg til et annet, vil det i praksis kreve mange år med tungregning å finne ut hva hvert enkelt antistoff gjenkjenner.  

Proteinet i 3D

Antistoffer er som vi vet proteiner. Det er antistoffenes helt bestemte tredimensjonale form som gjør dem i stand til å binde seg til ulike virus og bakterier. Et protein dannes når alle stoffene i proteinet setter seg sammen og spontant folder seg til en komplisert origami-struktur. Hva slags funksjon proteinet vil ha, blir bestemt av hvordan denne strukturen blir seende ut.

Å beregne den endelige formen til et protein er en enorm utfordring – hvordan det bretter, folder og krøller seg sammen – og interagerer med andre proteiner. Men maskinen AlphaFold, som Science kåret til årets forskningsgjennombrudd i 2021, klarer det i løpet av sekunder.

Men det gjelder likevel ikke alle proteiner.

– Egenskapene til antistoffene er så spesielle, og måten de gjenkjenner virus på såpass subtil, at disse beregningene ikke fungerer, i alle fall ikke ennå, forteller forskeren.

"At dyp læring åpner for å utvikle skreddersøm og utfolde sin kreativitet, tror jeg ikke så mange tenker på."

Isteden prøver Sandve og kollegene å finne mønstrene for hva immuncellene gjenkjenner basert på maskinlæring.

– Selv om vi ikke simulerer atomer direkte, husker vi nettopp på at antistoffene egentlig er strukturer som fester seg til virus og bakterier i det tredimensjonale rommet.

Men, hvordan oppstår mønstrene forskerne leter etter i de 15 bokstaver lange sekvensene?

– Måten antistoffer og virus krøller seg til romlige molekyler på, og måten atomkreftene virker mellom disse molekylene, er det som gir mønstrene for hva immuncellene gjenkjenner blant de ubudne gjestene, påpeker han.

Før symptomene kommer

Immuncellene har ikke bare i oppgave å bekjempe inntrengere under en infeksjon. Immunsystemet har også et minne, som gjør at vi slipper å få samme sykdom igjen.

– Når immunsystemet bekjemper en sykdom, eller bare har møtt et eller annet i kroppen vår, legges det igjen noen celler som lever videre og holder på denne informasjonen. Tar vi en blodprøve, får vi med oss en god del slike minneceller på kjøpet. De kan fortelle om en sykdom som er akutt akkurat nå, men også om sykdommer som lurer i bakgrunnen.

Kanskje har du en sykdom du ikke er klar over, en autoimmun sykdom? Da har trolig noen immunceller allerede begynt å ødelegge litt vev i noen deler av kroppen din, men uten at du merker det.

– I stedet for å spørre hva en bestemt immuncelle gjenkjenner, spør vi heller: Hvis vi tar ut en million slike celler, finner vi tegn på en eller annen sykdom? Da kan vi sjekke for en lang, lang rekke sykdommer.

Sandve viser til at den fullstendige kartleggingen av menneskets samlete arvemasse kom for drøyt 20 år siden. Da ble det mulig å finne ut om den enkelte av oss har økt risiko for en sykdom å bruke en DNA-test.

Men nå er det ikke lenger bare snakk om å vurdere risiko – men slå fast om du faktisk har en sykdom som pågår i kroppen.

– For seks-sju år siden fikk vi muligheten til å ta en blodprøve og ut fra blodprøven sjekke hvilke immunceller du har og om du allerede har sykdommen og derfor sammsynligvis vil merke symptomene innen få år.   

Det er ingen sjans for en kliniker å få dette til på laboratoriet. Sandve og kollegene har derfor utviklet maskinlæringsverktøyet de har gitt navnet immuneML, som ligger ute åpent tilgjengelig. Ved å analysere blodprøven ved hjelp av maskinlæring finner forskerne mønstrene som pasientens immunsystem har lagd.

– Målet vårt er at det i framtiden skal være mulig å sjekke for hundrevis av forskjellige sykdommer basert på én enkelt blodprøve. En datamaskin ser etter mønstre knyttet til mange ulike sykdommer samtidig, også kreft. Det samme verktøyet kan også brukes for å lære slike mønstre.

I forskningsgruppa hans, Sandve Lab, foregår mye av programmeringen.

Dyp læring er skreddersøm

Sandve peker på at det finnes mange ulike maskinlæringsmetoder. Dyp læring og nevrale nettverk er det som er mest populært nå. ChatGPT er basert på slike nevrale nettverk. De kalles svarte bokser, i motsetning til andre tilnærminger som regnes for å være mer åpne og transparente.

– For meg som utvikler forholder det seg faktisk motsatt. Det er den dype læringen som er transparent, og som gir meg muligheten til å spekulere og bruke kreativiteten min.

Professsoren sammenlikner den dype læringen med en god, gammeldags mekanisk klokke med mange ulike tannhjul.

– De kan jeg flytte rundt på for at klokken blir best mulig tilpasset behovene mine. Den vanlige, tradisjonelle maskinlæringen derimot, er som en boks som er limt sammen, og som derfor vanskelig lar seg åpne og mekke på.  

Sandve gir oss et eksempel:

– La oss ta det med å bestemme om en pasient har en gitt sykdom ut fra en blodprøve: Med en del av maskinlæringsmetodene jeg brukte for 20 år siden, ville jeg prøvd fem ulike metoder, sett hvem av dem som virket best, og eventuelt forsøkt å vri litt på dem. Mulighetene til å tilpasse metoden til problemet, var likevel begrenset.

Da fungerer den dype læringen på en annen måte.

– Først tar jeg det jeg vet om immunceller: Jeg vet at cellenes antistoff, som er proteiner, består av en om lag 15 bokstaver lang sekvens. Jeg vet at proteiner bretter seg opp i tredimensjonale strukturer. Jeg vet også at aminosyrene, alle disse molekylene eller bokstavene som ligger nær hverandre i éndimensjonale lenker, havner nær hverandre også når proteinene bretter seg i tredimensjonale strukturer.

– Derfor tror jeg at bokstaver som ligger nær hverandre, virker sammen, at de gir en kombinasjonseffekt eller synergi. Da kan jeg legge inn en komponent i min dype lærings-modell, nemlig det vi kaller et konvolusjonelt lag.

Sandve ber oss tenke på dyp læring som et byggverk i Lego.

– Da er dette konvolusjonelle laget en legokloss som utnytter akkurat dette at bokstaver som havner nær hverandre, samvirker for å kunne oppdage en helt bestemt inntrenger blant milliarder andre.  

Bygger med Lego

Immuncellene som Sandve og kollegene spesielt har vært på jakt etter, er altså de som gjenkjenner cøliaki. Han viser til at blant millioner av immunceller i en blodprøve, er det svært få som har noe å si for cøliaki – immunsystemet har jo så mange ulike trusler å ta seg av.

– Når jeg bruker dyp læring, kan jeg, i stedet for å se på et generelt gjennomsnittstrekk ved alle cellene, heller rette oppmerksomheten min inn mot et fåtall celler som virker mest aktuelle. Dessuten vil kollegene mine og jeg lære oss hvilke få celler vi bør kikke på, forteller forskeren.

– Da kan jeg bruke en annen type legokloss, som på engelsk går under betegnelsen tansformers. Til slutt legger jeg til en tredje type legokloss, som vi kaller et fullt sammenkoblet lag. Det kan trekke ut signalene som forhåpentligvis har oppstått gjennom de første to klossene – for å predikere om en pasient har cøliaki eller ikke.

Dermed har Geir Kjetil Sandve lagd seg et unikt Lego-byggverk som gjennom en kombinasjon av tre nøye utvalgte klosser, er skreddersydd til forståelsen han har av problemet.

Skreddersøm

– At dyp læring åpner for å utvikle skreddersøm og utfolde sin kreativitet, tror jeg ikke så mange tenker på.

– Nå håper at stadig flere blir oppmerksom på mulighetene dette gir for å løse komplekse problemstillinger innen medisin og andre fagområder – og at vi kan ha det moro mens vi gjør det. 

Av Trine Nickelsen
Publisert 12. feb. 2024 07:00
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere