Dataeksplosjonen fremmer forskningen

Før i tiden ruget forskerne på sine egne data. Nå skal de deles med hele verden.

ENDRER FORSKNINGEN: Universitetet i Oslo tar nå et krafttak for at flere forskere skal kunne kombinere og analysere store mengder data og samtidig dele sine egne forskningsdata med resten av verden. Illustrasjon: Adrian Storm

I mange hundre år har teorier og eksperimenter  vært de to grunnpilarene i vitenskapen. For noen tiår siden ble beregningsorientert vitenskap det tredje paradigmet innen vitenskapelig metode. Nå er den dataintensive vitenskapen blitt det fjerde paradigmet.

– Forskere over hele verden genererer enorme mengder data hver dag. Deling av forskningsdata er en helt ny måte å tenke på, forteller forskningsdekan Svein Stølen på Det matematisk-naturvitenskapelige fakultet ved Universitetet i Oslo.

Rektor Ole Petter Ottersen poengterer at deling av forskningsdata kan gagne hele verdenssamfunnet og være med på å løse store samfunnsproblem-er, alt fra fattigdom og energi til helse og global oppvarming.

– Forskningsdata vil ta over etter oljen som en av våre viktigste og “grønneste” ressurser. Vi står dessuten foran en unik mulighet til å “demokratisere” vitenskap og infrastruktur, slik at vi også kan få med de nasjonene som har blitt hengende etter i den økonomiske og teknologiske utviklingen, påpeker Ottersen.

Enorme mengder

Noen fagområder genererer enorme mengder data i løpet av et år. Èn enkelt DNA-sekvenseringsmaskin produserer tjue ganger mer data i løpet av ett eneste år enn den samlede datamengden i det amerikanske kongressbiblioteket. Et solobservatorium kan i løpet av ett år laste ned tre hundre tusen ganger mer data enn det som er plass til på harddisken din.

Også små datamengder kan volde hodepine.

– Noen forskere har kanskje ikke så mange data, men dataene deres er ofte fordelt i så mange skuffer og skap at de ikke har oversikt over hvor de er og hvilken versjon som gjelder. Så løsningen er ikke bare mer diskplass, men også et bedre system for å systematisere dataene, poengterer Hans Eide i Seksjon for IT i forskning ved UiO.

IKKE NOK: – Mer diskplass løser ikke alt. Det er vel så viktig at forskerne får et bedre system til å holde orden på dataene sine, poengterer Hans Eide. Foto: Yngve Vogt

I dag deles mye forskningsdata i dropbox og tilsvarende gratisløsninger.

– Da deler du kanskje dataene med tjue andre, men ingen andre forskere vet at disse dataene finnes. Så dropbox løser ikke problemet, fremhever Hans Eide.

EU anbefalte i 2012 medlemslandene sine å utvikle retningslinjer for å åpne tilgangen til alle forskningsdata.

Et utvalg ved UiO som nylig har undersøkt hvilke muligheter dataeksplosjonen gir, slår fast at de fleste UiO-forskerne i dag ikke har noen bevisst holdning til lagring og deling av data. Dessuten er kunnskapen deres for liten om hvordan dette kan la seg gjøre.

– Forskerne må få de verktøyene og den kompetansen som trengs for å være med i fremste rekke. Løsningen må fungere globalt og for alle forskere, uansett hvor i verden de befinner seg. Det må være lett å gjenfinne dataene. Og løsningen må dessuten være slik at den enkelte forsker ser større fordeler enn ulemper ved å dele dataene sine, konkluderer utvalgets leder, Svein Stølen.

Kan hindre juks

Når alle forskningsdata bevares, blir det mulig å dobbeltsjekke resultatene. Lagring av data kan derfor bli en garanti mot forskningsjuks.

– En stor andel av de resultatene som publiseres i dag, lar seg ikke reprodusere når andre forskere etterprøver dem. Dette er skadelig for forskningens omdømme. Gode systemer for å lagre og gjøre dataene tilgjengelige, er den beste oppskriften på å sikre at forskningen holder høy standard og at den lar seg etterprøve av andre, påpeker Ole Petter Ottersen.

For ni år siden ble Jon Sudbø avslørt for å ha jukset med dataene sine. En del av dataene var oppkonstruerte.

– En av mulighetene med å dele forskningsdata, er nettopp å unngå flere Sudbø-skandaler, poengterer Svein Stølen.

I 1998 slo den britiske forskeren Andrew Jeremy Wakefield fast at vaksinen mot meslinger kunne føre til autisme. Saken ble slått opp i det anerkjente, vitenskapelige tidsskriftet Lancet. Wakefield ble fratatt legelisensen i 2010.

– Artikkelen var juks. Hele studien var grunnløs. Wakefield hadde bare tolv forsøkspersoner. Hvis dataene hadde vært lagt ut med en gang, kunne andre umiddelbart ha etterprøvd om resultatet var korrekt eller ei, poengterer rådgiver Margaret Fotland i Seksjon for forvaltning av forskning og utdanning.

Veien videre

UiO kan ikke finne opp hjulet alene. Ettersom forskningsdataene skal deles med hele verden, må metadataene merkes etter en internasjonal standard.

En annen stor utfordring er håndteringen av personvern.

– UiO har egne datasystemer som er spesielt tilrettelagt for å ta vare på sensitive data. Spørsmålet er hvordan disse forskningsdataene kan anonymiseres og deles med andre, sier Fotland.

– Når er Norge klar til å dele forskningsdata med hele verden?

– Dette er langsiktig arbeid, så det er umulig å si når alt vil være “på plass”. Men det er viktig å prioritere dette arbeidet, fordi det vil løfte forskningen ved vår institusjon både i omfang og kvalitet. Ikke minst er dette arbeidet viktig for å sikre god dokumentasjon og reproduserbarhet i forskningen, sier Ole Petter Ottersen.

Universitetsbibliotekene skal bli en viktig del av den nye datadelingen. Bibliotekarene er eksperter på å hjelpe forskere med å finne egnet litteratur. Nå skal de også hjelpe forskerne med å finne andres data og lagre egne data.

– Da trengs et datasystem som kan håndtere hvilke vitenskapelige publikasjoner som har brukt hvilke datasett, sier Fotland.

Datasettene må dessuten være lesbare selv om teknologien hele tiden endrer seg.

– Dataene må merkes med metadata, slik at de blir mulig å finne igjen. En av oppgavene våre blir å gi råd til forskerne om hvordan de bør samle inn dataene systematisk. Da er det mye lettere å dele dem etterpå. Arbeidsvanene deres er viktige. Hvis de begynner med kaos, er det vanskeligere å sette på beskrivelser til slutt, forteller universitetsbiblio-tekar Live Kvale ved UiO.

Statssekretær Bjørn Haugstad i Kunnskapsdepartementet påpeker at departementet allerede har tatt noen grep, men at det fortsatt gjenstår mye for å sikre lagringen av og dele de vitenskapelige dataene. Samtidig påpeker han det forskningsetiske ansvaret; at alle forskerne selv må kjenne til reglene om taushetsplikt, personvern og opphavsrett, før de bestemmer seg for hvilke data som kan deles.

Av Yngve Vogt
Publisert 14. aug. 2015 11:00
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere