Er medisinerne de eneste som kan forske?

Ved evaluering av forskning brukes ofte siteringer av vitenskapelige arbeider som et holdepunkt for forskningens kvalitet. Per O. Seglen, forsker ved Det Norske Radiumhospital, har i mange år arbeidet med siteringer og siteringsstatistikk. Han mener at disse ikke kan brukes til evaluering av forskning. Skal en måle forskningskvalitet, er det ingen vei utenom et direkte studium av publiserte forskningsresultater, foretatt av personer med faglig innsikt i den spesielle typen forskning som skal vurderes, skriver Seglen.

Filologene vil aldri kunne komme med på en slik liste. Det er enorme forskjeller i fagområdenes siteringspraksis og i hvilken grad forskjellige fag dekkes av databasen, sier Per O. Seglen. (Foto: Ståle Skogstad ©)

«Medisinarane ved Universitetet i Oslo mest siterte» kan en lese i Apollon nr. 6/96. Det refereres til en «ti-på-topp»-liste fra det amerikanske Institute for Scientific Information (ISI),som viser hvilke norske forskere som ble mest sitert i tidsrommet 1981-1995 (gjengitt i anonymisert og utvidet form som tabellen). «Siteringar av vitskaplege arbeid gjev eit haldepunkt for forskingskvaliteten», skriver Apollon og konkluderer med at «dette (...) viser at medisinsk forsking ved Universitetet i Oslo held høg kvalitet». Alle ti på ISI-listen arbeider innen medisinsk forskning (og det gjør antakelig de neste ti også), men er det virkelig bare medisinere som driver forskning av høy kvalitet? Hvor er matematikerne, fysikerne, samfunnsviterne og filologene? En kan få en snikende mistanke om at noe ikke stemmer, og det gjør det da heller ikke.

Enorme forskjeller mellom fag

Filologene vil aldri kunne komme med på en slik liste, for her er det ikke bare, som Apollon skriver, «til ein viss grad den ulike publikasjonskulturen» som gjenspeiles, men enorme forskjeller både med hensyn til fagområdenes siteringspraksis og i hvilken grad forskjellige fag dekkes av databasen. ISI-databasen registrerer bare siteringer (dvs. referanser) i tidsskriftartikler, ikke i bøker (som filologene benytter seg mye av) og er i hovedsak en database for naturvitenskapene. Databasen er sterkt dominert av amerikansk forskning (som fortrinnsvis siterer amerikanske forskere og deres samarbeidspartnere) og av engelskspråklige tidsskrifter, dvs. det er nesten bare såkalt internasjonal publisering som teller med. Et sterkt internasjonalisert fagfelt som biokjemi vil derfor være godt dekket i databasen, mens for eksempel biologisk systematikk og faunistikk, som ofte har nasjonalt preg, vil ha en lav dekningsgrad.

Fag som bruker mange referanser i artiklene, vil få høy siteringshyppighet, noe som gjør at biokjemikere i gjennomsnitt siteres dobbelt så mye som matematikere. I raskt ekspanderende fag vil det være forholdsvis mange siterende forfattere i forhold til mengden siterbart materiale og derved oppstår en pyramidespilleffekt som gir høy siteringshyppighet. Grunnleggende fag med store nedslagsfelter får også høy siteringshyppighet: medisinsk grunnforskning siteres for eksempel mange ganger så hyppig som praktisk medisinsk forskning, fordi den praktiske forskningen benytter grunnforskningens resultater og metoder, men ikke omvendt. Det er derfor ingen tilfeldighet at det er medisinsk grunnforskning med praktisk relevans som dominerer «ti-på-topp»-lista. Valget av faglig spesialitet vil altså på forhånd bestemme om en forsker vil ha mulighet til å bli hyppig sitert eller ikke.

Ikke mål på forskningskvalitet

Forholdet mellom grunnleggende og praktisk medisin forteller oss noe om hva siteringer egentlig representerer: de er ikke noe kvalitetsmål, men primært et mål for nytteverdi innen forskning (vi refererer til bakgrunnsstoff vi bruker i vår egen forskningsvirksomhet). Forskning som (ennå) ikke er til nytte for andre forskere, kommer derfor i liten grad med på siteringsstatistikken, uansett hvor kvalitetspreget og nyskapende den måtte være. Siteringer kan også brukes til å smigre andre, innflytelsesrike forskere - spesielt dem som kan tenkes å avgjøre om artikkelen skal godtas for publisering eller ikke! En forbausende stor andel av siteringene (i gjennomsnitt ca. 30 %, men ofte mer) er selvsiteringer, som naturligvis har liten verdi som kvalitetsmål.

Er sammenlagte siteringer et mål for produksjon?

Et spesielt trekk ved den aktuelle ISI-listen er at den legger sammen alle siteringene gjennom et så langt tidsrom som 15 år, noe som gjør at den domineres av store, veletablerte forskningsgrupper som har vært publikasjonsaktive gjennom hele perioden. Hvis vi, istedenfor å legge sammen siteringene, beregner siteringshyppigheten som siteringer pr. artikkel (se tabell), blir det imidlertid straks forandringer på listen: førstemann rykker ned til 7. plass, mens tredjemann inntar førsteplassen, og hadde vi hatt med flere enn disse ti, ville det blitt virkelig store omkalfatringer. Med et gjennomsnitt på 1.4 siteringer pr. artikkel pr. år, er de ti på lista faktisk ikke spesielt hyppig sitert: dette er den samme siteringshyppigheten som fagfeltene biokjemi og immunologi (hvor fem av de ti arbeider) har på verdensbasis (beregnet på grunnlag av alle artiklene i de hundre fremste tidsskriftene innen fagfeltene).

Det er altså ikke først og fremst høy siteringsrate, men høy produksjon som kjennetegner forskerne på lista. Med et gjennomsnitt på én artikkel pr. måned er det nok noen av Norges mest produktive forskere vi ser i aksjon - eller kanskje vi skulle si noen av de største forskningsgruppene? Det er naturligvis imponerende å opprettholde internasjonalt siteringsgjennomsnitt med en vitenskapelig produksjon av dette omfanget, og de ti på lista driver utvilsomt forskning på et høyt nivå. Problemet er bare at sammenlagtlista ikke så lett fanger opp enkeltforskere, små grupper eller grupper som har holdt på i vesentlig kortere tid enn 15 år, selv om disse har en like høy produktivitet pr. hode og en relativt sett like høyt sitert forskning innen sitt fagfelt.

Urettferdig kreditering

Flere av de ti forskerne på lista har utstrakt samforfatterskap med en annen på samme liste, med opptil to tredeler felles artikler, men begge får hele æren for både artikler og siteringer. For å kunne forsvare et slikt regnestykke, må en gå ut fra at de øvrige medforfatterne bidrar negativt, for eksempel ved å forkludre eksperimentene. En slik overkreditering av flerforfatterartikler er likevel svært vanlig, men nokså vilkårlig: Én forsker kan få full kreditt for et arbeid utgått fra en stor utenlandsk gruppe med mange medforfattere, og kan endatil få ekstra bonus for dokumentert samarbeidsevne; en annen kan bli fraskrevet kreditt fordi en eldre, mer erfaren kollega er med som medforfatter. Så lenge det ikke finnes etablerte regler for kredittfordeling, blir det vanskelig å oppnå en rettferdig forskningsevaluering, uansett hva slags målestokk en benytter.

Tidsskriftene heller ikke noe kvalitetsmål

Alle de nevnte begrensningene innebærer at siteringsstatistikk dessverre ikke kan brukes til evaluering av forskningskvalitet. Hva er så alternativene? Mange mener at kvaliteten på de tidsskriftene det publiseres i, forteller noe om forskningskvaliteten, og at for eksempel et tidsskrifts gjennomsnittlige siteringshyppighet (impaktfaktor), et veletablert uttrykk for tidsskriftets status, kan brukes som kvalitetsmål for enkeltartiklene i tidsskriftet. Undersøkelser har imidlertid vist at siteringshyppigheten for enkeltartiklene varierer så kolossalt - halvparten av artiklene står for 90 % av siteringene - at tidsskriftets impaktfaktor ikke på noen måte er representativ (den er dessuten beheftet med de samme svakhetene som siteringsmålinger, pluss en rekke nye systematiske feil). En slik variabilitet er typisk for kompliserte fenomener, og det er ingen grunn til å tro at forskningskvalitet er mindre komplisert enn siteringshyppighet. Tidsskriftstatus kan derfor ikke brukes som noe representativt mål for forskningskvalitet.

Hvordan måle kvalitet?

Den tradisjonelle måten å evaluere forskningskvalitet på, er gjennom såkalt fagfellevurdering, «peer review». Dette er en evalueringsform som dessverre er kommet i miskreditt, fordi den altfor ofte utføres av komiteer med generell kompetanse istedenfor den nødvendige spesialkunnskap, og uten faste regler. Resultatet er gjerne en faglig oppsummering istedenfor en faglig evaluering, med en lotteripreget konklusjon på grunnlag av overflatiske og tilfeldige, indirekte kriterier (komitémedlemmenes særinteresser, tidsskriftstatus, gruppetilhørighet, antatt relevans, honorære verv, anseelse osv.). Bruken av indirekte kriterier kan sammenliknes med å dele ut medaljer i langrenn på grunnlag av klubb- og nasjonstilhørighet, utseende, klær, skiutstyr, løpsstil og distanse - uten at noen tar tiden!

Skal en måle forskningskvalitet, er det ingen vei utenom et direkte studium av publiserte forskningsresultater, foretatt av personer med faglig innsikt i den spesielle typen forskning som skal vurderes. Til bruk i vurderingen må de forskjellige aspektene av forskningskvalitet defineres, og det må utarbeides allment aksepterte regler for hvordan disse aspektene skal vektlegges innen forskjellige fagområder. Siden kunstløp og sjakk kan bedømmes reproduserbart og kvantitativt, må det vel gå an å få det til i forskning også. Ved siden av den rene forskningskvaliteten må naturligvis produktiviteten vurderes og eventuelle andre faktorer som er relevante i den aktuelle evalueringssammenhengen. Komiteene kan med hell sløyfes eller gis en administrativ funksjon, nemlig å finne fram til de virkelige ekspertene og få dem til å avgi en kvalitetsevaluering i henhold til de vedtatte retningslinjene.

Det blir ofte framholdt at det tar for lang tid å lese artikler. En vanlig tidsskriftartikkel representerer omtrent ett årsverk, og da burde det vel ikke være for mye forlangt å spandere noen minutter på å finne ut hva som faktisk er gjort. Kanskje det vil vise seg at det er flere enn medisinerne ved Universitetet i Oslo som driver forskning av høy kvalitet.

Litteratur

Seglen, P.O. (1989): Kan siteringsanalyse og andre bibliometriske metoder brukes til evaluering av forskningskvalitet? NOP-Nytt (Helsingfors) 15: 2-20.

Seglen, P.O. (1992): The Skewness of Science. J. Am. Soc. Information Sci. 43: 628-638.

Seglen, P.O. (1995): Siteringer og tidsskrift-impakt som kvalitetsmål for forskning. Klinisk Kemi i Norden 7: 59-63.

Seglen, P.O. (1997): Why the impact factor of journals should not be used for evaluating research. Brit. Med. J. 314: 498-502.

Per O. Seglen er forsker ved Avdeling for cellebiologi, Institutt for Kreftforskning, Det Norske Radiumhospital. Han er professor II ved Universitetet i Oslo.

Emneord: Medisinske fag, Helsefag Av Per O. Seglen
Publisert 1. feb. 2012 12:17
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere