Dårlig dataanalyse kan koste dyrt

Med rett bruk av statistisk analyse kunne bankene ha redusert den store krisen på slutten av 1980-tallet. Mange har ikke tatt lærdom av bankene. Det gjøres fortsatt en rekke fatale statistiske bommerter både i forskning, næringslivet og det offentlige.

FEIL PÅ FEIL: Dataanalysen er ofte stemoderlig behandlet. Stikkord er feil tankegang, dårlig planlagte datainnsamlinger, unødig arbeid, slepphendt dataanalyse, feil metoder og gale konklusjoner, advarer førsteamanuensis Ingrid Glad ved Matematisk institutt og Andrè Teigland på Norsk Regnesentral. Foto: Ståle Skogstad.

En rekke aktører mangler grunnleggende forståelse for hvor viktig det er å gjøre en skikkelig dataanalyse. Førsteamanuensis Ingrid Glad i statistikk ved Matematisk institutt og forskningssjef André Teigland på Norsk Regnesentral sier det er et skrikende misforhold mellom hvor enorme investeringer man legger i datainnsamlinger i forhold til hvor lite tid og penger man er villig til å bruke på selve dataanalysen. Mange tror analysearbeidet er så banalt og enkelt at det bare tar noen få timer.

Feil på feil

Riktignok har en rekke banker, forsikringsselskaper og tunge aktører i næringslivet som har tall som levebrød, tatt i bruk avanserte statistiske metoder til risikoanalyse og økonomistyring. Likevel florerer skrekkeksemplene i det norske samfunnet. Dataanalysen er ofte stemoderlig behandlet, særlig i det offentlige, i forskningssammenheng og i små og mellomstore bedrifter.

Stikkord er feil tankegang og dårlig planlagte datainnsamlinger, unødvendige data og unødig arbeid, slepphendt dataanalyse, feil metoder og gale konklusjoner.

Ingrid Glad hevder at visse fagmiljøer, som innen helse, velger feil metoder fordi de ikke klarer å håndtere annet enn regneark.

Mange finner ikke-eksisterende årsakssammenhenger fordi tilfeldighetene har en utrolig evne til å danne et mønster.

– Det er mye ukultur. Mange kommer på at de trenger statistisk hjelp i siste liten. Noen kommer på det altfor sent. For å forsvare de store investeringene i datainnsamlinger, er det et uunngåelig behov for bedre statistiske analyser, slår førsteamanuensis Ingrid Glad fast.

André Teigland trekker frem bankkrisen på slutten av 1980-tallet som et skrekkeksempel på hvor galt det kan gå om man ikke tar nok hensyn til usikkerhetsbetraktninger.

– Før bankkrisen ble det gjort for lite for å analysere risikoen. Med statistisk analyse kunne risikoen vært forutsagt, slik at nødvendige tiltak hadde blitt iverksatt. I etterkant er det bygd opp gode risikostyringsmiljøer med mye modellering av data for å studere usikkerheten. Nå har bankene god kontroll, sier Teigland.

Den stemoderlige behandlingen av dataanalyse i den offentlige forvaltningen er enda verre enn i næringslivet. André Teigland sier det skyldes at næringslivet må tjene penger og derfor er mer oppmerksom på dataanalysens muligheter.

Skatte- og flomkaos

– Et eksempel er skattedirektoratet. I 2004 bommet de sterkt på skattetilgangen til kommunene. Uten å påstå at prognosene ville bli bedre med mer avanserte statistiske metoder, er potensialet absolutt til stede for å bruke de historiske dataene bedre, sier Teigland.

Et annet eksempel er flomprognosen i 1995. Det beste anslaget tilsa at Mjøsa ikke ville renne over. Selv om André Teigland påpeker at NVE er flinke til å samle inn data og lage prognoser, mener han at de ikke tok nok hensyn til usikkerhetsanalysen.

– Jeg er ikke overbevist om at usikkerheten ble tolket godt nok i 1995. Det er helt essensielt å beregne sannsynligheten for oversvømmelser. Når konsekvensene er store, bør tiltak settes i gang, selv om sannsynligheten for oversvømmelser er forholdsvis liten, sier André Teigland.

Selv store, seriøse aktører skjenker ikke tanken på at grundige, men kostbare statistiske dataanalyser faktisk kan lønne seg.

André Teigland ønsker ikke å nevne hvem, men et stort og anerkjent norsk konsern, som skal telle kundene sine på en rekke ulike geografiske steder, investerer nå i automatiske telleapparater til en million kroner stykket. Selv om tellingen koster dem mer enn ti millioner kroner, ønsket de ikke å bruke mer enn ti tusen kroner på spørsmålet om ti telleapparater er et fornuftig antall.

– Selv om arbeidet vårt koster en halv million, kan det spare konsernet for store beløp. Analysene våre indikerer at de kan spare to til tre slike apparater. Løsningen vår ligger i å utnytte data på tvers i modellen. Det vil si at målinger ett sted også kan ha verdi på andre steder med liknende kundemønster. Er man smart, trenger man færre data og færre tellinger. Vi kan altså pine informasjon ut av data, sier André Teigland.

I vill vekst

Ingrid Glad sier at problemet bare blir større og større for hvert år som går. Om tretten år er datamengden tretti ganger større.

– Med automatisk datainnsamling blir mange data samlet inn uten at man vet hva man vil med dataene. Det er sjelden en spesiell plan bak innsamlingen.

Mange lever i den villfarelse at de kan analysere disse datamengdene med klassiske, statistiske analysemetoder. Når man ikke har underliggende hypoteser, er det nødvendig med nye metoder for å trekke ut informasjon fra enorme datasett.

– I store datasett er dessuten faren stor for at det kan oppstå tilfeldige mønstre. Det er derfor nødvendig med metoder som ser bort fra slike mønstre, påpeker Ingrid Glad.

André Teigland sier at statistikk er et vanskelig fag med en stor verktøykasse og at kunsten er å velge å tilpasse det rette verktøyet. Men han opplever nå en større positiv vilje.

– Det går et generasjonsskille. Nå begynner folk å se nytten og nødvendigheten av et skikkelig statistisk arbeid. En del yngre folk i andre fag tenker nå intuitivt simuleringer som en fundamental teknikk i moderne statistikk, sier André Teigland på Norsk Regnesentral, som sammen med statistikkmiljøet ved Universitetet i Oslo utgjør et av de største forskningsmiljøene i statistikk i Europa.

Emneord: Samfunnsvitenskap, Økonomi, Sosialøkonomi/samfunnsøkonomi, Matematikk og naturvitenskap, Matematikk, Forsikringsmatematikk og risikoanalyse, Informasjons- og kommunikasjonsvitenskap, Simulering, visualisering, signalbehandling, bildeanalyse, Bedriftsøkonomisk analyse, Statistikk Av Yngve Vogt
Publisert 1. feb. 2012 12:00
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere