Datakaos i næringslivet koster millioner hvert år

Store norske bedrifter sliter med å finne den relevante informasjonen i de enorme datamengdene sine. Det koster dem flere hundre millioner kroner hvert år. Ny metode fra UiO skal kunne finne dataene på få minutter.

IKKE RASKT NOK: Mange beslutninger må tas i løpet av kort tid, så den informasjonen de ansatte ikke greier å finne innen fristen, har bedriften ingen glede av. Illustrasjon: Adrian Storm

Hvert år taper industrien store summer fordi  de ansatte ikke klarer å finne raskt nok frem til de relevante dataene i bedriftens enorme datamengder.

Samtidig som datamengdene øker i et stadig større tempo, vokser også mengden av irrelevant informasjon.

– Mangelen på gode systemer for å finne relevante data, kan koste store bedrifter hundre millioner kroner i året. Mange beslutninger må tas innen kort tid, så den informasjonen de ansatte ikke greier å finne innen fristen, har bedriften ingen glede av. Det er derfor viktig å få raskere tilgang til dataene enn i dag. Teknikken for å gjøre dette, har ikke endret seg på tjue-tretti år. Vi må derfor lage helt nye kikkhull inn i de store datalagrene, forteller Arild Waaler, som er professor i logikk og semantisk teknologi på Institutt for informatikk ved Universitetet i Oslo.

Han er nå blitt leder av det nye senteret for frem- ragende innovasjon, Senter for skalerbar data- aksess, som er et samarbeid mellom UiO, NTNU, Universitetet i Oxford og en rekke industrielle tungaktører.

Store oljeselskaper er med

Senteret skal både utnytte teknologiske nyvinninger og utvikle helt nye teknologier. Teknologien skal testes ut på svære datasett i store selskaper som Statoil, Philips og Schlumberger, i samarbeid med internasjonale konsulentselskaper som IBM og Oracle.

Et eksempel på en av de mange oppgavene senteret håper å løse, er et nytt system for oljeselskapene slik at de raskt skal kunne finne frem i de enorme mengdene med interne rapporter og informasjon som fins spredt i en rekke databaser. En database er en systematisk måte å organisere dataene på. Uheldigvis mangler den gjennomsnittlige oljegeologen, akkurat som den vanlige Apollon- leseren, god nok dataforståelse til å kombinere informasjonen i databasene på best mulig måte.

– Tenk deg at du er ingeniør og har fått svært kort tid til å finne viktig informasjon om en viss type oljebrønn. Du skal sy sammen relevant informasjon fra mange databaser der hver database kan inneholde titusenvis av variabler. Du må vite hvilke tabeller i databasene du skal koble sammen. Dessverre vet du ikke engang hva tabellene heter.

Hvis geologen ikke vet hvor informasjonen befinner seg, nytter det ikke med et raskt database- oppslag. Problemet er at dataene er organisert på en så kompleks måte at det kreves svært spesialisert kunnskap for å gjenfinne dem.

Utfyller Google

KOSTBART: – Mangelen på gode systemer for å finne relevante data, kan koste store bedrifter hundre millioner kroner i året, poengterer Arild Waaler. Foto: Yngve Vogt

Når Google trekker frem relevant informasjon fra hele verdensveven, baserer den treffene sine på statistiske analyser.

– Det gjør at tidligere søk med mange treff kommer høyt opp på Googles liste. Denne teknik- ken fungerer dessverre ikke i industrien, fordi brukerne og spørringene er for få.

Google søker dessuten ikke etter informasjon i databaser. Database-programmererne bruker et eget programmeringsspråk som heter Structured Query Language (SQL). SQL har ikke endret seg siden 1980-tallet. Avanserte SQL-spørringene kan være svært komplekse og fortone seg komplett uforståelige for dem som ikke har inngående, datateknisk kunnskap.

Målet er at geologen ikke skal være avhengig av it-konsulenten, men kunne beskrive informasjonsbehovet med sitt eget vokabular på et mest mulig normalt språk.

– Vi ønsker at systemet automatisk skal oversette disse setningene til et dataspråk som skal lage SQL-spørringer mot datamaskinen. Hvis vi klarer dette, skal det arbeidet som geologene i dag bruker flere dager på, kunne gjøres på få minutter.

Det gjør det ikke enklere at mange av geologene også må lete etter og tolke seismiske data. Seismiske data, som er geofysiske målinger av havbunnen, kan ta svimlende mye plass og kreve enorme beregninger på superraske datamaskiner. Disse maskinene er ti tusen ganger raskere enn PC-en din.

– Hele poenget er å kombinere mye regnekraft med radikalt nye metoder for å kunne finne frem til informasjonen og gjøre beregninger langt rask-ere å finne enn hva som er mulig i dag.

Kombinerer siste skrik

Det nye senteret skal ta alle de store datateknologiene i bruk, på alle nivåer, fra sky-teknologier, der data blir lagret og delt på nett, og ned til det mest elementære maskinspråket.

– Datasystemer har mange abstraksjonslag. For hvert lag mister du ytelse. Vi ønsker å kutte tvers igjennom alle abstraksjonslagene og designe dataprogrammene på en slik måte at vi kan pushe teknologien i grenseland og dermed øke ytelsen.

Senteret skal trekke til seg mer enn hundre forskere.

– Om åtte år tror jeg at det vi forsker på i dag, vil være en selvfølge i industrien. Da informatikerne startet med relasjonsdatabaser, spurte folk hva det var godt for. I dag er slike databaser allemannseie. Nå skal vi ta et tilsvarende grep for å trekke ut relevant informasjon fra store datamengder, påpeker Arild Waaler.

Regjeringen er positiv

Statssekretær Dilek Ayhan (Høyre) i Nærings- og fiskeridepartementet poengterer at det nye senteret bidrar til å høyne kvaliteten på norsk, næringsrettet forskning.

– Resultatene kan på sikt bidra til å styrke norsk konkurranseevne. Store datamengder kan være kilde til innovasjon, entreprenørskap og arbeidsplasser. Ny teknologi kan gjøre det enklere å samle inn og analysere disse dataene. Dette vil kunne gi oss raskere tilgang til relevant informasjon. Her ligger det store muligheter for både det offentlige og næringslivet, påpeker statssekretæren til Apollon.

Av Yngve Vogt
Publisert 14. aug. 2015 11:00
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere