Ser forskjell på Jordan og Jordan

Åsne Haaland har utviklet et dataprogram som ser forskjell på egennavn i tekster. Så nå er det mulig å skjelne elven Jordan fra tannbørstemerket Jordan.

OVERVÅKNING: Etterretningsvesenet og politiet er blant dem som kan få glede av den nye teknologien, hevder Åsne Haaland.

Tenk om søkemotoren Google kunne skille mellom elven Jordan, nakenmodellen Jordan og tannbørstemerket Jordan? En ny doktoravhandling ved Universitetet i Oslo viser at dette er mulig.

Ved Institutt for lingvistiske og nordiske studier har Åsne Haaland utviklet et program som gjør det mulig for en datamaskin å skille forskjellige typer egennavn i en tekst, avhengig av om egennavnet er en person, et sted, en organisasjon eller noe annet.

– Det er naturlig at menneskehjernen kombinerer forskjellige trekk ved egennavnet i konteksten: Kanskje har vi hørt egennavnet før. Kanskje gjenkjenner vi deler av egennavnet eller det har stått tidligere i teksten. Poenget er: Akkurat som menneskehjernen skal datamaskinen kombinere forskjellige trekk ved egennavnet og sammenhengen navnet forekommer i, for å kunne klassifisere egennavnet riktig, forteller Åsne Haaland.

Det er mange elementer i en setning som gjør det vanskelig å kategorisere riktig. Et eksempel er: “Opposisjonslederen Raila Odinga anklager”. Selv om navnet skulle være ukjent, skjønner menneskehjernen ved hjelp av foregående og etterfølgende ord at dette må være et personnavn. Står det bare “Raila Odinga i Kenya”, kan det doble egennavnet også tolkes som bedriftsnavn
eller stedsnavn.

I teksten “Universitetet i Oslo ligger på 188. plass” må datamaskinen klare å klassifisere ordgruppen “Universitetet i Oslo” som et organisasjonsnavn.

Åsne Haaland er den første ved Universitetet i Oslo som har tatt doktorgrad i statistikkbasert språkteknologi. Fagfeltet er tolv år gammelt og kombinerer fagområdene språk, statistikk og informatikk.

Dette er også første gang metoden blir testet ut på det norske språket.

Eksempelbanken

Åsne Haaland har klassifisert 7500 egennavn fra norske tekster i ukeblad og aviser. Deretter lager dataprogrammet en sannsynlighetsmatrise som ranker hvilken kategori som er mest sannsynlig.

I dag klarer dataprogrammet hennes å få riktig svar i mer enn fire av fem tilfeller.

Den informasjonen som øker treffsannsynligheten mest, er automatisk tekstanalyse av naboordene til egennavnene. Derimot betyr hennes navneliste på 13 000 egennavn, med oversikt over vanlige fornavn, etternavn og stedsnavn, langt mindre for treffsikkerheten.

Først kjøres et dataprogram som finner alle egennavnene.

– Så kombineres de forskjellige informasjonsbitene, for å øke treffsikkerheten for å plassere egennavnet i rett kategori.

Åsne Haaland påpeker at hun ikke har programmert datamaskinen til å tolke naboordene som viktigst.

– Datamaskinen skal selv oppdage gode og klare sammenhenger. Dette kalles mønsterlæring.

Et eksempel er menneskehjernens gjenkjennelse av patronyme navn (-sennavn) som Jensen og Olsen. Maskinen må selv finne ut av om dette er nyttig informasjon.

Internasjonale forskere jobber for tiden iherdig for å redusere størrelsen på eksempelbanken.

– Utviklingen går nå ut på å presse antallet eksempler med kategori enda lenger ned. Det synes jeg er kult, stråler
Åsne Haaland.

Overvåking

Anvendelsene er mange. Etterretningsvesenet og politiet kan få glede av teknologien når de skal overvåke store mengder tekst.

– Teknologien min kan være interessant når en datamaskin skal oversette mellom to språk. Hvis man bruker egennavn som ankerfeste i teksten, kan det kanskje bli lettere for dataprogrammet å orientere seg i teksten.

Åsne Haaland ser også for seg at metoden hennes kan brukes for å lage sammendrag av tekster eller for å skjelne mellom epost som inneholder ris og ros.

Teknologien kan også være nyttig for nyhetsredaksjoner og andre som bruker automatisert nyhetsovervåking.

– Søkemotorer som klarer å skille mellom forskjellige personer med samme navn, vil gjøre hverdagen enklere.

Langt frem

Åsne Haaland påpeker dog at programmet hennes bare er på forskningsstadiet. Det er fortsatt langt frem før teknologien
kan brukes.

Emneord: Matematikk og naturvitenskap, Informasjons- og kommunikasjonsvitenskap, Algoritmer og beregnbarhetsteori Av Yngve Vogt
Publisert 1. feb. 2012 11:49
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere