Ordenes teknologiske framtid

Dokumentasjonsprosjek-tet ved Universitetet i Oslo har ansvaret for å bygge opp datateknik-kens svar på en ordbok, en leksikalsk database. Databasens omfang øker fra dag til dag, og egenskapene knyttet til den er langt flere nå enn da arbeidet startet for fem år siden. I dag har leksiko-grafene teknologiske muligheter som virket utopiske den gang.

Christian-Emil Ore, prosjektleder i Dokumentasjonsprosjektet, som er ansvarlig for at ordbokredaktørenes bakgrunnsmateriale nå blir lagt inn på data. (Foto: Ståle Skogstad)

I seksti år har leksikografer ved Universitetet i Oslo jobbet med Norsk Ordbok, en ordbok over «dei norske målføra» og det ny-norske skriftspråket. Nå holder de på med ord som begynner på bok-staven H. Kanskje er de ferdige i år 2030. Dette er ikke noe unormalt tempo når man sammenlikner med tilsvarende prosjekter i andre land. Dokumentasjonsprosjektet er an-svarlig for at ordbokredaktørenes bakgrunnsmateriale nå endelig blir lagt inn på data.

Kanskje vil det gå litt fortere å lage ordbøker i framtiden med et slikt hjelpemiddel. I alle fall blir materialet lettere tilgjengelig, tror Christian-Emil Ore, prosjektleder i Dokumentasjonsprosjektet ved Universitetet i Oslo. En leksikalsk database gjør det mulig å sammenstille interessant informasjon, eventuelt filtrere bort informasjon. Den gjør det også mulig å oppdatere verket kontinuerlig. Basen er datateknikkens svar på en ordbok.

En ordbok blir til

Har du drogga mye i din ungdom? Verbet drogge er blant ordene som finnes i seddelarkivet ved Avdeling for leksiografi på Universitetet i Oslo. Seddelarkivet er det viktigste bakgrunnsmaterialet for Norsk Ordbok

Leksikografene ved Universitetet i Oslo står bak flere store ordbøker over det norske språket. En ord-bok kan ha én eller flere redaktører, som i utgangspunktet har flere kilder når de skal skrive om et ord. Den største kilden til Norsk Ordbok er et arkiv med over tre millioner forskjellige håndskrevne arkivkort, som hvert beskriver ett ord. Dette seddelarkivet er bygd opp ved at privatpersoner, lærere og språkforskere rundt omkring i landet har sendt inn kortene. Det norske arkivet er ikke spesielt stort. Forskere i Sverige og Danmark har ca. ti millioner sedler i sine arkiver, og arkivet til Oxford English Dictionary rommer mer enn 30 millioner sedler. Arkivene representerer den tradisjonelle, systematiske måten å samle opp-lysninger på til bruk i en ordbok. I framtiden vil all denne informasjonen bli lagret elektronisk.

En annen kilde for redaktørene av Norsk Ordbok er det som kalles Grunnmanuskriptet. Det er et utkast til en nynorsk ordbok på 13 500 maskinskrevne sider som ble laget på 1930-tallet. Manu-skriptet ble et utkast til et større prosjekt: Norsk Ordbok.

Redaktørene bruker også Storms synopsis, en matrise over ett tusen ulike ord og forskjellige dialektformer av disse på ulike steder i Norge. Denne synopsisen finnes det kun ett eksemplar av i Norge, og det befinner seg i Norsk mål-førearkiv. Torps etymologiske ordbok er også et viktig hjelpe-middel, og redaktørene benytter seg dessuten av annen aktuell referanselitteratur. For at et ord skal kunne føres opp i en ordbok, må det ha vært brukt på en eller annen måte i det norske språket. Uhøytidelig er det blitt hevdet at hvis en leksikograf finner et ord hun ikke har noen kilde til, skriver hun ganske enkelt et leserinnlegg i avisen der ordet blir brukt og anvender deretter innlegget som referanse ...

En moderne versjon

Dokumentasjonsprosjektet lager en elektronisk versjon av alt dette bakgrunnsmaterialet. I tillegg til å lage databaser av tidligere produserte ordbøker og Grunnmanu-skriptet, skanner de inn hver enkelt av de tre millioner sedlene i seddelarkivet. Dermed kan hver seddel framstå på skjermen som et bilde av den originale seddelen. Til hver seddel er det knyttet et oppslagsord, en ordklasse og en standardisert kildereferanse som søkernøkler, slik at det elek-troniske seddelarkivet kan kobles til andre databaser. Men det er ikke mulig å søke i teksten til det innskannete «bildet».

En av redaktørene for Norsk Ordbok, Arnbjørg Hageberg, sier til det faglitterære tidsskriftet PROSA (nr 2, 1996) at hun ikke tror det blir aktuelt å legge Norsk Ordbok inn på CD-ROM. Er du enig i det?

Hennes utsagn vitner nok om at redaktørene har begrenset kjennskap til datateknologien, sier Christian-Emil Ore. Han tror ganske sikkert at databasene vil bli tilgjengelige for alle med en CD-spiller knyttet til sin PC.

Det er et enormt materiale dere registrerer. Har dere opplevd at datamaskinene har kapasitetsproblemer? Vi var bekymret for det til å begynne med, men vi opplever heller at teknologien jobber for oss. Det som virket utopisk i 1990, er i dag hverdagslige realiteter. Utviklingen av datateknologien går så fort at den stadig er «foran oss» med løsninger som gjør dette prosjektet mulig.

Dokumentasjonsprosjektet

Gjennom Dokumentasjonspro-sjektet samarbeider de fire norske universitetene om å ta i bruk moderne datateknikker for å registrere sine samlinger over språk og kultur. Rundt omkring i landet sitter det folk på syssel-settingstiltak og registrerer arkiver med bakgrunnsstoff for forskere. Prosjektet samarbeider med lokale myndigheter og næringsliv i Indre Salten, Narvik og Sør-Varanger. Og de samarbeider med Arbeids-direktoratet, Kommunaldepartementet, Næringsdepartementet og universitetene. Samarbeidet har navnet «Omstilling gjennom mål-rettet utdanning», og registreringssentralenes medarbeidere får tilbud om høyere utdanning sam-tidig som de registrerer for universitetene.

Norsk Ordbok

Arbeidet med Norsk Ordbok er det største registreringsprosjektet som nå pågår i regi av Dokumentasjonsprosjektet. Arbeidet med ordboken begynte i 1930, og målet er å lage en ordbok over det ny-norske språket inkludert dialektformer. Universitetene har alfa-betisk ordnede samlinger (seddelarkiv) over norsk språk samlet fra slutten av 1100-tallet og til i dag. Ved Leksikografisk institutt finnes en samling på tre millioner sedler som utgjør en av de viktigste kildene for redaktørene til Norsk Ordbok. Dokumentasjonsprosjek-tet registrerer alle disse sedlene på data, og det langsiktige målet er en database som omfatter både gammalnorsk, nynorsk og bokmål.

Prøv selv!

Dokumentasjonsprosjektet har lagt ut Bokmålsordboka og Nynorskordboka på verdensveven. Der er det mulig å søke i hver av dem eller i begge parallelt. Det er dess-uten mulig å søke i Grunnmanu-skriptet (adressen er: www.dokpro.uio.no ).

Emneord: Språk og kultur, Språkvitenskapelige fag, Nordiske språk, Teknologi, Informasjons- og kommunikasjonsteknologi Av Anette B. Wollebæk
Publisert 1. feb. 2012 12:19
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere