Det åpne laboratoriet

Mange forskningslaboratorier er akkurat så hemmelige og avstengte som i tegneseriene. Men

Disse fire “laborantene” arbeider daglig for å gjøre “Oslo-korpuset” enda mer brukbart. Fra venstre: Anders Nøklestad, Kristin Hagen, Janne Bondi Johannessen, Arne Martinus Lindstad. (Foto: Ståle Skogstad ©)

Alle vi som liker å “synse” om språk, kan bestille passord til den store tekstsamlingen Oslo-korpuset og dermed slippe inn i et verksted for både avlivning og friskmelding av kjepphester. Er det for eksempel riktig, som Apollon trodde, at nordmenn på amerikansk vis har gått over til å skrive “å gå for ” i stedet for “å gå inn for ” en god sak? Dette var en hest vi hadde ridd en tid.

Apollon går for Tekstlaboratoriet

Ved å klikke og skrive litt i et svært brukervennlig program, sjekket vi i løpet av få sekunder en norsk tekstmengde på nær 20 millioner bokmålsord. Tekstene var blant annet romaner og avisartikler. Vi valgte å bestille utskrift av de 1000 første forekomstene av “gå X for”, der X er et eventuelt ord imellom. I denne delen av tekstkroppen, eller “korpuset”, ble uttrykket “gå inn for” brukt 170 ganger, mens “gå for” i samme betydning bare ble brukt fire ganger – i tre ulike dagsaviser. Da må vi nok være forsiktige med å slå fast at nordmenn har skiftet skriftlig uttrykksmåte her, neste gang vi vil bruke dette som eksempel på skremmende amerikanisering og anglifisering.

Tre ord er nok

Selv om maskinen arbeidet raskt, måtte vi plukke en hel del selv i de listene vi fikk ut. For da vi søkte på “gå for” med maksimalt ett ord innimellom de to, fikk vi fram både “gå hett for”, “gå god for” og mange tilsvarende kombinasjoner. Det var ikke mulig å søke på “gå inn for” uten å gå inn i en vanskeligere del av programmet. Dette problemet er nå i ferd med å bli løst, forteller de som driver denne databasen. Snart skal man kunne søke på tre ord av gangen, ikke bare to som nå. Ekspertene er kommet fram til at tre er tilstrekkelig: Kombinasjoner på fire ord og flere er det sjelden særlig vits i å søke på.

Det var heller ikke lett med det samme å skille ut de fire “gå for” i denne spesielle betydningen blant helt andre betydninger, som for eksempel “hvor langt han er villig til å gå for å oppnå noe”, “Ikke gå for deg selv”, “Han fikk det til å gå for meg”.

Vi brukte hodet som best vi kunne og telte med fingrene for å skille ut de fire. Kanskje kunne vi kommet et stykke på vei ved å utelukke bestemte grammatiske kategorier i de ordene vi søkte på, men hode- og fingerbruk kommer nok verken forskere eller amatører helt unna.

Telleforskning?

Helt siden den store positivismestriden for noen generasjoner tilbake, har det vært god tone blant humanister å fnyse av “telleforskning”. De dumme musikkforskerne telte kvinter hos Grieg, og de udugelige blant litteraturviterne telte adjektiver. Hvis vi skal forstå menneskelige uttrykk, må vi tolke, ikke telle, hevdet man.

Men hvorfor ikke begge deler? I Oslo-korpuset av taggede norske tekster finnes blant annet Nordahl Griegs Spansk sommer (1927) og Lars Saabye Christensens Amatøren (1977) . La oss sammenlikne hvordan nye ord dannes ved ordsammensetning i de to romanene. Kan det si noe om deres skrivestil og om tiden de lever i?

Dritkalde klasseaksjoner

Allerede de ti første nye sammensetningene hos hver av forfatterne gir en pekepinn:

Grieg : arbeiderbataljonene, trekkspillåt, kaffemelk, militærmaskiner, klasseaksjon, kommunardflokken, pariserarbeiderne.

Saabye Christensen : dritkaldt, bedritne, forpulte, tegneserievitser, tapebit, tilrope, dukavrivningen.

For spesielt interesserte?

Her overlater vi den videre fortolkningen til leserne. Men selve muligheten for på et blunk å pille ut “sammensatte ord som ikke står i ordlisten” fra store romaner fantes ikke for få år siden, ja, den er ganske unik for dette spesielle dataprogrammet. Ville det ikke være dumt av en litteraturforsker å unnlate å benytte seg av slike muligheter i tekstanalysen?

“Korpuslingvistikk” har en tid vært en egen grein av språkvitenskapen som dyrkes av forskere med særlig begeistring for dataprogrammer. Det er ikke bare antipositivistene som er skeptiske til dem: Også de tallrike disiplene til den amerikanske språkforskeren Noam Chomsky , som er mer naturvitenskapelig enn humanistisk orientert, synes at “korpuslingvistikk” er kjedelige greier, og mener det er mer fruktbart å bruke sin egen språkkompetanse som kilde enn å studere faktisk språkbruk.

Dårlig forskning er dårlig forskning

Janne Bondi Johannessen er professor i ingvistikk og sjef for Tekstlaboratoriet. Hun synes ikke det er noen grunn til å skille ut “korpuslingvistikk” fra annen lingvistikk. Dataprogrammene og de stadig voksende databasene er midler, ikke mål. Hun framstår i det hele tatt ikke som noen korpus-fantast, og vil ikke avvise “chomskyanernes” metoder: Introspeksjon – at man konstruerer tenkte grammatiske og ugrammatiske eksempler for å lære om grammatikk – er også nyttig. Men like ofte er det behov for å undersøke hvordan folk faktisk snakker og skriver. Når materialet så skal bearbeides, er taggede tekstkorpus uhyre nyttig. “Tagget” betyr at hvert ord automatisk merkes med sin ordklasse, form, grad eller tid, setningsfunksjon og så videre. Tekstlaboratoriet har selv utviklet en automatisk tagger, som er brukt på Oslo-korpuset

– Men er det ikke mange av dine kolleger verden over som blir forelsket i dataene fordi de er så lett tilgjengelige og går over til å skrive lister og tabeller i stedet for avhandlinger og artikler?

– Er man en dårlig forsker, er faren overhengende for at man lar seg blende av alle dataene. En god forsker, derimot, samler ikke på småstein eller knapper. Forskning må alltid starte med teorien, forskeren må stille noen spørsmål som hun eller han ønsker svar på.

Boka ved siden av

– Så du har liten sans for det poenget Gudmund Hernes trakk fram da han en gang snakket om verdien av å åpne den boka som stod ved siden av den du leter etter i bokhylla?

– Joda, dette er også et godt poeng. Når vi først har stilt et spørsmål og går på jakt i dataene, finner vi ofte mye som vi ikke har tenkt på før. Mens man studerer et fenomen, kan et annet dukke opp. “Jøss, det verbet trenger jo ikke alltid være transitivt”, kan vi lingvister utbryte når vi plutselig ser et verb rope mot oss uten objekt på listen vi har skrevet ut fra databasen. Et studium verd.

Apollons interesse for den mangfoldige bruken av “gå for” på norsk oppstod foran skjermen for et øyeblikk siden da vi skulle undersøke om “gå for” har erstattet “gå inn for”.

– Der ser du. Det kan godt hende det kunne vokst en fruktbar problemstilling ut av dette. Noe annet som fascinerer meg, er at mange språklige fenomener blir mer åpenbare, mer synlige, når de kommer ut i listeform.

Eksempel?

– Da vil jeg være ubeskjeden nok til å trekke fram en undersøkelse jeg selv har gjennomført av negasjonen ikke: Ved å kjøre ut lange lister over setninger hvor “ikke” brukes i ulike sammenhenger, fant jeg blant annet en rekke eksempler på utelatelse av infinitivsmerket “å” av typen “Jeg orker ikke høre på deg” (i motsetning til “Jeg orker ikke å høre på deg”). Vi kunne ikke skrevet “Jeg orker høre på deg” i stedet for “Jeg orker å høre på deg”. For meg ble det ganske klart at ordet ikke var nøkkelen til å forstå dette. Men når det samme fenomenet omtales i det store verket Norsk referansegrammatikk fra 1997, virker det ikke som om forfatterne har fått øye på denne sammenhengen. I stedet forklares utelatelsen av “å” med bestemte egenskaper hos de verbene som kommer tidlig i setningene.

Aktiv svensk passiv-forsker

Databasen er for lengst tatt i bruk av skandinaviske forskere. En storbruker har vært den svenske lingvisten Elisabet Engdahl, som arbeider innen det fellesnordiske prosjektet Nordsem . Hun undersøker særlig valget mellom bli-passiv ( bli spist) og s-passiv (spise s ) på svensk, norsk og dansk. Ved hjelp av blant annet Tekstlaboratoriets bokmålskorpus har hun kunnet påvise følgende: Forskjellen på om en ytring dreier seg om noe spesifikt eller noe allment (Butikken stenge s kl. 19/Butikken blir stengt nå med det samme), spiller en større rolle på norsk enn på svensk. I svensk språk er det viktigere om subjektet – det som påvirkes av handlingen – er levende eller ikke (Förslaget antogs omedelbart/ Studenten blev antagen på kursen).

Engdahl forteller til Apollon at siden Oslo-korpuset ble allment tilgjengelig for språkforskere rundt om i verden, er det blitt vesentlig enklere og raskere å foreta de empiriske undersøkelsene som trengs for å teste diverse analyser.

– En stor fordel med Tekstlaboratoriets web-baserte grensesnitt er at man ikke behøver lære seg noen spesielle kommandoer for å foreta søk. Hvem som helst med grunnleggende kunnskaper i grammatisk terminologi, altså ordklasser og bøyningsformer, kan starte å bruke korpuset med det samme.

Mye mer enn Oslo-korpuset

I Tekstlaboratoriet kan folk lage sine egne sammensetninger og få dem analysert fort som lynet. Prøv bare: http://dina.uio.no/cgi-bin/tagger/fuge . Men her finnes også tekstsamlinger på mer enn 30 språk. I tillegg finnes pekere til andre gullgruber for ordelskere: Hva med et besøk hos Menighetsfakultetets bibel-base hvor du kan søke fritt i 23 ulike bibelutgaver? Eller hvorfor gå til bokhylla når du har søkbare ordbøker rett foran ansiktet?

Tekstlaboratoriet: http://www.hf.uio.no/tekstlab/

Oslo-korpuset : http://www.tekstlab.uio.no/norsk/bokmaal/ og http://www.tekstlab.uio.no/norsk/nynorsk/

Hvordan man kan få tillatelse til å bruke tekstkorpuset: http://www.tekstlab.uio.no/norsk/bokmaal/#tillatelse og http://www.tekstlab.uio.no/norsk/nynorsk/#loyve

Emneord: Språk og kultur, Språkvitenskapelige fag Av Johan L. Tønnesson
Publisert 1. feb. 2012 12:12
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere