AksisUiB

NORSK AVISKORPUS

Automatisk innhenting og bearbeiding av korpustekst

Ved Aksis er det samlet inn et omfattende tekstmateriale bestående av norske avistekster. I mangel av et stort norsk korpus og i påvente av etableringen av en norsk språkbank har vi etablert et system for automatisk innhenting av store mengder tekst fra norske avisers nettsteder.

Materialet vokser hver eneste dag, og utgjør en veridfull kilde til informasjon om det norske språkets utvikling, danning av nye ord, bruken av lånord og språklige bruksmønstre mer generelt. Nedenfor beskrives det automatiske systemet for innhenting og bearbeiding av tekst steg for steg.

  1. Programmet w3mir laster ned den dagsaktuelle versjonen av ulike norske nettaviser.
  2. Systemet ekstraherer kjerneteksten, dvs. det ignorerer annonsetekst, navigeringsmenyer, metatekst, html-kommentarer osv.
  3. Tekstene blir autmatisk klassifisert som bokmål eller nynorsk (eller engelsk, som forkastes).
  4. Materialet blir merket (Oslo-Bergen-taggeren)
  5. Legger tagget og utagget tekst inn i databasen
  6. Nye tekster sjekkes mot allerede registrerte ordformer
  7. Systemet genererer så en liste over ord som ikke fantes fra før, og legger disse til i den totale ordlisten.

Innhentingen har foregått siden 1998, og databasen har hittil kommet opp i ca. 430 millioner ord og er således den desidert største i sitt slag. Hvert døgn sammenliknes de nye tekstene med en liste over allerede registrerte ordformer. Denne listen utgjør mengden av ord som finnes i all elektronisk tekst som er tilgjengelig ved Aksis (inkludert SCARRIE-prosjektets fullformsordliste, basert på Bokmålsordboka). Programmet genererer så en liste over ord som ikke fantes fra før, og legger disse til i den totale ordlisten. Av de 200.000-250.000 løpende ord som daglig legges til i databasen er ca. 1000-1500 nye ord. Både nyordlister og selve materialet er søkbare på Norsk aviskorpus' nettsider.