NORSK AVISKORPUS |
|
|
NYHETER
|
Automatisk innhenting og bearbeiding av korpustekst
Ved Aksis er det samlet inn et omfattende tekstmateriale bestående av norske avistekster. I mangel av et stort norsk korpus og i påvente av etableringen av en norsk språkbank har vi etablert et system for automatisk innhenting av store mengder tekst fra norske avisers nettsteder. Materialet vokser hver eneste dag, og utgjør en veridfull kilde til informasjon om det norske språkets utvikling, danning av nye ord, bruken av lånord og språklige bruksmønstre mer generelt. Nedenfor beskrives det automatiske systemet for innhenting og bearbeiding av tekst steg for steg.
Innhentingen har foregått siden 1998, og databasen har hittil kommet opp i ca. 430 millioner ord og er således den desidert største i sitt slag. Hvert døgn sammenliknes de nye tekstene med en liste over allerede registrerte ordformer. Denne listen utgjør mengden av ord som finnes i all elektronisk tekst som er tilgjengelig ved Aksis (inkludert SCARRIE-prosjektets fullformsordliste, basert på Bokmålsordboka). Programmet genererer så en liste over ord som ikke fantes fra før, og legger disse til i den totale ordlisten. Av de 200.000-250.000 løpende ord som daglig legges til i databasen er ca. 1000-1500 nye ord. Både nyordlister og selve materialet er søkbare på Norsk aviskorpus' nettsider. |
| Edit |