Hva bør en språkteknologisk satsning inneholde?

Helge Dyvik

Institutt for lingvistikk og litteraturvitenskap
Seksjon for lingvistiske fag
Universitetet i Bergen
helge.dyvik@lili.uib.no

Da jeg fikk programmet for denne konferansen og så direktør Arne Gilbakkens og mitt tema plassert til slutt i en slik velkomponert rekke av foredrag, foresvevet det meg at spørsmålet «Hva bør en språkteknologisk satsning inneholde?» på det stadium allerede ville være grundig besvart, og at vår oppgave ville bli den oppsummerende snarere enn den å bringe inn overraskende nye momenter. Med andre ord, Gilbakken og jeg kunne ha vært erstattet av en tekst-sammendrager, hvis den språkteknologiske satsningen i Norge hadde kommet litt før. Slik det nå er, må vi imidlertid gjøre jobben selv – og jeg antar at fordelingen av tyngdepunkter oss imellom gir seg selv.

Hva en norsk språkteknologisk satsning bør inneholde, avhenger åpenbart av hvilke utilfredsstilte behov vi ser rundt oss, som må tilfredsstilles hvis en norsk språkteknologi skal komme på bena. Jeg vil diskutere disse behovene under tre overskrifter:

• Kunnskap
• Ressurser
• Holdninger

1. Kunnskap

Her kan vi igjen skille mellom tre typer av kunnskap:
(a) Datalingvistisk og språkteknologisk fagkunnskap
(b) Kunnskap, i egnede former, om norsk språk
(c) Kunnskap om markedets behov

(a) Datalingvistisk og språkteknologisk fagkunnskap
Foreløpig befinner slik fagkunnskap seg først og fremst i de datalingvistiske og teknologiske miljøene ved universitetene i Oslo, Bergen og Trondheim, og i bedrifter som f.eks. Telenor, Nordisk Språkteknologi og LingSoft. Forskningsmiljøene er små, i hvert fall mindre enn den kritiske masse som må til for å vedlikeholde en grunnforsknings- og utdannelsesinnsats som kan understøtte en språkteknologisk satsning i Norge. Den datalingvistiske og språkteknologiske kunnskapen er internasjonal, men som alltid er det nødvendig å ha aktive forskningsmiljøer også her hjemme hvis vi skal kunne utnytte resultatene av den internasjonale forskningen, og hvis vi skal kunne utdanne de fagfolkene som trenges. Relevante, delvis overlappende felter der det er viktig å delta for å holde seg oppdatert, og kanskje for stundom å bidra med noe interessant, er f.eks.:

På disse områdene skjer det stadig en grunnleggende kunnskapsutvikling, en grunnforskning vi også bør delta i for å skape et fundament for utviklingen av en brukerorientert norsk språkteknologi. Skulle man identifisere ett kunnskapsområde der en innsats synes særlig påkrevet, måtte det bli fonetikk, der landet har dyktige, men altfor få fagfolk. Bare det deskriptive fonetiske arbeidet som må til forat taleteknologi på norsk skal bli akseptabel i et land med våre holdninger til dialektbruk, er formidabelt, og foreløpig nærmest ikke-eksisterende.

I tillegg til den spesialiserte fagkunnskap om datalingvistikk og språkteknologi som må utvikles og vedlikeholdes i forskningsmiljøene, kan vi også snakke om det språkteknologiske dannelsesnivå vi kan ønske oss for eksempel i universitets- og fakultetsledelsene, i Forskningsrådet, hos bevilgende myndigheter, i Språkrådet, i IT-miljøene, hos journalister, og i det hele tatt hos aktører med innflytelse på prioriteringene. Et slikt dannelsesnivå bør f.eks. sette en aktør istand til å skille mellom et potensielt produkt neste år, et potensielt produkt om 20 år, og en naiv utopi, og det bør sette henne istand til å stille ubehagelig pertinente spørsmål under glatte demonstrasjoner av nye språkteknologiske produkter. (Dannelse innebærer ikke alltid at man er behagelig – men jeg snakker vel å merke om ubehagelig pertinente spørsmål, ikke bare om ubehagelige spørsmål, som det ikke krever mye innsikt å stille.) Dannelsesnivået bør også hindre aktøren i å forlange et salgbart produkt i den andre enden av ethvert språkteknologisk motivert treårig prosjekt, og det bør hindre ham i å stille spørsmålet «Er maskinoversettelse mulig?» som om det var et enkelt ja/nei-spørsmål. Videre bør det ønskede dannelsesnivået innebære en forståelse for skillet mellom mer interessante og mindre interessante koblinger mellom «IT og humaniora», et begrepspar som ofte dukker opp i ulike sammenhenger ved universitetene. At språkforskere, litteraturforskere og kunsthistorikere bruker PC og Internet, og at studenter leverer inn oppgaver via www eller løser grammatikkoppgaver på en datamaskin, er eksempler på nyttige, men i vår sammenheng mindre interessante koblinger. At visse typer humanistisk innsikt, f.eks. i språk, tekst og bildeforståelse, er viktige for utviklingen og forståelsen av informasjonsteknologiske produkter til bruk for folk flest – ikke bare for humanister – er eksempler på mer interessante koblinger. Et slikt dannelsesnivå kan vi nærme oss hvis vi klarer å bevege flere studenter til å inkludere f.eks. datalingvistiske og språkteknologiske emner i sine fagkretser. Dette er en utfordring til fagmiljøene, som bør intensivere sin PR-virksomhet overfor studenter, universitetsledelse og publikum.

(b) Kunnskap, i egnede former, om norsk språk
Behovet for egnet kunnskap om norsk språk er hovedgrunnen til at vi trenger en egen norsk språkteknologisk satsning. Selv om det er viktig å opprettholde forskning innenfor generelle datalingvistiske og språkteknologiske emner i Norge, er den viktigste grunnen til at vi trenger en egen norsk virksomhet på feltet, at vi dessuten trenger omfattende kunnskap, innenfor ganske bestemte typer av forståelsesrammer, om norsk språk forat det skal bli noe av det hele – og den kunnskapen kan som regel ikke kjøpes fra utlandet. Riktignok finnes det allerede grammatikker og ordbøker for norsk, og de er nyttige kunnskapskilder for en norsk språkteknologi, men de er langt fra tilstrekkelige. Det er flere grunner til dette. For det første har jeg allerede nevnt et stort område der vi også savner tradisjonelle beskrivelser av noe omfang, nemlig fonetikken. Omfattende deskriptive studier av norsk uttale, særlig innenfor et akustisk rammeverk av den typen en språkteknologi trenger, er mangelvare. For det annet, når det gjelder grammatikker, trenger vi ikke beskrivelser i prosa, men formelle grammatikker som kan tolkes av analyse- og genereringsalgoritmer, grammatikker som er formulert i en formalisme tilpasset formålet med det aktuelle produkt, og som beskriver en mengde grammatiske detaljer som tradisjonelle grammatiske beskrivelser overlater til leserens intuisjon å fylle ut. For det tredje har vi behov for elektroniske ordbøker, eller leksikalske databaser, som tilfredsstiller langt strengere og tildels andre krav enn vanlige utgitte ordbøker gjør.

Vi diskuterer ofte grensene for hva det er mulig å få til av språkteknologiske produkter, for eksempel automatisk oversettelse eller tekstforståelse. Dette finnes det ulike forventninger om. Men uansett hvor langt vi kan komme, er det kanskje ikke for dristig å antyde at den viktigste forklaringen på avstanden mellom det stedet og der vi er idag, ligger i mangelen på dekkende og tilpassede beskrivelser av språkenes leksika, deres ordforråd. På dette feltet trenger vi både en videreutvikling av teoretiske redskaper og et omfattende deskriptivt arbeid. Et lite blikk på fagområdets utvikling kan gi et inntrykk av hva oppgaven innebærer. Til et stykke ut på 80-tallet inneholdt gjerne datalingvistiske systemer leksika av leketøy-størrelse, konstruert for det aktuelle systemet og uten å gjøre krav på stor dekningsgrad. Så begynte maskinleselige versjoner av ordbøker å bli tilgjengelige, og vi fikk systemer som kunne ekstrahere informasjon om ord fra slike ordbøker og bruke denne informasjonen i tekstforståelsen, for eksempel i disambigueringen (entydiggjøringen) av flertydige ord i tekster. Automatisk ord-disambiguering på grunnlag av den sammenhengen ordet sto i i teksten, ble et aktivt forskningsfelt, og de alternative betydningene systemene fikk å velge blant, var gjerne de man fant i en slik maskinleselig ordbok. På 90-tallet kom vi inn i en ny fase som en følge av at store elektroniske tekst-korpora ble tilgjengelige, med en ledsagende vekst i statistiske studier på grunnlag av dem. Korpusstudiene viser stadig tydeligere hvor utilstrekkelige de tradisjonelle elektroniske ordbøkene er som grunnlag for orddisambiguering og tekstforståelse. Som enhver ordboksforfatter (men kanskje ikke enhver språkteknolog) vet, gir ikke klassiske ordbøker den endelige og uomtvistelige inndeling og beskrivelse av ords betydninger, først og fremst fordi det knapt finnes noen slik endelig og uomtvistelig inndeling. Ordbøker skrives med visse brukere og visse bruksformål i tankene, og automatisk ord-disambiguering i arbitrær tekst er normalt ikke blant disse formålene. Med andre ord: Den informasjon vi ønsker å finne om ordene i en ordbase, om deres betydninger og forholdet mellom dem, vil variere med formålet, f.eks. med den teksttypen vi skal behandle, og hva vi vil gjøre med den. Dette innebærer at oppgaven å utvikle en adekvat leksikalsk database for norsk ikke er et prosjekt vi ser avsluttet en gang for alle i overskuelig fremtid. Det er tale om en ressurs som må vedlikeholdes og videreutvikles over lengre tid, og dens empiriske grunnlag må være en annen ressurs, nemlig tekst-korpora, som jeg kommer til.

En annen viktig dimensjon i den nødvendige kunnskapen om norsk språk etableres av våre spesielle språkforhold, med to offisielle skriftspråk, hvert med store variasjonsmuligheter underlagt innviklede og ofte uskrevne begrensninger på hva som hører sammen med hva. Disse problemene kommer til syne i prosjekter som SCARRIE, ledet av professor Koenraad de Smedt i Bergen, med sikte på å utvikle automatisk korrekturlesning bl.a. for norsk. En norsk bruker vil ideelt ønske å kunne velge blant visse subnormer innenfor bokmål og nynorsk, slik at man f.eks. ikke får hele registeret av tillatte former opp som forslag hvis man staver «deltagelse» galt (deltaking, deltaing, deltagelse, deltakelse), men bare de formene som tilhører den subnormen man har valgt. Selv om variasjon er et normalt skriftspråkfenomen, finner vi antagelig ikke maken til Norges spesielle skriftspråksituasjon noen andre steder i verden. Derfor er de produkter vi måtte ønske å tilpasse til norsk, ofte ikke innrettet slik at denne type variasjonsbredde uten videre kan ivaretas. Med andre ord, vår skriftspråksituasjon er enda en grunn til at norsk språkteknologi ikke bare kan være et spørsmål om å tilpasse utenlandske produkter til norsk. Selve produktets arkitektur må ha tatt høyde for denne typen behov, som dessuten stiller krav til kunnskap om hvordan norsk skriftspråk faktisk ser ut: Hvilket spekter av de offisielt tillatte formene blir faktisk brukt, for eksempel, og hvordan grupperer de seg i operative subnormer? Dette kan ikke besvares gjennom et studium av hva offisielle ordbøker tillater, siden de bare gir oss den foreskrevne norm, og ikke den faktiske, operative – to normbegreper som det er særlig viktig å holde adskilt i vårt land, med sin spesielle språknormeringshistorie. Ordbøkene forteller lite om hvilke valgmuligheter som henger sammen med hvilke (man skriver for eksempel neppe «deltakinga» hvis man skriver «solen&quo;), og hvilke som sjelden eller aldri blir brukt. Derfor trenger vi målrettede, korpusbaserte studier av skriftspråket slik det faktisk ser ut idag – en oppgave det burde være nærliggende for Språkrådet, såvel som universitetsmiljøene, å interessere seg for.

I sitt foredrag ved denne konferansen påpekte Kåre Lilleholt fra Norsk språkråd mange viktige hensyn en norsk språkteknologi bør ivareta. Men han hadde også en uttalelse jeg vil invitere forsamlingen til å tenke kritisk igjennom (siden nå dette skal være en innledning til diskusjon):

«Styresmaktene må ha et ord med i laget om hva som er god og rett norsk.»

Både som lingvist og som interessert skriftspråkbruker kunne jeg tenke meg å ta kraftig avstand fra dette. Hva som er god og rett skriftlig norsk, er et empirisk spørsmål man studerer gjennom å undersøke hvordan folk faktisk skriver, og hvordan kompetente språkbrukere evaluerer det. Det er et spørsmål om å avsløre de uskrevne operative normer som regulerer faktisk språkbruk og tolkningen av den; det er ikke noe som vedtas av våre myndigheter. Selv om et demokratisk valgt Storting skulle finne på å beslutte at x er god og rett norsk, eller at y er dårlig stil, så forblir det et meningsløst vedtak hvis det er faktisk galt, og et overflødig vedtak hvis det er faktisk riktig. Det ville være et vedtak som røpet en grunnleggende sviktende forståelse av hva et språk er. (Noe annet er at myndighetene kan vedta at offentlige dokumenter skal skrives på en viss måte – det er noe annet enn å vedta at det er god og rett norsk.)

Hvorfor så mange ord om dette akademiske spørsmål? Av følgende grunn: Hvis vi virkelig er redde for at normeringen av den norsk som språkteknologien skal snakke og skrive, skal bli overtatt av bedrifter med kortsiktig fortjeneste som siktemål, så må vi ikke ri oss selv ut over sidelinjen på preskriptive kjepphester. Vi må skille klart mellom de preskriptive normer som er nedfelt i offisielle vedtak, og de operative normer som styrer det folk faktisk skriver og ved ettertanke finner OK, vi må undersøke hvilke de sistnevnte er gjennom korpusbaserte studier, og vi må legge dem til grunn for språkressursutviklingen. Eller sagt på en annen måte: Vi må ikke av ideologiske grunner belemre norsk språkteknologi med et kaos av valgfrie former som aldri blir brukt.

(c) Kunnskap om markedets behov
Det er ikke universitetenes oppgave å utvikle markedsklare språkteknologiske produkter. Én grunn er at de ikke har, og ikke bør bruke sine ressurser på å utvikle, den markedskunnskap som trenges. En annen er at de ikke skal konkurrere med sine studenters fremtidige arbeidsgivere. En tredje er at det ville ta ressurser bort fra den mer grunnleggende forskningen, som det neppe er noen andre som vil ivareta.

Samtidig er det viktig at den grunnleggende forskningen og undervisningen som finner sted ved universitetene, er informert om markedets behov, og om nye produkter. Dette kan skje gjennom gode kontakter mellom den språkteknologiske industrien og forskningsmiljøene. Vi bør ta sikte på et samarbeid mellom universitet og industri om hovedfags- og doktorgradsprosjekter, der våre kandidater kan lære den anvendte og markedsorienterte siden av faget å kjenne, og der kunnskap om dette også tilflyter resten av forskningsmiljøene. Selv om ikke all forskning skal være anvendt forskning, vil slik kunnskap klart være en verdifull og potensielt retningsgivende inspirasjonskilde også for grunnforskningen.

Men det er jo en forutsetning for dette at vi overhodet har en språkteknologisk industri å forholde oss til. Uten en levedyktig norsk og nordisk språkteknologisk industri blir det ikke mye av kulturvernet mot engelskbaserte produkter. Derfor må det være en del av satsningen å sørge for at en slik kunnskapsintensiv industri kan få levelige betingelser, i erkjennelsen av at den kan trenge tid før den tjener penger.

2. Ressurser

Med ressurser tenker jeg ikke her først og fremst på penger, men på gjenbrukbare språkressurser. Våre dagers vekt på gjenbrukbare språkressurser har sin bakgrunn i den tradisjonelle situasjonen at slike ressurser – leksikalske databaser, tekstkorpora – oftest ble utviklet spesielt for det enkelte prosjekt eller det enkelte produkt. Dette er både uøkonomisk og uhensiktsmessig: Det samme arbeidet utføres mange ganger, og hver enkelt ressurs får et mer begrenset omfang enn den kunne ha hatt. Derfor satses det idag på utviklingen av store språkressurser som skal være anvendbare i ulike prosjekter og produkter.

Dette fremstår som ett av de mest presserende områdene innenfor en norsk språkteknologisk satsning. Norge ligger etter sine naboland i utviklingen av gjenbrukbare språkressurser, selv om enkelte prosjekter er igang, f.eks. NorKompLex ved NTNU, med oppbygging av et norsk komputasjonelt leksikon, og taggingprosjektet ved Universitetet i Oslo. Vi mangler for eksempel fremdeles et omfattende og velstrukturert norsk tekstkorpus.

Slike elektroniske tekstkorpora er på mange måter den basale typen ressurs: Store, skjønnsomt sammensatte tekstsamlinger, med kodet informasjon om tekstenes struktur og ordforekomstenes grammatiske egenskaper i form av tagger. Korpora er uunnværlige i mange ulike typer prosjekter, og utviklingen av dem står i en vekselvirkning med utviklingen av andre typer ressurser. Tagging av ordformer, f.eks., innebærer at hver enkelt ordform i teksten får tilføyet informasjon om hvilken oppslagsform den er en form av, og hvilke grammatiske kategorier, så som hankjønn, flertall, bestemt, den uttrykker. Slik tagging kan skje tilnærmet automatisk, som i taggingprosjektet i Oslo, der det utvikles en såkalt ‘constraint grammar’ for norsk som taggingen kan bygge på, sammen med et leksikon (ordforråd). ‘Constraint grammar’ er en formalisme utviklet av professor Fred Karlsson, med egenskaper tilpasset dette formålet: Begrenset uttrykkskraft, men rask og effektiv analyse av ordformenes kontekst for å avgjøre hvilken form det er man står overfor. Her ser vi altså hvordan én ressurs forutsetter en annen: Et tagget korpus forutsetter en viss type grammatikk, og et leksikon, hvis omfattende tagging skal kunne gjennomføres.

Men samtidig er det taggede korpus selv en ressurs for utvikling av grammatikker for andre formål, som f.eks. tekstforståelse eller maskinoversettelse. Da trenges grammatikker med større uttrykkskraft og andre formelle egenskaper enn constraint grammar, og skal slike grammatikker ha en realistisk dekningsgrad, er et tagget korpus uunnværlig som empirisk grunnlag. Som allerede nevnt er slike korpora også en uunnværlig ressurs ved utviklingen av mer omfattende leksika, eller leksikalske databaser. Den informasjon man kan ønske å knytte til det enkelte oppslag i en slik database, aktualiserer mange av de temaene jeg har vært innom. Taleteknologiske produkter som kan gjennomføre talegjenkjennelse eller talesyntese, trenger et ordforråd, og det kan genereres fra en leksikalsk database hvis fonetisk informasjon er knyttet til oppslagene. Tekstforståelse, inferanse, informasjonssøkning, flerspråklig tekstbehandling og maskinoversettelse trenger også ordforråd, som i disse tilfellene forutsetter at bestemte typer av semantisk informasjon er knyttet til oppslagene i den leksikalske databasen. Semantisk informasjon omfatter flere ting, blant annet slikt som at en hest er et dyr, og at en hingst er en mannlig hest, og at ‘hest’ kan oversettes med ‘horse’. Det vil si, informasjonen angår blant annet semantiske relasjoner mellom ord i samme språk og på tvers av språk. Hvis det fremgår av en tekst at Pelle er en hest, og et tekstforståelsessystem så blir spurt om Pelle er et dyr, vil denne typen informasjon sette systemet istand til å svare «ja». Å legge slik informasjon inn manuelt i en leksikalsk database av realistisk omfang er en tilnærmet uoverkommelig oppgave i praksis, så her er mer eller mindre automatiserte metoder nødvendige. Til dette trenges tekstressurser som tillater en å utlede semantisk informasjon og informasjon om forholdet mellom ulike språk. Flerspråklige tekstkorpora er eksempler på slike tekstressurser, særlig oversettelseskorpora, som inneholder tekster parallellstilt med sine oversettelser til andre språk.

Utviklingen av gjenbrukbare språkressurser for norsk blir dermed enda et satsningsområde, der for eksempel NFR burde kunne bidra, gjerne sammen med andre sentrale organer. Tradisjonelt er kanskje Forskningsrådet skeptisk til å bruke prosjektmidler til oppbygging av ressurser av typen tekstkorpora, siden det ikke sees på som grunnforskning i seg selv. Et slikt resonnement kan ofte ha noe for seg, men i dette tilfellet snakker vi om en så sentral og viktig oppgave for et helt forskningsfelt at saken bør stille seg annerledes. Den ressurstypen som nå skiller seg ut med høyest prioritet, er tekstkorpuset. Vi bør snarest mulig få et omfattende norsk tekstkorpus på bena, og sørge for at det kan videreutvikles og vedlikeholdes over tid.

I sitt foredrag mente Kolbjørn Heggstad at utviklingen av slike korpora ikke er en oppgave for universitetene, fordi den ikke skulle innebære forskning. Jeg tror likevel at universitetene i det minste bør delta i denne ressursutviklingen – gjerne i samarbeid med private aktører – av hensyn til den frie tilgjengelighet av ressursene. Hva forskning angår, er det viktig at det knyttes forskningsprosjekter til slike ressurser fra et tidlig stadium i utviklingsprosessen. Erfaringene fra slike prosjekter, der ressursene blir brukt, kan så bli en del av grunnlaget for avgjørelsene om hvordan ressursene skal bygges opp og struktureres. Utvikling av ressurser må alltid tenkes sammen med så presise idéer som mulig om hva de skal brukes til. Gjenbrukbarhet sikres da bare hvis man har et så bredt spektrum av anvendelsesmuligheter som mulig i tankene, og det tilsier at utviklingen skjer i et åpent miljø med størst mulig kontaktflate mot ulike prosjekter.

Ideelt sett bør utviklingen av slike fellesressurser finansieres offentlig, og offentlig finansierte ressurser bør være fritt tilgjengelige både for forskningsformål og kommersielle formål. Men ved denne typen ressurser havner vi øyeblikkelig i velkjente rettighetsproblemer. Tekstkorpora har forfattere hvis interesser naturligvis må ivaretas, og dette legger i praksis begrensninger på anvendeligheten. Lignende problemer oppstår når leksikalske databaser benytter som datagrunnlag ordbøker eller ordbaser utviklet av andre. Hvis en felles språkteknologisk satsning kunne føre til fungerende løsninger på dette feltet, ville vi være kommet et langt skritt videre. Jeg forestiller meg at en del av problemene kan løses gjennom bedre informasjon om hvordan ressursene skal brukes. Slik informasjon bør kunne redusere forfatteres og forlags frykt for at et tekstkorpus skal kunne innebære noen form for konkurranse for den utgitte boken. Men dette er et stort og komplekst problemområde der enkle løsninger neppe finnes.

3. Holdninger

Allerede sammensetningen ‘språkteknologi’ avbilder sammenføyningen av to kulturer: Den humanistiske og den teknologiske. Men egentlig har vi to ganger to kulturer: På tvers av grensen mellom humaniora og teknologi går grensen mellom forskning og næringsliv. Og når fire kulturer møtes, er kollisjonsfaren stor. Teknologer og realister er utvilsomt mer vant til å forholde seg til grensen mellom forskning og næringsliv enn humanister er. At humanistisk innsikt er teknologisk anvendelig, og derigjennom kommersielt interessant, er et forholdsvis nytt fenomen. Derfor er kanskje skepsisen til at teknologiske hensyn og markedsforhold skal være premissleverandører for forskningen, ekstra sterk i enkelte humanistiske miljøer.

Jeg tror ikke vi bør avfeie disse problemene som irrasjonelle, men prøve å skille mellom fordommer og legitime bekymringer. Under kategorien ‘fordom’ kan man rubrisere den holdning at en teknologisk tilnærming til språk er farlig fordi den må se bort fra alt som gjør språk til et humanistisk anliggende: Språk som et sentralt kulturfenomen og språk som et meningsskapende redskap for mennesket. Tvert imot, kunne man si – i et historisk perspektiv fremtrer det som helt normalt at ny teknologi gir nye forståelsesrammer for humanistiske emner, fra trykkekunsten til moderne massemedier. Det spesielle ved den moderne språkteknologien er den tydeligere teknologiske anvendbarheten av humanistisk innsikt den innebærer. Og den forutsetter i sin tur at språklige fenomener studeres ved hjelp av mer formelle og matematiske teoretiske redskaper enn man ellers typisk finner i humanistiske miljøer (selv om lingvistiske miljøer har brukt slike teoretiske redskaper lenge). Her står vi overfor en holdningsbarriere som bør angripes hvis vi vil øke rekrutteringen til språkteknologiske emner: Den holdning at formelle metoder – formell logikk, modellteoretisk semantikk, formell grammatikk- og automatteori, parsingteori, statistikk – er vesensfremmede for humanistiske fag og noe studenter ved humanistiske fakulteter med god samvittighet kan sky.

En annen fordom, som vi neppe finner så mye av idag som for 20 år siden, er at universitetene bør ha minst mulig med næringslivet å gjøre. Idag er det kanskje snarere en fordom i deler av næringslivet at universitetene har denne fordommen.

Samtidig finnes det en legitim bekymring her, som ikke behøver å være fordomsfull, nemlig at en teknologisk motivert satsning av den art vi snakker om, kan komme til å undervurdere behovet for mer langsiktig grunnforskning, og til å se bort fra at hvis slik forskning ikke får skje ved universitetene, så vil den ikke finne sted – i hvert fall ikke i et land uten bedrifter store nok til å drive egen grunnforskning. Det språkteknologiske forskningsprogrammet i EUs fjerde rammeprogram kunne gi opphav til slike refleksjoner. Der skulle ethvert prosjekt ikke bare ha en industriell partner, men også være ledet av en industriell partner, og dertil skulle veien til det ferdige produkt være klart synlig på forhånd og helst ikke ta mer enn tre år. Det var altså ikke tale om å utvikle ny kunnskap, men om å applisere eksisterende kunnskap. Jeg må innrømme at jeg av og til var forbauset over at det overhodet var mulig å finne universitetspartnere til enkelte av disse prosjektene. Når man erkjenner hvor mange grunnleggende og teknologisk relevante ting om språk og deres formaliserbarhet vi ikke vet, synes jeg det må fortone seg som en avsporing og en tålmodighetsprøve for grunnforskningsmiljøene å skulle bruke betydelige deler av sin arbeidskraft på prosjekter der det ikke skal gis rom for tenkning av fundamentalt nye tanker innenfor disse miljøenes fagområder.

Nå kan det være gode grunner til at den språkteknologiske satsningen i EU fikk denne formen. I visse perioder kan det naturligvis være velmotivert å prioritere applikasjon av eksisterende kunnskap foran utvikling av ny kunnskap. Men den språkteknologiske satsningen i Norge bør ikke få denne formen. Den bør også reflektere inn en plass for grunnforskningen – men da vel å merke en grunnforskning som er engasjert i mulige språkteknologiske anvendelser og informert om markedets behov. Kanskje vi burde snakke om en anvendelsesorientert grunnforskning. Poenget er at satsningen også må gi rom for mer langsiktige prosjekter med sikte på å skaffe til veie ny grunnleggende kunnskap, i tillegg til de prosjektene som skal ha et salgbart produkt i den andre enden. Ellers tror jeg de små kildene vi foreløpig har til denne kunnskapsbaserte industrien fort vil tørke inn.