Referat fra konferansen
«Språkteknologi på norsk»

Interessenter innenfor norsk og nordisk språkteknologi kom sammen 12.-13. oktober på Lysebu konferansesenter for å diskutere norsk språkteknologi. Deltakerne ble tilbudt en serie foredrag omkring språkteknologiens utvikling og status, og de fikk demonstrert forskjellige anvendelser av denne teknologien. Disse foredragene, med den avsluttende paneldebatten, er summert opp nedenfor.

Problemstillinger som kom opp
Språkpolitiske
Hvordan vil økonomiske hensyn legge føringer på språket i fremtiden? På samme måte som at norsk kan bli marginalisert i forhold til de store språksamfunnene, vil en av økonomiske hensyn kunne favorisere enkelte dialekter fremfor andre. Én stor dialekt er mer profitabel fra bedriftsøkonomiske hensyn, og vil derfor sannsynligvis bli viet større oppmerksomhet av markedsstyrte bedrifter. Kommentarer til dette spørsmålet ble gitt av flere, også når det gjelder forholdet mellom skriftspråkene nynorsk og bokmål.
Utdanning
Hvor finner vi rekruttene til språkteknologisk utdanning, og hvordan får man koblet ingeniøren sammen med humanisten? Utdanning av språkteknologer og hva de bør kunne ble tatt opp av flere foredragsholdere.
Til tross for at flere humanistiske fakultet har datalingvistikk som fag, er ikke det nok til å holde fremtiden med den kompetanse som trengs for å drive teknologien nasjonalt.
Næringsliv
Hvilke språkteknologiske produkter er det økonomisk forsvarlig å satse på, hvilke trengs? Nødvendigheten av språkteknologisk satsing viser seg bl.a. i de applikasjoner som utvikles og som enkelte bedrifter satser på. Innenfor kommunikasjon ligger et stort potensial i utvikling av telefonitjenester, som for eksempel opplysningstjenester og enkelte sekretærtjenester. Ellers er informasjonsbehandling med språklige data som utgangspunkt et av feltene det arbeides med i Norge og internasjonalt. Presentasjonene viste noen av de prosjektene som er under utvikling innenfor disse områdene.

Åpning ved politisk rådgiver i Nærings- og handelsdepartementet
Hans Tormod Antonsen, leder for regjeringens IT-utvalg.

Antonsen sa at NFR har fått beskjed om at språkteknologi er ett av tre nye satsingsområder innenfor IT. Ved siden av NFR skal SND være en sentral aktør. Næringsdepartementet ønsker seg et tett samarbeid mellom næringsliv og forsknings- og utdanningsmiljøer, og tette inngrep med utenlandske aktører. Han refererte her til samarbeidet mellom Nordisk Språkteknologi AS og Lernout & Hauspie. Vår spesielle språksituasjon krever store grunnlagsinvesteringer. Etter en rent politisk vurdering burde man ikke «lykkes altfor godt» med bokmål slik at ikke nynorsk ble inkludert i satsingen.
 

Språkteknologi som kulturforsvar
Kåre Lilleholt, leder i Norsk språkråd

Lilleholt diskuterte språkteknologiens konsekvenser innenfor Språkrådets overordnete målsetting om å bevare norsk språk som kulturarv. Språkrådet planlegger å opprette et eget sekretariat for å knytte seg til de som utvikler teknologien og dermed indirekte definerer standarder for språkbruk. Dette sekretariatet skal fungere som et bindeledd mellom kultur, forskning og IT, og som et knutepunkt for kontakten med EU. Det må være en rollefordeling mellom privat og offentlig sektor. Det kan ikke være en offentlig oppgave å drive utvikling og salg. Derimot må det offentliges ansvar være å legge til rette for utvikling av felles språkressurser som er språkspesifikke for norsk, som for eksempel store språkbaser, ordboksbaser og fagterminologi. Dette må gjøres gjennom samordning — alle relevante grupper av fagfolk må dras med i arbeidet — og tilrettelegging av forskningsprogrammer. Lilleholt hilste utviklingen av en norsk språkteknologi velkommen: «Språkteknologi er ikkje noko vi skal forsvara oss mot, det er noko vi skal forsvara oss med».
 

Language technology today and tomorrow
Jo Lernout, Lernout & Hauspie, Belgia

Lernout annonserte offisielt et joint venture-samarbeid med det nystartede firmaet Nordisk Språkteknologi AS på Voss. Det har vært omfattende politisk arbeid på høyt nivå, bl.a. i Næringsdepartementet, bak dette samarbeidet. Lernout poengterte at det vil ta minst 10 år før det kan finnes norsk-engelsk oversettelsesteknologi på lomme-PC-er, og at det er tale om et omfattende utviklingsarbeid som krever store ressurser. Han understreket at dette arbeidet først og fremst krever mer automatisering av repetitive og mekaniske informasjonshåndteringsprosesser, men ikke nye teoretiske semantiske forståelsesmodeller. Det som trengs, er «logistics» i form av tilgjengelige elektroniske språkressurser.
 

Språkteknologi som konkurransefaktor
Oddvar Hesjedal, Telenor

I det kommersielle marked vil språkteknologiske tillegg til standard forbrukerelektronikk være med på å bestemme hva som selger og hva som ikke selger. Bruk av teknologien har økt betraktelig de siste to årene, spesielt innenfor telefoni. Hesjedal kom spesielt inn på telefontjenester, der en av teknologiens anvendelser er å lage intelligente dialogsystemer.
 

Språkteknologisk forsknings- og utviklingsarbeid i Norge (foiler)
Torbjørn Nordgård, NTNU

Nordgård ga en oversikt over utviklingsmiljøene fra 60-tallet og opp til i dag, og viste de forskjellige miljøenes interesseområder, samt hvilke nåværende prosjekter som er i gang. Se de vedlagte foiler for en oversikt. Teknologiens spesielle status innenfor utdanningsinstitusjonene ble beskrevet ved at naturviterne betrakter datalingvistikk som et «mykt» fag, mens det for humanistene fortoner seg som et «hardt» fag. Dette gir rekrutteringsproblemer, fordi uerfarne studenter ikke orienterer seg mot faget. Viderekomne studenter er derimot ofte svært interesserte, og flerfaglighet blir oppfattet som særlig spennende. Nordgård fremhevet at det bare finnes 6 faste stillinger med språkteknologi i fagprofilen her i landet. Det bør derfor investeres mer i undervisning og i oppbygging av elektroniske tekstressurer, for eksempel terminologiske databaser.
 

Kommersielle språkteknologiske aktiviteter i Norge
Kolbjørn Heggstad, IDE as

Kommersiell utnyttelse av teknologien går ut på å levere komponenter til produsenter av andre produkter. Heggstad formulerte en målsetting for norsk språkteknologi: å utvikle en norskspråklig, kompetent teknologi for det norske markedet. I dag er situasjonen at det kommer stadig flere språkkompetente produkter, med stadig bedre kvalitet, og engelsk språk dominerer. På det norske markedet fins det lite tilgjengelige ressurser. Det mangler norske komponenter i tekstbehandlingssystemer, OCR, taleteknologi, maskinoversettelse, tesauruser, referanseverk, handikaputstyr m.m. Det mangler videre både forskningsmiljøer og kommersielle aktører på det norske markedet: «Det finst lite, ingen kan det, vi har ingen stader å gå!» Heggstad kom også inn på de økonomiske og faglige utfordringene som vår særnorske språksituasjon stiller oss overfor. Han hevdet at bokmål er det vanskeligste språket å utvikle språkteknologi for, pga. valgfriheten, og stilte spørsmålet om det ville bli utviklet en egen «IT-normal».
I kontrast til denne tilstandsrapporten stilte Heggstad Lernout & Hauspies handlekraft gjennom samarbeidet med Nordisk Språkteknologi AS (NST). Dette samarbeidet vil gi innsyn i den mest komplette samlingen av språkteknologiske ressurser som er tilgjengelige på markedet, og det kan gi store synergieffekter med tanke på gjenbruk. Det kan videre representere en internasjonal kontaktflate for norske FoU-miljø. Som et eksempel på oppnådde resultat nevnte Heggstad at det var innsamlet et tekstkorpus på 100 mill. løpende ord via Internett, riktignok med uavklarte bruksrettigheter. Heggstad slo til lyd for en «nasjonal dugnad for norsk«, der alle relevante aktører måtte være med.
 

Språkteknologi på dansk(foiler)
Bente Maegaard, CST
 

Språkteknologi på finsk, fra grunnforskning til eksportnæring
Fred Karlsson, Lingsoft

Karlsson ga et overblikk over utviklingen av språkteknologisk kompetanse i Finland de siste 20 år. Han fremhevet betydningen av språkuavhengige modeller, fordi eksisterende engelskbaserte modeller som neglisjerte leksikon og morfologi rett og slett ikke fungerte.  Karlsson beskrev utviklingen som «de små stegens politik». Som en kritisk kommentar til Heggstads innlegg sa han at det i firmaet Lingsoft allerede var utviklet språkteknologiske verktøy for norsk bokmål (morfologisk analysator, tesaurus), og han spurte om det virkelig kunne være meningsfullt å «finna upp dessa hjulen» en gang til. Alle norske universiteter kan i dag lisensiere disse verktøyene til forskningsformål, og det burde være en viktig målsetting å utnytte kjent teknologi. Karlsson fremhevet også betydningen av konkurranse, og så en fare i at noen fikk monopol. Når det gjaldt kompetanseutvikling, uttrykte Karlsson bekymring. Han øynet en betydelig rekrutteringssvikt ved forskningsinstitusjoner i Finland.
 

Rammevilkår for språkteknologisk forskning og utvikling i Norge(foiler)
Tron Espeli, NFR

NFR ser at språkteknologien er blitt aktuell. Mengden av språklig kodet informasjon øker, noe som gjør språkteknologi til en nødvendig teknologi. Dette gir NFR en grunn til å satse på området. Rådets oppgave blir først og fremst tilrettelegging for arbeidet nasjonalt, samt fungere som formidler av internasjonalt samarbeid.
 

Språkteknologisk forskning og utvikling i EU-regi
Jostein Hauge, Paraplyprosjektet

Hauge ga en oversikt over EUs ulike forskningsprogrammer med språkteknologisk innhold, og påpekte at den norske deltakelsen til nå har vært altfor svak. Det nye rammeprogrammet som er på vei, «Human Language Technologies», vil bli produktrettet og orientert mot multimedia. Begrepet «demonstrator» vil komme til å stå sentralt, dvs. utvikling av prøveversjoner som ligger tett opp til den endelige markedsversjonen.
 

Ingeniør eller filolog, eller ingeniør og filolog - om kompetansebehov (hele innlegget)
Koenraad de Smedt, UiB

Et problem for språkteknologisk forskning er mangelen på kompetanse, spesielt innenfor datalingvistikk. De Smedt etterlyste en nasjonal strategi for å bøte på dette. Søkelyset ble spesielt rettet mot universitetsstrukturen, og hvilke fag datalingvistikk sorterer under. I Norge sorterer datalingvistikk under humanistiske fag, mens i andre land som for eksempel USA og Tyskland blir faget studert ved informatikkavdelinger. De Smedt luftet ideen om interfakultære program for å bedre denne situasjonen.
 

Hva bør en språkteknologisk satsning inneholde? (I) (hele innlegget)
Helge Dyvik, Institutt for lingvistikk og litteraturvitenskap Seksjon for lingvistiske fag Universitetet i Bergen
 

Hva bør en språkteknologisk satsning inneholde? (II)
Arne Gilbakken, NST

Gilbakken presenterte det nystiftede firmaet Nordisk Språkteknologi AS (NST) — på Voss. Gjennom en joint venture-avtale med Lernout & Hauspie satser NST på å bli en nordisk markedsleder i tilpassingen av språkteknologiske applikasjoner til alle de nordiske språkene. Han fremhevet de språkpolitiske utfordringene og fremhevet viktigheten av at det norske språkmangfoldet (bokmål, nynorsk, dialekter) ble gjenspeilet i teknologiske produkt. Gilbakken gikk også inn på forholdet mellom offentlig og kommersielt ansvar, og mente at utviklingen av store ressurser i form av tale- og tekstkorpus burde være et offentlig ansvar. Gilbakken understreket også at NST har et stort behov for kompetanse, og ønsker et tettest mulig samarbeid med universitetene uten å «tappe» disse. Det skal etableres et datalingvistisk kompetansesenter på Voss etter modell av «Flandern Language Valley» og med forbindelser til denne i form av studentutvekslings- og hospitantordninger.
 

Vil framtidas språkteknologi forstå norsk? (foiler)
Torbjørn Svendsen, NTNU

For å kunne utvikle systemer som kan forstå norsk, trengs det grunnleggende ressurser. Svendsen poengterte spesielt behovet for et stort talekorpus. Dersom vi skal klare å utvikle systemer som skal forstå tale og inngå i dialoger med mennesker, trenger teknologien et bredt sammensatt korpus. Kravene til omfang og innhold bør være høyere enn internasjonal standard, pga. vår spesielle språk- og dialektsituasjon. Svendsen fremhevet også at slike generiske, nasjonale korpus må suppleres av domene- og oppgavespesifikke korpus. Arbeidet med organisering av et nasjonalt korpus bør modulariseres. EAGLES har anbefalt at det bør foreligge 100 timer godt merket høykvalitets tale med god spredning av kilder som grunnlag for talebaserte systemer. I Norge finnes i dag 2 timer.

Paneldebatt
Panel:
Tove Lenschow, IBM
Torbjørn Svendsen, NTNU
Torbjørn Nordgård, NTNU
Arne Gilbakken, NST
Tron Espeli, NFR

Debatten ble innledet med et innlegg fra hver deltager i panelet

Tove Lenschow informerte om arbeidet i IBMs oversettelsesgruppe, der de særlig arbeidet med å automatisere oversettelse av tekniske håndbøker. Spesielt ble det terminologiske arbeidet med denne type oversettelse trukket frem som viktig.

Torbjørn Svendsen fremhevet nødvendigheten av forskning og kompetanse rettet mot valg av språkteknologiske produkter og tilpasning av eksisterende programvare. Når det gjaldt utdanning, understreket Svendsen at spesialisering ikke burde skje i utdanningsinstitusjonene. Disse skulle sørge for en bredt kunnskapsgrunnlag, og spesialiseringen burde foretas i en aktuell arbeidssituasjon.

Torbjørn Nordgård redegjorde for foreliggende planer om å integrere språkteknologi i sivilingeniør-studiet ved NTNU. Nordgård poengterte viktigheten av at ressurser utvikles i en nasjonal sammenheng, og at de mest grunnleggende ressurser, som korpus og elektroniske ordbøker, måtte være åpent tilgjengelig og vederlagsfrie.

Arne Gilbakken kommenterte utdannelsessituasjonen, og mente at universitetene ikke er nok. Kompetanseutvikling måtte foregå i samarbeid med industrien. Teknologien kan ikke utvikles fra «scratch», og vi i Norge måtte være forberedt på å benytte utenlandsk teknologi tilpasset norske forhold.

Tron Espeli fremholdt at når det gjaldt grunnlagsinvesteringer, kunne ikke NFR gjøre dette alene. NFR har offentlige forpliktelser, men Espeli hevdet at flere aktører kunne involvere seg i finansiering av grunnleggende ressursutvikling, og at pluralisme i denne sammenheng var bra.
 

Diskusjon
Denne hadde to sentrale temaer, (1) forholdet mellom nynorsk og bokmål og (2) lokalisering av norsk språkteknologi. Nedenfor gjengis hovedtrekkene i diskusjonen. Det gjøres oppmerksom på at selv om det refereres til personers oppfatninger og meninger, så representerer ikke ytringene gitt her noen bokstavelig transkribering av diskusjonen.
 

Lokalisering
Lingsofts representanter (Sjur Moshagen og Antii Arppe) påpekte at firmaet hadde utviklet elektroniske ordbøker for nynorsk og bokmål, og spurte på bakgrunn av det om det var nødvendig å utvikle disse ressursene på nytt i en nasjonal sammenheng.
 

Kommentarer
Bente Maegaard svarte fra salen at i forbindelse med bl.a. kompetanseutvikling var det viktig at utviklingen av denne type ressurser ble foretatt nasjonalt.

Torbjørn Svendsen fremholdt at vi trengte arbeidsplasser i Norge.

Torbjørn Nordgård kommenterte at oppbygging av kompetanse, bla. gjennom ressursutvikling, burde skje nasjonalt, men at ferdig teknologi kunne kjøpes utenlands.

Tove Lenschow forespeilte farene ved å kjøpe teknologi og ressurser utenlands, nemlig at man skaffer til veie noe som er for dårlig og som rett og slett ikke virker.

Arne Gilbakken trakk frem synergieffekten av å legge vekt nasjonal utvikling, dvs. at teknologien, fagmiljøene og arbeidskraften er samlet. Imidlertid må ikke alt nødvendigvis foregå i Norge eller på norsk: vi kan starte med utenlandsk teknologi og deretter bygge elementer som er spesifikke for norsk i Norge.

Tore Burheim stilte spørsmål om fremtiden for norsk språkteknologi, og luftet tanken om at den kanskje ville bli styrt av multinasjonale selskap.
Leveranse av komponenter, sammen med en viss grad av offentlig støtte, burde gi muligheter for småbedrifter til å delta i denne industrien som underleverandør.
 

Nynorsk og bokmål
Sjur Moshagen åpnet diskusjonen rundt dette temaet ved å påpeke at det EU-støttede SCARRIE-prosjektet (et prosjekt som skal utvikle automatisert korrekturlesing for bla. norsk) kun har bokmålskomponent og ingen for nynorsk.

Koenraad de Smedt, prosjektleder for SCARRIE i Norge, forklarte dette med budsjettkutt. I de opprinnelige planene var det med en komponent for nynorsk.

Arne Gilbakken kommenterte videre at nynorsk var viktig å utvikle, men i en industriell sammenheng ville kommersielle hensyn komme først. Markedsorientering dikterer at bokmål kommer i første rekke.

Oddmund Hoel opplyste at Samlaget hadde en elektronisk nynorskordliste med fonetisk informasjon. Denne ordlisten er imidlertid ikke fritt tilgjengelig. Han påpekte faren ved at prosjekter ble utviklet etter prinsippet bokmål først, deretter nynorsk, og foreslo som vilkår for offentlig støtte av prosjekter at de utviklet bokmål og nynorsk parallelt.

Kolbjørn Heggstad repliserte at i og med at forlagene fikk statlig støtte, så skulle de ressurser de utviklet, falle i samme kategori som andre som utvikler nynorskmateriale med offentlige midler.

Knut Kvale opplyste at i Telenors satsing på taleteknologi, har som forutsetning at alle brukere av norsk skal kunne nyttiggjøre seg den. Dette medfører at Telenor søker å tilpasse teknologien til samtlige varianter av norsk talemål. Kvale mente også at det egentlig ikke var så mye dyrere å lage applikasjoner for bokmål og nynorsk. Hovedkostnadene ligger i den tekniske utviklingen, og ikke i selve tilpasningen til en spesiell norsk variant.

Sjur Moshagen kommenterte i forlengelsen av dette at Lingsoft, som har ordlister for nynorsk og bokmål, aldri har hatt noen statsstøtte.

Janne Bondi Johannessen kunne opplyse i forbindelse med varianter av norsk skriftspråk, at taggeren utviklet ved Universitet i Oslo med støtte fra NFR, kan forstå unormert skrift.
 

Panelets oppsummering
Tron Espeli oppsummerte ved å trekke frem de nasjonale interesser i å investere i oppbygging av ressurser, som for eksempel korpus.

Arne Gilbakken fokuserte på de økonomiske kostnader for kommersielle bedrifter som skal dekke samtlige dialektvarianter i utviklingen av språkteknologi.

Torbjørn Nordgård eksemplifiserte statlig støtte ved at NorKompLeks, støttet fra NFR, har både en nynorsk- og en bokmålskomponent.

Torbjørn Svendsen kommenterte diskusjon omkring nynorsk og bokmål ved å se på anvendelser. I dikteringssystemer er bokmål vanskelig nok i seg selv.

Tove Lenschow fulgte opp ved å opplyse at IBM alltid har hatt stavelseskontroll for begge skriftspråkene. Hun mente også at språkteknologiske moduler skulle være offentlig tilgjengelige.


Denne siden ble sist oppdatert 1.12.98.
Konferansesidene vedlikeholdes av HIT-senteret v/Anne Lindebjerg.
Kommentarer, og spørsmål m.v. kan sendes til NIFST sekretariatet spraaktek98@hit.uib.no.