Interessenter innenfor norsk og nordisk språkteknologi kom sammen 12.-13. oktober på Lysebu konferansesenter for å diskutere norsk språkteknologi. Deltakerne ble tilbudt en serie foredrag omkring språkteknologiens utvikling og status, og de fikk demonstrert forskjellige anvendelser av denne teknologien. Disse foredragene, med den avsluttende paneldebatten, er summert opp nedenfor.
Problemstillinger som kom opp
Språkpolitiske
Hvordan vil økonomiske hensyn legge føringer på
språket i fremtiden? På samme måte som at norsk kan bli marginalisert
i forhold til de store språksamfunnene, vil en av økonomiske hensyn
kunne favorisere enkelte dialekter fremfor andre. Én stor dialekt
er mer profitabel fra bedriftsøkonomiske hensyn, og vil derfor sannsynligvis
bli viet større oppmerksomhet av markedsstyrte bedrifter. Kommentarer
til dette spørsmålet ble gitt av flere, også når
det gjelder forholdet mellom skriftspråkene nynorsk og bokmål.
Utdanning
Hvor finner vi rekruttene til språkteknologisk utdanning, og
hvordan får man koblet ingeniøren sammen med humanisten? Utdanning
av språkteknologer og hva de bør kunne ble tatt opp av flere
foredragsholdere.
Til tross for at flere humanistiske fakultet har datalingvistikk som
fag, er ikke det nok til å holde fremtiden med den kompetanse som
trengs for å drive teknologien nasjonalt.
Næringsliv
Hvilke språkteknologiske produkter er det økonomisk forsvarlig
å satse på, hvilke trengs? Nødvendigheten av språkteknologisk
satsing viser seg bl.a. i de applikasjoner som utvikles og som enkelte
bedrifter satser på. Innenfor kommunikasjon ligger et stort potensial
i utvikling av telefonitjenester, som for eksempel opplysningstjenester
og enkelte sekretærtjenester. Ellers er informasjonsbehandling med
språklige data som utgangspunkt et av feltene det arbeides med i
Norge og internasjonalt. Presentasjonene viste noen av de prosjektene som
er under utvikling innenfor disse områdene.
Åpning ved politisk rådgiver i Nærings-
og handelsdepartementet
Hans Tormod Antonsen, leder for regjeringens IT-utvalg.
Antonsen sa at NFR har fått beskjed om at språkteknologi
er ett av tre nye satsingsområder innenfor IT. Ved siden av NFR skal
SND være en sentral aktør. Næringsdepartementet ønsker
seg et tett samarbeid mellom næringsliv og forsknings- og utdanningsmiljøer,
og tette inngrep med utenlandske aktører. Han refererte her til
samarbeidet mellom Nordisk Språkteknologi AS og Lernout & Hauspie.
Vår spesielle språksituasjon krever store grunnlagsinvesteringer.
Etter en rent politisk vurdering burde man ikke «lykkes altfor godt»
med bokmål slik at ikke nynorsk ble inkludert i satsingen.
Språkteknologi som kulturforsvar
Kåre Lilleholt, leder i Norsk
språkråd
Lilleholt diskuterte språkteknologiens konsekvenser innenfor Språkrådets
overordnete målsetting om å bevare norsk språk som kulturarv.
Språkrådet planlegger å opprette et eget sekretariat
for å knytte seg til de som utvikler teknologien og dermed indirekte
definerer standarder for språkbruk. Dette sekretariatet skal fungere
som et bindeledd mellom kultur, forskning og IT, og som et knutepunkt for
kontakten med EU. Det må være en rollefordeling mellom privat
og offentlig sektor. Det kan ikke være en offentlig oppgave å
drive utvikling og salg. Derimot må det offentliges ansvar være
å legge til rette for utvikling av felles språkressurser som
er språkspesifikke for norsk, som for eksempel store språkbaser,
ordboksbaser og fagterminologi. Dette må gjøres gjennom samordning
— alle relevante grupper av fagfolk må dras med i arbeidet — og tilrettelegging
av forskningsprogrammer. Lilleholt hilste utviklingen av en norsk språkteknologi
velkommen: «Språkteknologi er ikkje noko vi skal forsvara oss
mot, det er noko vi skal forsvara oss med».
Language technology today and tomorrow
Jo Lernout, Lernout & Hauspie, Belgia
Lernout annonserte offisielt et joint venture-samarbeid med det nystartede
firmaet Nordisk Språkteknologi AS på Voss. Det har vært
omfattende politisk arbeid på høyt nivå, bl.a. i Næringsdepartementet,
bak dette samarbeidet. Lernout poengterte at det vil ta minst 10 år
før det kan finnes norsk-engelsk oversettelsesteknologi på
lomme-PC-er, og at det er tale om et omfattende utviklingsarbeid som krever
store ressurser. Han understreket at dette arbeidet først og fremst
krever mer automatisering av repetitive og mekaniske informasjonshåndteringsprosesser,
men ikke nye teoretiske semantiske forståelsesmodeller. Det som trengs,
er «logistics» i form av tilgjengelige elektroniske språkressurser.
Språkteknologi som konkurransefaktor
Oddvar
Hesjedal, Telenor
I det kommersielle marked vil språkteknologiske tillegg til standard
forbrukerelektronikk være med på å bestemme hva som selger
og hva som ikke selger. Bruk av teknologien har økt betraktelig
de siste to årene, spesielt innenfor telefoni. Hesjedal kom spesielt
inn på telefontjenester, der en av teknologiens anvendelser er å
lage intelligente dialogsystemer.
Språkteknologisk forsknings- og utviklingsarbeid i Norge (foiler)
Torbjørn
Nordgård, NTNU
Nordgård ga en oversikt over utviklingsmiljøene fra 60-tallet
og opp til i dag, og viste de forskjellige miljøenes interesseområder,
samt hvilke nåværende prosjekter som er i gang. Se de vedlagte
foiler for en oversikt. Teknologiens spesielle status innenfor utdanningsinstitusjonene
ble beskrevet ved at naturviterne betrakter datalingvistikk som et «mykt»
fag, mens det for humanistene fortoner seg som et «hardt» fag.
Dette gir rekrutteringsproblemer, fordi uerfarne studenter ikke orienterer
seg mot faget. Viderekomne studenter er derimot ofte svært interesserte,
og flerfaglighet blir oppfattet som særlig spennende. Nordgård
fremhevet at det bare finnes 6 faste stillinger med språkteknologi
i fagprofilen her i landet. Det bør derfor investeres mer i undervisning
og i oppbygging av elektroniske tekstressurer, for eksempel terminologiske
databaser.
Kommersielle språkteknologiske aktiviteter i Norge
Kolbjørn Heggstad,
IDE
as
Kommersiell utnyttelse av teknologien går ut på å
levere komponenter til produsenter av andre produkter. Heggstad formulerte
en målsetting for norsk språkteknologi: å utvikle en
norskspråklig, kompetent teknologi for det norske markedet. I dag
er situasjonen at det kommer stadig flere språkkompetente produkter,
med stadig bedre kvalitet, og engelsk språk dominerer. På det
norske markedet fins det lite tilgjengelige ressurser. Det mangler norske
komponenter i tekstbehandlingssystemer, OCR, taleteknologi, maskinoversettelse,
tesauruser, referanseverk, handikaputstyr m.m. Det mangler videre både
forskningsmiljøer og kommersielle aktører på det norske
markedet: «Det finst lite, ingen kan det, vi har ingen stader å
gå!» Heggstad kom også inn på de økonomiske
og faglige utfordringene som vår særnorske språksituasjon
stiller oss overfor. Han hevdet at bokmål er det vanskeligste språket
å utvikle språkteknologi for, pga. valgfriheten, og stilte
spørsmålet om det ville bli utviklet en egen «IT-normal».
I kontrast til denne tilstandsrapporten stilte Heggstad Lernout &
Hauspies handlekraft gjennom samarbeidet med Nordisk Språkteknologi
AS (NST). Dette samarbeidet vil gi innsyn i den mest komplette samlingen
av språkteknologiske ressurser som er tilgjengelige på markedet,
og det kan gi store synergieffekter med tanke på gjenbruk. Det kan
videre representere en internasjonal kontaktflate for norske FoU-miljø.
Som et eksempel på oppnådde resultat nevnte Heggstad at det
var innsamlet et tekstkorpus på 100 mill. løpende ord via
Internett, riktignok med uavklarte bruksrettigheter. Heggstad slo til lyd
for en «nasjonal dugnad for norsk«, der alle relevante aktører
måtte være med.
Språkteknologi på dansk(foiler)
Bente Maegaard,
CST
Språkteknologi på finsk, fra grunnforskning til eksportnæring
Fred Karlsson,
Lingsoft
Karlsson ga et overblikk over utviklingen av språkteknologisk
kompetanse i Finland de siste 20 år. Han fremhevet betydningen av
språkuavhengige modeller, fordi eksisterende engelskbaserte modeller
som neglisjerte leksikon og morfologi rett og slett ikke fungerte.
Karlsson beskrev utviklingen som «de små stegens politik».
Som en kritisk kommentar til Heggstads innlegg sa han at det i firmaet
Lingsoft allerede var utviklet språkteknologiske verktøy for
norsk bokmål (morfologisk analysator, tesaurus), og han spurte om
det virkelig kunne være meningsfullt å «finna upp dessa
hjulen» en gang til. Alle norske universiteter kan i dag lisensiere
disse verktøyene til forskningsformål, og det burde være
en viktig målsetting å utnytte kjent teknologi. Karlsson fremhevet
også betydningen av konkurranse, og så en fare i at noen fikk
monopol. Når det gjaldt kompetanseutvikling, uttrykte Karlsson bekymring.
Han øynet en betydelig rekrutteringssvikt ved forskningsinstitusjoner
i Finland.
Rammevilkår for språkteknologisk forskning og utvikling i Norge(foiler)
Tron Espeli, NFR
NFR ser at språkteknologien er blitt aktuell. Mengden av språklig
kodet informasjon øker, noe som gjør språkteknologi
til en nødvendig teknologi. Dette gir NFR en grunn til å satse
på området. Rådets oppgave blir først og fremst
tilrettelegging for arbeidet nasjonalt, samt fungere som formidler av internasjonalt
samarbeid.
Språkteknologisk forskning og utvikling i EU-regi
Jostein Hauge, Paraplyprosjektet
Hauge ga en oversikt over EUs ulike forskningsprogrammer med språkteknologisk
innhold, og påpekte at den norske deltakelsen til nå har vært
altfor svak. Det nye rammeprogrammet som er på vei, «Human
Language Technologies», vil bli produktrettet og orientert mot multimedia.
Begrepet «demonstrator» vil komme til å stå sentralt,
dvs. utvikling av prøveversjoner som ligger tett opp til den endelige
markedsversjonen.
Ingeniør eller filolog, eller ingeniør og filolog - om kompetansebehov
(hele innlegget)
Koenraad de Smedt, UiB
Et problem for språkteknologisk forskning er mangelen på
kompetanse, spesielt innenfor datalingvistikk. De Smedt etterlyste en nasjonal
strategi for å bøte på dette. Søkelyset ble spesielt
rettet mot universitetsstrukturen, og hvilke fag datalingvistikk sorterer
under. I Norge sorterer datalingvistikk under humanistiske fag, mens i
andre land som for eksempel USA og Tyskland blir faget studert ved informatikkavdelinger.
De Smedt luftet ideen om interfakultære program for å bedre
denne situasjonen.
Hva bør en språkteknologisk satsning inneholde? (I) (hele
innlegget)
Helge Dyvik,
Institutt
for lingvistikk og litteraturvitenskap Seksjon for lingvistiske fag
Universitetet i Bergen
Hva bør en språkteknologisk satsning inneholde? (II)
Arne Gilbakken, NST
Gilbakken presenterte det nystiftede firmaet Nordisk Språkteknologi
AS (NST) — på Voss. Gjennom en joint venture-avtale med Lernout &
Hauspie satser NST på å bli en nordisk markedsleder i tilpassingen
av språkteknologiske applikasjoner til alle de nordiske språkene.
Han fremhevet de språkpolitiske utfordringene og fremhevet viktigheten
av at det norske språkmangfoldet (bokmål, nynorsk, dialekter)
ble gjenspeilet i teknologiske produkt. Gilbakken gikk også inn på
forholdet mellom offentlig og kommersielt ansvar, og mente at utviklingen
av store ressurser i form av tale- og tekstkorpus burde være et offentlig
ansvar. Gilbakken understreket også at NST har et stort behov for
kompetanse, og ønsker et tettest mulig samarbeid med universitetene
uten å «tappe» disse. Det skal etableres et datalingvistisk
kompetansesenter på Voss etter modell av «Flandern Language
Valley» og med forbindelser til denne i form av studentutvekslings-
og hospitantordninger.
Vil framtidas språkteknologi forstå norsk?
(foiler)
Torbjørn Svendsen,
NTNU
For å kunne utvikle systemer som kan forstå norsk, trengs
det grunnleggende ressurser. Svendsen poengterte spesielt behovet for et
stort talekorpus. Dersom vi skal klare å utvikle systemer som skal
forstå tale og inngå i dialoger med mennesker, trenger teknologien
et bredt sammensatt korpus. Kravene til omfang og innhold bør være
høyere enn internasjonal standard, pga. vår spesielle språk-
og dialektsituasjon. Svendsen fremhevet også at slike generiske,
nasjonale korpus må suppleres av domene- og oppgavespesifikke korpus.
Arbeidet med organisering av et nasjonalt korpus bør modulariseres. EAGLES har
anbefalt at det bør foreligge 100 timer godt merket høykvalitets tale med god spredning av
kilder som grunnlag for talebaserte systemer. I Norge finnes i dag 2 timer.
Paneldebatt
Panel:
Tove Lenschow, IBM
Torbjørn Svendsen, NTNU
Torbjørn Nordgård, NTNU
Arne Gilbakken, NST
Tron Espeli, NFR
Debatten ble innledet med et innlegg fra hver deltager i panelet
Tove Lenschow informerte om arbeidet i IBMs oversettelsesgruppe, der de særlig arbeidet med å automatisere oversettelse av tekniske håndbøker. Spesielt ble det terminologiske arbeidet med denne type oversettelse trukket frem som viktig.
Torbjørn Svendsen fremhevet nødvendigheten av forskning og kompetanse rettet mot valg av språkteknologiske produkter og tilpasning av eksisterende programvare. Når det gjaldt utdanning, understreket Svendsen at spesialisering ikke burde skje i utdanningsinstitusjonene. Disse skulle sørge for en bredt kunnskapsgrunnlag, og spesialiseringen burde foretas i en aktuell arbeidssituasjon.
Torbjørn Nordgård redegjorde for foreliggende planer om å integrere språkteknologi i sivilingeniør-studiet ved NTNU. Nordgård poengterte viktigheten av at ressurser utvikles i en nasjonal sammenheng, og at de mest grunnleggende ressurser, som korpus og elektroniske ordbøker, måtte være åpent tilgjengelig og vederlagsfrie.
Arne Gilbakken kommenterte utdannelsessituasjonen, og mente at universitetene ikke er nok. Kompetanseutvikling måtte foregå i samarbeid med industrien. Teknologien kan ikke utvikles fra «scratch», og vi i Norge måtte være forberedt på å benytte utenlandsk teknologi tilpasset norske forhold.
Tron Espeli fremholdt at når det gjaldt grunnlagsinvesteringer,
kunne ikke NFR gjøre dette alene. NFR har offentlige forpliktelser,
men Espeli hevdet at flere aktører kunne involvere seg i finansiering
av grunnleggende ressursutvikling, og at pluralisme i denne sammenheng
var bra.
Diskusjon
Denne hadde to sentrale temaer, (1) forholdet mellom nynorsk og bokmål
og (2) lokalisering av norsk språkteknologi. Nedenfor gjengis hovedtrekkene
i diskusjonen. Det gjøres oppmerksom på at selv om det
refereres til personers oppfatninger og meninger, så representerer
ikke ytringene gitt her noen bokstavelig transkribering av diskusjonen.
Lokalisering
Lingsofts representanter (Sjur Moshagen og Antii Arppe) påpekte
at firmaet hadde utviklet elektroniske ordbøker for nynorsk og bokmål,
og spurte på bakgrunn av det om det var nødvendig å
utvikle disse ressursene på nytt i en nasjonal sammenheng.
Kommentarer
Bente Maegaard svarte fra salen at i forbindelse med bl.a. kompetanseutvikling
var det viktig at utviklingen av denne type ressurser ble foretatt nasjonalt.
Torbjørn Svendsen fremholdt at vi trengte arbeidsplasser i Norge.
Torbjørn Nordgård kommenterte at oppbygging av kompetanse, bla. gjennom ressursutvikling, burde skje nasjonalt, men at ferdig teknologi kunne kjøpes utenlands.
Tove Lenschow forespeilte farene ved å kjøpe teknologi og ressurser utenlands, nemlig at man skaffer til veie noe som er for dårlig og som rett og slett ikke virker.
Arne Gilbakken trakk frem synergieffekten av å legge vekt nasjonal utvikling, dvs. at teknologien, fagmiljøene og arbeidskraften er samlet. Imidlertid må ikke alt nødvendigvis foregå i Norge eller på norsk: vi kan starte med utenlandsk teknologi og deretter bygge elementer som er spesifikke for norsk i Norge.
Tore Burheim stilte spørsmål om fremtiden for norsk
språkteknologi, og luftet tanken om at den kanskje ville bli styrt
av multinasjonale selskap.
Leveranse av komponenter, sammen med en viss grad av offentlig støtte, burde gi muligheter for
småbedrifter til å delta i denne industrien som underleverandør.
Nynorsk og bokmål
Sjur Moshagen åpnet diskusjonen rundt dette temaet ved å
påpeke at det EU-støttede SCARRIE-prosjektet (et prosjekt
som skal utvikle automatisert korrekturlesing for bla. norsk) kun har bokmålskomponent
og ingen for nynorsk.
Koenraad de Smedt, prosjektleder for SCARRIE i Norge, forklarte dette med budsjettkutt. I de opprinnelige planene var det med en komponent for nynorsk.
Arne Gilbakken kommenterte videre at nynorsk var viktig å utvikle, men i en industriell sammenheng ville kommersielle hensyn komme først. Markedsorientering dikterer at bokmål kommer i første rekke.
Oddmund Hoel opplyste at Samlaget hadde en elektronisk nynorskordliste med fonetisk informasjon. Denne ordlisten er imidlertid ikke fritt tilgjengelig. Han påpekte faren ved at prosjekter ble utviklet etter prinsippet bokmål først, deretter nynorsk, og foreslo som vilkår for offentlig støtte av prosjekter at de utviklet bokmål og nynorsk parallelt.
Kolbjørn Heggstad repliserte at i og med at forlagene fikk statlig støtte, så skulle de ressurser de utviklet, falle i samme kategori som andre som utvikler nynorskmateriale med offentlige midler.
Knut Kvale opplyste at i Telenors satsing på taleteknologi, har som forutsetning at alle brukere av norsk skal kunne nyttiggjøre seg den. Dette medfører at Telenor søker å tilpasse teknologien til samtlige varianter av norsk talemål. Kvale mente også at det egentlig ikke var så mye dyrere å lage applikasjoner for bokmål og nynorsk. Hovedkostnadene ligger i den tekniske utviklingen, og ikke i selve tilpasningen til en spesiell norsk variant.
Sjur Moshagen kommenterte i forlengelsen av dette at Lingsoft, som har ordlister for nynorsk og bokmål, aldri har hatt noen statsstøtte.
Janne Bondi Johannessen kunne opplyse i forbindelse med varianter
av norsk skriftspråk, at taggeren utviklet ved Universitet i Oslo
med støtte fra NFR, kan forstå unormert skrift.
Panelets oppsummering
Tron Espeli oppsummerte ved å trekke frem de nasjonale
interesser i å investere i oppbygging av ressurser, som for eksempel
korpus.
Arne Gilbakken fokuserte på de økonomiske kostnader for kommersielle bedrifter som skal dekke samtlige dialektvarianter i utviklingen av språkteknologi.
Torbjørn Nordgård eksemplifiserte statlig støtte ved at NorKompLeks, støttet fra NFR, har både en nynorsk- og en bokmålskomponent.
Torbjørn Svendsen kommenterte diskusjon omkring nynorsk og bokmål ved å se på anvendelser. I dikteringssystemer er bokmål vanskelig nok i seg selv.
Tove Lenschow fulgte opp ved å opplyse at IBM alltid har hatt stavelseskontroll for begge skriftspråkene. Hun mente også at språkteknologiske moduler skulle være offentlig tilgjengelige.