Kap. 8. Lemmatisering

Prosjektet Utgivelse av middelaldertekster, Senter for høyere studier, Oslo 2000-2001



Av Karl G. Johansson

hovedside



8.1 Innledning
8.2 Attributet lemma
8.3 Attributet pos
8.4 Grundkäggande problem vid lemmatisering
8.5 Indelning av ordklasser
8.6 Samlad översikt


 Preliminær versjon

 

8.1 Innledning

Til begynnelsen av kapitlet

I kap. 3 introducerades en avgränsning av ordet som enhet i transkriptionen av manuskripttext. Detta för att ge möjligheter till en enhetlig behandling av t.ex. abbreviaturer och upplösningen av dessa. Elementet <w> kan även innehålla information om lemma och grammatisk analys för varje förekomst i manuskripttexten. Denna information kan samlas under de två attributen lemma och pos. I det följande presenteras de grundläggande principerna för lemmatiseringen av manuskripttext. De element och attribut som behandlas är:

<w>

avgränsar ett grammatiskt ord.

lemma

anger det grammatiska ordets lexikonform.

pos

anger den morfosyntaktiska analysen av det grammatiska ordet.

Det är naturligtvis viktigt att en lemmatisering av medeltida nordisk manuskripttext ansluter till de normer som utvecklats i samband med utvecklingen av korpora för språkvetenskaplig forskning. Vi räknar här med att kunna ansluta oss till de riktningslinjer som som tagits fram inom EAGLES (Expert Advisory Group on Language Engineering Standards; Recommendations for the Morphosyntactic Annotation of Corpora (1996). I nuvarande form är det följande emellertid inte helt kompatibelt med de principer som föreslås av EAGLES.

Det system som skisseras i det följande bygger på västnordisk grammatik. För östnordiska texter gäller att formrikedomen utjämnas, d.v.s att t.ex. kasusböjning och personböjning i hög grad faller samman. Det här presenterade systemet kommer därmed att vara övergenererande för många svenska och danska texter från den aktuella perioden.

 

 

8.2 Attributet lemma

Til begynnelsen av kapitlet

I elementet <w> är det möjligt att för varje graford lägga in en mängd upplysningar. Med ett attribut lemma kan en lexikal grundform markeras som gör det nöjligt att urskilja alla förekomster av ett visst ord i alla dess former och oavsett ortografisk variation i den enskilda manuskripttexten. När en text är kodad med elementet <w> kan vi i attributet lemma lägga till information om vilken lexikal grundform den avgränsade ordformen skall föras till. En lexikalisk grundform kan alltså vara densamma som den vi finner som uppslagsform i en ordbok över det aktuella språket. I arbetet med att skapa en bas av lemmata för västnordiska texter har vi valt att utgå från den ordlista som tagits fram vid Den Arnamagnæanske Kommissions Ordbog over det norrøne prosasprog (ONP) vid Københavns Universitet. Attributet kan i utgångspunkten se ut så här:

<w lemma="hafa">ha&fins;i</w>

I kap. 3 behandlas användningen av <w> för avgränsning av graford och information rörande dessa. I det exempel som anföres här innehåller grafordet ett specialtecken som i återgivningen av manuskripttexten anges, men som i en lemmatisering återges i normaliserad form efter de principer som gäller för ONP. Strukturen i en mer fullständig kodning skulle se ut som följer.

<w lemma ="hafa">
<orig>ha&fins;i</orig>
<expform>ha&fins;i </expform>
<reg>hafi</reg>
</w>

Ett mer komplicerat exempel visar hur även abbreviaturer och upplösningar av dessa kan förekomma i elementen <orig> respektive <expform> inom elementet <w> och därmed relateras till attributet lemma.

<w lemma ="koma">
<orig> co&bar;</orig>
<expform> co<expan>m</expan></expform>
<reg>kom</reg>
</w>

Även när ett graford ingår helt eller delvis i ett element <unclear> kan detta innefattas i elementet <w> och därmed göras sökbart under attributet lemma.

<w lemma ="sv&aac;">
<orig><unclear reason="faded">s&ra;</unclear></orig>
<expform> <unclear>s<expan>ua</expan></unclear></expform>
<reg>sv&aac;</reg>
</w>

Text som innesluts i element som <supplied> omfattas inte av lemmatiseringen. I det följande exemplet omsluts tecknet, ordet eller avsnittet som supplerats med elementet <w> men här anges inte attributet lemma eftersom den inneslutna texten alltså inte ingår i den transkriberade manuskripttexten.

<w>
<orig><supplied reason="illegible" resp="KGJ">lei</supplied>kti<orig>
<expform><supplied reason="illegible" resp="KGJ">lei</supplied>kti</expform>
<reg>leikti</reg>
</w>

Härmed kommer dessa former inte att vara sökbara med hjälp av attributet lemma. Vi undgår därmed problemet med att former som föreligger i manuskripttexten i det sökbara formatet sammanblandas med den text som supplerats av transkribent, den som utfört den elektroniska kodningen eller utgivare av texten.

En grundläggande princip vid lemmatiseringen skall alltså vara att det som lemmatiseras är det som förekommer i manuskripttexten.

 

 

8.3 Attributet pos

Til begynnelsen av kapitlet

 

Med attributet pos kan vi lägga till information om den form som den enskilda förekomsten av ett lemma uppvisar, d.v.s. att den form som föreligger i elementet <orig> beskrivs morfologiskt. Härvid blir det nödvändigt att etablera ett system för kodningen som entydigt beskriver den morfologiska formen för varje enskild förekomst. I det följande byggs denna beskrivning tentativt upp med de grundläggande kategorierna och delkategorier för dessa till en så fullständig beskrivning som möjligt.

För ett substantiv som maðr, 'man' i dativ plural kan detta presenteras enligt följande:

<w lemma ="ma&dh;r" pos="NCMPDI">
<orig> m&bar;m<orig>
<expform> m<expan>onnu</expan>m</expform>
<reg>m&ohbr;nnum</reg>
</w>

Inledningsvis kan lemma indelas efter ordklasser. Det första tecknet i teckenkombinationen för attributet pos står alltså för ordklassen nomen (N). Därefter preciseras detta som ett nomen appellativum eller common noun (C). Vi behöver även information om genus (maskulinum; M), numerus (plural; P), kasus (dativ; D), och bestämdhet (obestämd; I). Det är naturligt att i dessa teckenkombinationer använda de engelska beteckningarna för de morfologiska kategorierna för att göra systemet så öppet som möjligt för användarna. För varje ordklass anges kategorierna i en bestämd ordning. I de fall där en kategori inte föreligger skall den tomma platsen markeras med *. I det följande skall detta system skisseras och exemplifieras.

 

 

8.4 Grundläggande problem vid lemmatisering

Til begynnelsen av kapitlet

De medeltida nordiska handskrifterna uppvisar en hög grad av variation på grafematisk eller ortografisk nivå, de västnordiska i något högre grad än de östnordiska. Dessutom är det nordiska medeltidsspråket formrikt, vilket erbjuder stora problem för den som vill analysera manuskripttextens grafiska former, så kallade graford, i lemma och lemmatiska former, d.v.s. lemmats böjningsformer. I det följande skall en arbetsgång för lemmatisering och analys av lemmatiska former skisseras.

Den variation som förekommer i manuskripttexten, s.k. formvariation, utgör ett avgörande problem vid första steget i en lemmatisering. Det gäller att kunna identifiera alla grafiska former ett lemma kan representeras av i manuskripttexten. Ett exempel på detta kan utgöras av ett urval grafiska former för pronominet hann.

Form

Lemma

hann

hann

han&bar;

hann

h&bar;

hann

h&bar;n

hann

ha&scap;

hann

hans

hann

han&stall;

hann

h&bar;s

hann

h&bar;&stall;

hann

honum

hann

honom

hann

h&bar;m

hann

Det nordiska medeltidsspråkets formrikedom leder till många sammanfall av lemmatiska former för samma lemma, det vi kallar intern homografi. Så sammanfaller t.ex. nominativ singularis obestämd form av det feminina substantivet hetja med genitiv plural (NCFSNI| NCFPGI), liksom oblika kasus singular obestämd form (NCFSGI| NCFSDI| NCFSAI) och nominativ plural obestämd form och ackusativ plural obestämd form (NCFPNI| NCFPAI). Sammanfallet markeras med | mellan taggarna för lemmatisk form. Detta kan ställas upp så här:

Form

Lemma

Tagg

hetja

hetja

NCFSNI | NCFPGI

hetju

hetja

NCFSGI | NCFSDI | NCFSAI

hetjur

hetja

NCFPNI | NCFPAI

I en inledande taggning av lemmatiska former kan man välja att ange samtliga möjliga taggar i attributet pos. Detta är naturligtvis inte tillfredsställande för den som förväntar sig att taggningen entydigt skall ange en morfosyntaktisk analys. I fall där den morfosyntaktiska analysen kan genomföras på ett stringent sätt kan naturligtvis den relevanta lemmatiska formen anges i taggen.

Vidare måste vi räkna med att det förekommer att den grafiska formen sammanfaller för två lemmabeteckningar med två eller flera lemmatiska former, det vi kallar extern homografi. Ett exempel på detta utgör det neutrala substantivet vár 'vår' (NCNSNI) och possessiv determinativa várr 'vår' i femininum singular nominativ och neutrum plural nominativ och ackusativ (DPFSN| DPNPN| DPNPA).

Form

Lemma

Tagg

v&aac;r

v&aac;r

NCNSNI

v&aac;r

v&aac;rr

DPFSN | DPNPN | DPNPA

Det kan här även förekomma att den grafiska formen sammanfaller för lemma med samma beteckning som för det feminina substantivet þýða 'vänskap' i nominativ singular obestämd form och verbet þýða 'tolka' i infinitiv.

Form

Lemma

Tagg

&th;&yac;&dh;a

&th;&yac;&dh;a

NCFSNWI | V*pres***I

I fall som dessa måste den som gör den morfosyntaktiska analysen naturligtvis fälla ett avgörande. Ett alternativ är att ange samtliga möjliga alternativ under attributet pos som vi har valt att göra i ovanstående exempel.

 

 

8.5 Indelning av ordklasser

Til begynnelsen av kapitlet

8.5.1 Substantiv (N)

Substantivet kan inledningsvis delas in i två undergrupper, appellativer, och proprier. Dessa markeras alltså med ett gemensamt N för nomen. I ett andra led får de beteckningar som NC, appellativer (Common Nouns), och NP, proprier (Proper Nouns).

Substantivet kan delas in i grupper efter genus. För de nordiska fornspråken räknar vi med tre kategorier maskulinum, femininum och neutrum som kan markeras i tredje ledet med M, F respektive N.

Det finns för substantivet två kategorier för numerus. Det är singularis och pluralis som kan markeras i fjärde ledet med S respektive P.

För böjningen i kasus räknar vi med fyra kategorier nominativ, genitiv, dativ och ackusativ som markeras i femte ledet med N, G, D och A.

Ett substantiv kan förekomma i bestämd och obestämd form. Detta markeras i sjätte ledet med D respektive I. För person- och ortnamn gäller att endast ortnamn förekommer i bestämd form. De betraktas emellertid alltid som bestämda och markeras alltså med D eller *.

Ordningsföljden för kategorierna blir som i följande exempel:

<w lemma="hestr" pos="NCMPDI">hestum</w>

vilket alltså anger att lemma hestr här representeras av en form hestum, d.v.s. det maskulina ordet hestr står i plural dativ obestämd form.

Därmed kan kategorierna för substantivet ställas upp enligt följande:

Nomen

Genus

Numerus

Kasus

Bestämdhet

NC
NP

M
F
N

S
P

N
G
D
A

D
I

 

8.5.2 Adjektiv (AJ)

Adjektivet (AJ) kompareras i tre steg: positiv, komparativ och superlativ. Detta markeras i andra ledet med P, C respektive S.

Vidare kan adjektivet delas in i grupper efter genus. För de nordiska fornspråken räknar vi med tre kategorier, maskulinum, femininum och neutrum, som kan markeras i tredje ledet med M, F respektive N.

För adjektivet förekommer två kategorier för numerus. Det är singularis och pluralis som kan markeras i fjärde ledet med S respektive P.

För böjningen i kasus räknar vi med fyra kategorier nominativ, genitiv, dativ och ackusativ som markeras i femte ledet med N, G, D och A.

Ordningsföljden för kategorierna blir alltså som i det följande exemplet. Om ett adjektiv hvítr förekommer som bestämning till hestum från det ovanstående exemplet, d.v.s. hvítum, kommer detta att markeras:

<w lemma="hv&iac;tr" pos="AdjMPDSP">hv&iac;tum</w>

Kategorierna för adjektivet kan därmed ställas upp enligt följande:

Adjektiv

Komparation

Genus

Numerus

Kasus

AJ

P
K
S

M
F
N

S
P

N
G
D
A

 

8.5.3 Pronomen (P)

Det förekommer ett antal underkategorier av pronomen. Dessa behandlas i det följande som enskilda kategorier för att ge en bättre överblick. Samtliga pronomen markeras med P. Därefter anges vilken typ av pronomen det rör sig om enligt nedanstående exempel.

 

Personliga pronomen

De personliga pronomina (PPer) personböjs i tre kategorier första, andra och tredje person. Detta kan markeras i andra ledet med 1, 2 respektive 3.

När det gäller genusböjningen är denna något varierande för de personliga pronomina. Vi kan emellertid generellt räkna med tre kategorier maskulinum, femininum och neutrum som markeras i tredje ledet med M, F, respektive N. Det förekommer ingen genusböjning inom vissa personkategorier (se lista över taggar). Det tredje ledet skall här fyllas med en tom markering *.

För personliga pronomina i första och andra person föreligger böjning i tre numeruskategorier singularis, pluralis och dualis som markeras i fjärde ledet med S, P respektive D. För personliga pronomina i tredje person förekommer ingen numerusböjning. Det fjärde ledet skall här fyllas med en tom markering *.

De personliga pronomina böjs i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i femte ledet med N, G, D respektive A.

Ett exempel på hur attributet pos kan fyllas ut för ett personligt pronomen är:

<w lemma="vit" pos="PPer1*DN">vit</w>

som alltså anger att lemma vit representeras av ett personligt pronomen i första person dualis nominativ, alltså vit.

Kategorierna för personliga pronomina kan därmed ställas upp enligt följande:

Personliga pronomen

Person

Genus

Numerus

Kasus

Pper

1
2
3

M
F
N

S
D
P

N
G
D
A

 

Interrogativa pronomen

De interrogativa pronomina (PInt) personböjs inte. Ledet för personböjning skall här markeras med *. De genusböjs i tre kategorier maskulinum, femininum och neutrum som markeras i tredje ledet med M, F, respektive N.

Interrogativa pronomina böjs i två numeruskategorier singularis och pluralis som markeras i fjärde ledet med S och P.

Vidare böjs de interrogativa pronomina i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i femte ledet med N, G, D respektive A.

Ett exempel på hur attributet pos kan fyllas ut för ett interrogativt pronomen är:

<w lemma="hverr" pos="PInt*FPA">hverjar</w>

som alltså anger att lemma hverr representeras av ett interrogativt pronomen i femininum plural ackusativ, alltså hverjar.

Kategorierna för interrogativa pronomina kan därmed ställas upp enligt följande:

Interrogativa pronomen

Person

Genus

Numerus

Kasus

PInt

*

M
F
N

S
P

N
G
D
A

 

Indefinita pronomen

De indefinita pronomina (PInd) personböjs inte. Ledet för personböjning skall här markeras med *. De genusböjs i tre kategorier maskulinum, femininum och neutrum som markeras i tredje ledet med M, F, respektive N.

Indefinita pronomina böjs i två numeruskategorier singularis och pluralis som markeras i fjärde ledet med S och P.

Vidare böjs de indefinita pronomina i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i femte ledet med N, G, D respektive A.

Ett exempel på hur attributet pos kan fyllas ut för ett indefinit pronomen är:

<w lemma="einnhverr" pos="PInd*MPD">einhverjum</w>

som alltså anger att lemma einnhverr representeras av ett indefinit pronomen i maskulinum plural dativ, alltså einhverjum.

Kategorierna för indefinita pronomina kan därmed ställas upp enligt följande:

Indefinita pronomen

Person

Genus

Numerus

Kasus

PInd

*

M
F
N

S
P

N
G
D
A

 

8.5.4 Determinativ (D)

Det förekommer ett antal underkategorier av determinativer. Dessa behandlas i det följande som enskilda kategorier för att ge en bättre överblick. Samtliga determinativer markeras med D. Därefter anges vilken typ av determinativ det rör sig om enligt nedanstående exempel.

 

Demonstrativa determinativa

De demonstrativa determinativa (DD) genusböjs i tre kategorier maskulinum, femininum och neutrum som markeras i andra ledet med M, F, respektive N.

Demonstrativa determinativa böjs i två numeruskategorier singularis och pluralis som markeras i tredje ledet med S och P.

Vidare böjs de demonstrativa determinativa i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i fjärde ledet med N, G, D respektive A.

Ett exempel på hur attributet pos kan fyllas ut för ett demonstrativt determinativ är:

<w lemma="s&aac;" pos="DMSG">&th;ess</w>

som anger att lemma representeras av ett demonstrativt determinativ i maskulinum singular genitiv, alltså þess.

Kategorierna för demonstrativa determinativa kan därmed ställas upp enligt följande:

Demonstrativa determinativa

Genus

Numerus

Kasus

DD

M
F
N

S
P

N
G
D
A

Possessiva determinativa

De possessiva determinativa (DP) genusböjs i tre kategorier maskulinum, femininum och neutrum som markeras i andra ledet med M, F, respektive N.

Possessiva determinativa böjs i två numeruskategorier singularis och pluralis som markeras i tredje ledet med S och P.

Vidare böjs de possessiva determinativa i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i fjärde ledet med N, G, D respektive A.

Ett exempel på hur attributet pos kan fyllas ut för ett possessivt determinativ är:

<w lemma="v&aac;rr" pos="PPosNSD">v&aac;ru</w>

som alltså anger att lemma várr representeras av ett possessivt pronomen i neutrum singular dativ, alltså váru.

Kategorierna för possessiva pronomina kan därmed ställas upp enligt följande:

Possessiva determinativa

Genus

Numerus

Kasus

DP

M
F
N

S
P

N
G
D
A

 

8.3.5 Räkneord (NU)

Räkneorden kan delas in i två kategorier kardinaltal och ordningstal. I första ledet kan vi markera detta med NUC respektive NIO.

Kardinaltal 1-4 genusböjs i tre kategorier maskulinum, femininum och neutrum som markeras i andra ledet med M, F, respektive N.

Kardinaltal 1-4 har ingen numerböjning. Det andra ledet blir därfor markerad med *.

Slutligen böjs kardinaltal11-4 i fyra kasus nominativ, genitiv, dativ och ackusativ som markeras i fjärde ledet med N, G, D respektive A.

Övriga kardinaltal har ingen böjning, och blir därför markerade med * i alla led.

Ordningstal 1-4 böjs i samma kategorier som kardinaltalen, och kan i tillâg böjast i numerus singularis och pluralis.

För räkneord som hundrað och þúsund gäller att de taggas som substantiv.

Ett exempel på hur attributet pos kan fyllas ut för ett räkneord är:

<w lemma="sjaundi" pos="NUOFSN">sjaunda</w>

som alltså anger att lemma sjaundi representeras av ett ordningstal i femininum singularis nomintiv, alltså sjaunda.

Kategorierna för räkneorden kan därmed ställas upp enligt följande:

Räkneord

Genus

Numerus

Kasus

NUC
NUO

M
F
N
*

S
P
*

N
G
D
A
*

 

8.5.6 Verb (V)

Verb markeras med V i första ledet. Verben böjs i två tempuskategorier presens och preteritum som anges i andra ledet som Pres respektive Pret.

Vidare indelas verben i modus indikativ, konjunktiv respektive imperativ som markeras i tredje ledet med Ind, Sub respektive Imp.

I personböjningen räknar vi med tre kategorier första, andra och tredje person. Detta markeras i fjärde ledet med 1, 2 respektive 3.

Numerus förekommer i två böjningskategorier singularis och pluralis som markeras i femte ledet med S respektive P.

Vi vill slutligen ha möjlighet att markera infinita och finita verbformer. Detta gör vi i det sjätte ledet med beteckningarna I respektive F.

Informationen för i attributet pos kan därmed se ut som i det följande exemplet:

<w lemma="telja" pos="VPresInd1SF">tel</w>

som alltså anger att lemma telja representeras av ett svagt verb i presens första person singularis indikativ, alltså tel.

Verb

Tempus

Modus

Person

Numerus

Bestämdhet

V

Pres
Pret

Ind
Kon
Imp

1
2
3

S
P

I
F

 

Presens och preteritum particip behandlas som adjektiv, men i tabellen har vi föreslagit att de betecknas som verb. Därmed uppstår en sammanblandning av två kategorier i taggen. De led i verbböjningen som därmed inte föreligger, markeras med *. Därefter anges formen particip, som markeras med P, följt av kategorierna genus och kasus som för adjektivböjningen.

Verb

Tempus

Modus

Person

Numerus

Best.

Form

Genus

Kasus

V

Pres
Pret

*

*

S
P

*

P

M
F
N

N
G
D
A

 

 

8.5.7 Adverb (AV)

Adverben böjs endast med avseende på komparation. Vi behöver här alltså endast räkna med två kategorier. I första ledet anges ordklassen adverb med beteckningen AV och i andra ledet anges komparationen i tre kategorier positiv, komparativ och superlativ som markeras med P, K respektive S.

 

8.5.8 Prepositioner (AP)

Prepositioner är oböjliga och markeras med AP.

 

8.5.9 Konjunktioner (C)

Konjunktioner markeras med C. De kan indelas i samordnande, CC, och underordnande, CS.

 

8.5.10 Interjektioner (I)

Interjektioner är oböjliga och markeras med I.

 

 

8.6 Samlad översikt

Til begynnelsen av kapitlet

En fullständig tabell över möjliga taggar för klassisk norrön morfologi fins här:

Tagguppsättning - PDF-fil [40 kB]

Kräver programmet Acrobat Reader.

 

 

 

Hovedside

Opprettet 5. april 2001. Sist oppdatert 10. juni 2001 av OEH.