Kap. 3. Hovedprinsipper

Prosjektet Utgivelse av middelaldertekster, Senter for høyere studier, Oslo 2000-2001



Av Odd Einar Haugen

hovedside



 

Nordiske middelalderhåndskrifter har gjennomført scriptio continua, dvs. at ordmellomrom er markert. Riktignok svarer ikke alltid orddelingen til moderne regler; f.eks. kan ofte preposisjonsfraser være sammenskrevne ("ilande" for "i lande") og omvendt kan sammensetninger være særskrevne ("hofud dioflar"). Men i hovedsak er det godt sammenfall mellom vår tids orddefinisjon og den vi finner i middelalderkildene.

Ortografien er derimot svært varierende i håndskriftene. Det er derfor et stort behov for lemmatisering, dvs. at det blir knyttet en standardisert oppslagsfrom (lemma) til hvert enkelt ord i tekstene, kan hende også med morfologiske opplysninger. Dette krever at ordet er klart markert i teksten, slik at lemmaformene får en sikker tilknytning.

Under vårt arbeid med koding av abbreviaturer har vi også blitt oppmerksom på hvor sentralt ordet er. Noen forkortelser fungerer helt på ordplanet, som f.eks. de såkalte nomina sacra, mens andre langt på vei gjør det, f.eks. suspensjoner med dublering av første tegn for å markere flertall. Dette diskuterer vi nærmere i kap. 6.

Når vi har valgt å la ordet være en så sentral kategori i kodingen, er dette i samsvar med helt allmenne innsikter i nordisk språkstruktur. Vi anbefaler derfor at alle ord i en transkripsjon blir utskilt med elementet <w> (for word).

I den norrøne tekstutgivelsestradisjonen finnes det etter vår vurdering tre sentrale nivå i tekstgjengivelsen (jf. Haugen 1995). Vi foreslår å bruke ordtaggingen på en slik måte at en, to eller alle tre nivåene kan være respresentert samtidig. Dette kaller vi for modulær tagging, dvs. at kodingen kan bygges opp trinnvis.

 

Nivå for tekstgjengivelse  

(1) Faksimilert nivå

På dette nivået blir teksten i håndskriftet gjengitt tegn for tegn, i det som også har vært kalt "faksimiletrykk". Etter vår vurdering er dette et nivå som er svært egnet for transkripsjon, fordi transkribenten skriver inn samtlige tegn, inkl. forkortelsestegn, uten å måtte ta stilling til hvordan ordet skal oppløses. Dette nivået er også velegnet med tanke på den første korrektur av en transkripsjon. Vi foreslår å bruke det eksisterende elementet <orig> for det faksimilerte nivået.

(2) Diplomatarisk nivå

Dette nivået har vært det dominerende i nyere norsk utgivelsespraksis. Her blir alle ordinære tegn i håndskriftet gjengitt, ofte slik at det blir skilt mellom varianter av typen rett og rund "r", høy og lav "s". Abbreviaturene er oppløst (dvs. fortolket) og typisk gjengitt i kursiv. Dette nivået blir særlig verdsatt av språkhistorikere, fordi det viser tydelig hva som faktisk står i håndskriftet og hva som transkribenten har fortolket. Samtidig er tekster på dette nivået langt lettere å lese enn de faksimilerte, i alle fall dersom det er stort innslag av abbreviering. Det finnes ikke noe element i retningslinjene til TEI som det er naturlig å bruke; vi har derfor valgt å innføre et nytt element <expform> (for "expanded form") for tekst på dette nivået.

(3) Normalisert nivå

Det normaliserte nivået innebærer en tekstgjengivelse i samsvar med standard grammatikker og ordbøker. For vestnordiske tekster vil utgavene i serien Íslenzk fornrit være et godt eksempel. Det er sjelden eller aldri aktuelt å gi noen primær transkripsjon på dette nivået, fordi avviket blir for stort i forhold til primærkildene. Derimot kan det normaliserte nivået være aktuelt som et supplement til de to foregående nivåene. Vi foreslår å bruke det eksisterende elementet <reg> for transkripsjoner der teksten er normalisert.

Det er for øvrig ulike og til dels manglende normaliseringsregler for nordiske middelalderkilder. Den sikreste og mest omforente praksis finner man for de norrøne kildene, dvs. islandsk fram til ca. 1500 og norsk fram til ca. 1350. Her vil vi anbefale å bruke den normal som blir praktisert av Den Arnamagnæanske Kommisions Ordbog.

 

Ordtagging i praksis

Som eksempel skal vi velge de første ordene i Haralds saga ins hárfagra i Heimskringla. De ser slik ut i Jens Nilssøns avskrift fra 1567, i håndskriftet AM 37 fol. bl. 26r:

Dersom vi koder hvert ord med elementet <w> blir resultatet slik for linjene 7-9 i eksemplet ovenfor (egentlig er det linjene 14-16 på siden):

<w>Harall&dh;</w> <w>tok</w> <w>k&bar;gdom</w> <lb/> <w>Harall&dh;&rrot;</w> <w>tok</w> <w>k&bar;gdom</w> <w>ept&er;</w> <w>f&avlig;&th;ur</w> <lb/> <w>&stall;i&ndes;&bar;</w> <w>&th;a</expform></w> <w>&vins;&rsup;</w> <w>h&bar;</w> <w>.x.</w> <w>vetra</w>

Det kan være lettere å lese en slik tekst dersom vi spanderer en linje på hvert ord, og skiller ut taggene med farge:

<w>Harall&dh;</w>
<w>tok</w>
<w>k&bar;gdom</w>
<lb/>
<w>Harall&dh;&rrot;</w>
<w>tok</w>
<w>k&bar;gdom</w>
<w>ept&er;</w>
<w>f&avlig;&th;ur</w>
<lb/>
<w>&stall;i&ndes;&bar;</w>
<w>&th;a</w>
<w>
&vins;&rsup;</w>
<w>
h&bar;</w>
<w>
.x.</w>
<w>
vetra</w>.

Spesialtegn er beskrevet med såkalte entiteter, f.eks. er "&dh;" brukt for stungen "d", "&rrot;" for rund "r" osv. Entitetene er nærmere forklart i kap. 5.

Entiteter brukes også for å beskrive forkortelsestegn, slike som streken over "k", kalt "&bar;", eller den overskrevne "r" over "v", kalt "&rsup;". Dette er forklart i kap. 6 nedenfor.

Strukturelementer av typen <lb/> (for linjeskift) hører også med, men de står utenfor ordtaggene. Se for øvrig kap. 4 for en presentasjon av slike elementer.

Om vi nå vender tilbake til eksemplet ovenfor, kan vi slå fast at teksten er transkribert på faksimilert nivå; her er abbreviaturene gjengitt uten noe forsøk på oppløsning. Det kan vi vise ved å sette den transkriberte teksten i elementet <orig>:

<w><orig>Harall&dh;</orig></w>
<w><orig>tok</orig></w>
<w><orig>k&bar;gdom</orig></w>
<lb/>
<w><orig>Harall&dh;&rrot;</orig></w>
<w><orig>tok</orig></w>
<w><orig>k&bar;gdom</orig></w>
<w><orig>ept&er;</orig></w>
<w><orig>f&avlig;&th;ur</orig></w>
<lb/>
<w><orig>&stall;i&ndes;&bar;</orig></w>
<w><orig>&th;a</orig></w>
<w>
<orig>&vins;&rsup;</orig></w>
<w>
<orig>h&bar;</orig></w>
<w>
<orig>.x.</orig></w>
<w>
<orig>vetra</orig></w>.

Om vi nå ønsker å gi en oppløsning av abbreviaturene med tanke på å produsere en tekst der disse står i kursiv e.l., anbefaler vi å dublere innholdet i <w>-taggene, slik at de både inneholder <orig> og <expform>. Dernest kan oppløste abbreviaturer settes i eit særskilt element, <expan> (som for øvrig er definert i TEI P3) innenfor <expform>:

<w>
    <orig>Harall&dh;</orig>
    <expform>Harall&dh;</expform>
</w>
<w>
    <orig>tok</orig>
    <expform>tok</expform></orig>
</w>
<w>
    <orig>k&bar;gdom</orig>
    <expform>k<expan>onun</expan>gdom</expform>
</w>
<lb/>
<w>
    <orig>Harall&dh;&rrot;</orig>
    <expform>Harall&dh;&rrot;</expform>
</w>
<w>
    <orig>tok</orig>
    <expform>tok</expform>
</w>
<w>
    <orig>k&bar;gdom</orig>
    <expform>k<expan>onun</expandom</expform>
</w>
<w>
    <orig>ept&er;</orig>
    <expform>ept<expan>er</expan</expform>
</w>
<w>
    <orig>f&avlig;&th;ur</orig>
    <expform>f&avlig;&th;ur</expform>
</w>
<lb/>
<w>
    <orig>&stall;i&ndes;&bar;</orig>
    <expform>&stall;i&ndes;<expan>n</expan></expform>
</w>
<w>
    <orig>&th;a</orig>
    
<expform>&th;a</expform>
</w>
<w>
    <orig>&vins;&rsup;</orig>
    <expform>&vins;<expan>ar</expan></expform>
</w>
<w>
    <orig>h&bar;</orig>
    <expform>h<expan>ann</expan></expform>
</w>
<w>
    <orig>.x.</orig>
    <expform>.x.</expform>
</w>
<w>
    <orig>vetra</orig>
    <expform>vetra</expform>
</w>.

Endelig kan man supplere med en normalisert form i elementet <reg>:

<w>
    <orig>Harall&dh;</orig>
    <expform>Harall&dh;</expform>
    <reg>Haraldr</reg>
</w>
<w>
    <orig>tok</orig>
    <expform>tok</expform>
    <reg>t&oac;k</reg>
</w>
<w>
    <orig>k&bar;gdom</orig>
    <expform>k<expan>onun</expan>gdom</expform>
    <reg>konungd&oac;m</reg>
</w>
<lb/>
<w>
    <orig>Harall&dh;&rrot;</orig>
    <expform>Harall&dh;&rrot;</expform>
    <reg>Haraldr</reg></w>
<w>
    <orig>tok</orig>
    <expform>tok</expform>
    <reg>t&oac;k</reg>
</w>
<w>
    <orig>k&bargdom</orig>
    <expform>k<expan>onun</expandom</expform>
    <reg>konungd&oac;m</reg>
</w>
<w>
    <orig>ept&er</orig>
    <expform>ept<expan>er</expan</expform>
    <reg>eptir</reg>
</w>
<w>
    <orig>f&avlig;&th;ur</orig>
    <expform>f&avlig;&th;ur</expform>
    <reg>f&ohbr&thur</reg>
</w>
<lb/>
<w>
    <orig>&stall;i&ndes;&bar;</orig>
    <expform>&stall;i&ndes;<expan>n</expan></expform>
    <reg>sinn</reg></w>
<w>
    <orig>&th;a</orig>
    <expform>&th;a</expform>
    <reg>&th;&aac;</reg>
</w>
<w>
    <orig>&vins;&rsup;</orig>
    <expform>&vins;<expan>ar</expan></expform>
    <reg>var</reg></w>
<w>
    <orig>h&bar;</orig>
    <expform>h<expan>ann</expan></expform>
    <reg>hann</reg></w>
<w>
    <orig>.x.</orig>
    <expform>.x.</expform>
    <reg>t&iac;u</reg></w>
<w>
    <orig>vetra</orig>
    <expform>vetra</expform>
    <reg>vetra</reg>
</w>.

Om vi vil, kan vi nå knytte et lemma til alle ord avgrenset av elementet <w>. Det skjer ved at vi føyer et attributt til den innledende <w>-taggen etter den prosedyren som blir foreslått i kap. 8. For å gjøre eksemplet mer oversiktlig ser vi bort fra koding av <orig>, <expform> og <reg>:

<w lemma="Haraldr">Harall&dh;</w>
<w lemma="taka">tok</w>
<w lemma="konungd&oac;mr">k&bar;gdom</w>
<w lemma="Haraldr">Harall&dh;&rrot;</w>
<w lemma="taka">tok</w>
<w lemma="konungd&oac;mr">k&bar;gdom</w>
<w lemma="eptir">ept&er;</w>
<w lemma="fa&dh;ir">f&avlig;&th;ur</w>
<w lemma="sinn">&stall;i&ndes;&bar;</w>
<w lemma="&th;&aac;">&th;a</w>
<w
lemma="vera">&vins;&rsup;</w>
<w
lemma="hann">h&bar;</w>
<w
lemma="t&iac;u">.x.</w>
<w
lemma="vetr">vetra</w>.

Denne lemmatiseringen viser bl.a. at det første ordet, "Harall&dh;, har oppslagsformen "Haraldr", det andre ordet, "tok", har oppslagsformen "taka", osv.

Det vil variere fra tekst til tekst og fra transkribent til transkribent hvor mye informasjon som blir lagt til hvert ord. Som minimumsnivå vil vi anbefale at teksten blir kodet på faksimilert nivå og at alle ord blir satt i <w>-tagger. All koding utover dette kan gjøres på et seinere tidspunkt, og nødvendigvis ikke av den samme transkribenten.

 

Hovedside

Opprettet 4. april 2001. Sist oppdatert 10. juni 2001 av OEH.