Komme i gang

Prosjektet Utgivelse av middelaldertekster, Senter for høyere studier, Oslo 2000-2001


 Preliminær versjon

Dette kapitlet skal gi råd om hvordan man kan komme i gang med tekstkoding på enklest mulig måte. Her er en rask skisse:

Vi vil trolig anbefale at man starter med å kode teksten slik den er, dvs. på <orig>-nivå, og gjerne med en faksimile-font (f.eks. FacsNordic). På dette nivået bør man legge inn minst mulig unødvendig informasjon i teksten, og det er ikke nødvendig å legge inn koder av typen <w> eller for den sak skyld <orig>.

NB! Dette må gjøres på en slik måte at fontinformasjonen blir beholdt, dersom man bruker et sett av flere fonter, som f.eks. FacsNordic. Ellers risikerer man at transkripsjonen blir verdiløs!

En aktuell framgangsmåte er beskrevet av Rune Kyrkjebø under FrameMaker-applikasjoner i verktøykassen.

 

Når transkripsjonen er korrekturlest, kan man legge inn <w>-koder og kanskje også <orig> og <expform> ved hjelp av et perl-skript e.l

Nå kan man gå i gang med lemmatisering (om man ønsker) eller å supplere teksten med oppløsning av abbreviaturene.

 

Perl-skriptet vil sørge for at en sekvens av typen

Karin&us; &et; Leuci&us; segja (= Karinus ok Leucius segja)

kan erstattes med

 

<w><orig>Karin&us;</orig><expform>Karin&us;</expform></w>

<w><orig>&et;</orig><expform>&et;</expform></w>

<w><orig>Leuci&us;</orig><expform>Leuci&us;</expform></w>

<w><orig>segja</orig><expform>segja</expform></w>

 

Nå kan man søke på abbreviatur-entitetene og erstatte disse i elementet <expform> (men ikke i <orig>!)

 

Sekvensen "&us;" skal erstattes med sekvensen "<expan>us</expan>"

Sekvensen "&et;" skal erstattes med sekvensen "<expan>ok</expan>"

 

Det gir dette resultatet:

 

<w><orig>Karin&us;</orig><expform>Karin<<expan>us</expan></expform></w>

<w><orig>&et;</orig><expform><expan>ok</expan></expform></w>

<w><orig>Leuci&us;</orig><expform>Leuci<expan>us</expan></expform></w>

<w><orig>segja</orig><expform>segja</expform></w>

 

Deler av denne prosessen kan gjøres relativt raskt, men når man kommer til den mest flertydige av alle abbreviaturentitetene, "&bar;", kommer man vanskelig utenom en god del "håndarbeid".

Vårt inntrykk er likevel at forskjellen på å bearbeide et kort utdrag av et håndskrift og et langt utdrag ikke er så stor som man kunne frykte. Man møter et begrenset antall typer i begge tilfeller, og etterhvert får man kanskje et godt grep på abbreviaturpraksisen i håndskriftet (eller hos skriveren i håndskrift med flere skrivere).

Så gjenstår det bare å putte transkripsjonen inn i et passende XML-skall og validere den.

 

Hovedside

Opprettet 4. april 2001. Sist oppdatert 10. junil 2001 av OEH.