[Bestanden] [IPR] [Geschiedenis] [Soorten oorkonden] [Verrijking] [XML] [PoS]
Bestanden
Het corpus bestaat uit twee deelcorpora die zowel apart als samen worden aangeboden:
- C14NL-NeG: 440 teksten (138.600 tokens) uit westelijk Brabant en zuidelijk Vlaanderen en als transcriptie. [Download] (1,42Mb)
- C14NL-PoS: 157 teksten (50.601 tokens) uit (de buurt van) Zottegem, Oudenaarde, Velzeke, Ieper verrijkt met lemmata en woordsoortinformatie. [Download] (1,25Mb)
- C14NL: Het volledige corpus (189.201 tokens). [Download] (2,72Mb)
De corpusteksten kunnen ook online worden geconsulteerd in een eenvoudige weergave. [Index]
De technische documentatie wordt aangeboden als een PDF-bestand. [Download]
Intellectuele eigendomsrechten
Het corpus en alle technische documentatie worden gepubliceerd onder een Creative Commons Naamsvermelding-Gelijk delen 3.0 licentie (Attribution-ShareAlike 3.0):
De gebruiker mag:
- het werk kopiëren, verspreiden en doorgeven
- Remixen - afgeleide werken maken
Onder de volgende voorwaarden:
- Naamsvermelding. De gebruiker dient bij het werk de door de maker of de licentiegever aangegeven naam te vermelden (maar niet zodanig dat de indruk gewekt wordt dat zij daarmee instemmen met uw werk of uw gebruik van het werk).
- Gelijk delen. Indien de gebruiker het werk bewerkt kan het daaruit ontstane werk uitsluitend worden verspreid krachtens dezelfde licentie als de onderhavige licentie, een gelijksoortige of een compatible licentie.
- Bij hergebruik of verspreiding dient de gebruiker de licentievoorwaarden van dit werk kenbaar te maken aan derden. De beste manier om dit te doen is door middel van een link naar deze webpagina.
- De gebruiker mag afstand doen van een of meerdere van deze voorwaarden met voorafgaande toestemming van de rechthebbende.
- Niets in deze licentie strekt ertoe afbreuk te doen aan de morele rechten van de auteur, of deze te beperken.

Geschiedenis
De teksten die hier worden aangeboden, zijn filologische transcripties van 14de-eeuwse oorkonden uit de Zuidelijke Nederlanden. Ze maken organisatorisch en inhoudelijk deel uit van een groter corpus dat het ganse taalgebied bestrijkt: het Corpus Van Reenen - Mulder (CRM).[1] Het Centrum voor Teksteditie en Bronnenstudie stond in voor de verwerving van een aantal teksten uit Vlaamse plaatsen die in het CRM ontbraken. Een eerste lading werd verzameld op initiatief van de KANTL in de periode 2001-2003, een tweede groep is verzameld in samenwerking met (ondermeer) de universiteiten van Gent en Antwerpen en de Vrije Universiteit (Amsterdam) in het kader van het VNC-project Databank van veertiende-eeuwse niet-literaire Nederlandse teksten. Opbouw en linguïstisch onderzoek (2004-2007).
Het Vlaamse deel van het corpus met 14de-eeuwse oorkonden bevat bijgevolg twee groepen teksten:
- de meest recent verworven oorkonden (na 2004) als transcriptie (440 teksten)
- de vroegst verworven teksten (2001-2003) verrijkt met lemmata en woordsoortinformatie (157 teksten)
[1] Zie ook: P. van Reenen en M. Mulder, ‘Een gegevensbank van 14de-eeuwse Middelnederlandse dialecten op computer’. In: Lexikos 3, 1993.
Soorten oorkonden
De meeste teksten komen uit zuidelijk Oost- en West-Vlaanderen, uit Antwerpen en uit de omgeving van Mechelen. Het zijn allemaal originelen, die door de informatie in de tekst zelf op een schrijfcentrum en op een jaartal kunnen worden vastgepind. Die informatie is tevens zichtbaar in het unieke oorkondenummer dat elke tekst heeft gekregen. Het oorkondenummer _o:O098p37801, bijvoorbeeld, staat voor de eerste tekst (de laatste twee cijfers) uit het jaar 1378 (de drie cijfers ervoor) uit Oudenaarde (het Kloekenummer O 98).[2]
De oorkonden beschrijven transacties tussen lokale figuren en dus niet van hogere instellingen die van hun eigen (misschien mobiele) klerken gebruik konden maken. Dit brengt ons zo dicht als in schrift kan bij een soort lokaal taalgebruik.
Soms is uit een oorkonde niet duidelijk of alle participanten (en de scribent) van dezelfde plaats waren, of dat net iemand uit een naburige plaats de tekst zou kunnen hebben geschreven. In dat geval wordt de oorkonde als ‘regionaal’ gemerkt, en dit is zichtbaar gemaakt doordat we een tweede reeks Kloekenummers gebruikten. Een kloekenummer van een centrale plaats in de veronderstelde regio, wordt met 500 vermeerderd. De extensie -p (die bij kleinere plaatsen afwisselt met a, b, c etc.) wordt vervangen door -r voor regionaal. Zo staat O098p voor Oudenaarde, maar O598r voor regio Oudenaarde.
[2] Over de kloekenummers, zie http://www.meertens.knaw.nl/projecten/mand/ECARTkartografiefie.html.
Verrijking
Een deel van de teksten (157) heeft een verrijking (lemmatisering en PoS-tagging) ondergaan. Bij de toekenning van de lemmata is gekozen voor bestaande moderne vormen die aanleunen bij de Middelnederlandse vorm. Indien niet voorhanden, werd getracht een klankwettige modernisering te reconstrueren. Lemma’s zijn steeds grondvormen, waardoor verbuiginen en vervoegingen van dezelfde stam altijd onder hetzelfde lemma staan. De vormen 'hws' en 'husen' (mv) bijvoorbeeld, zijn gelemmatiseerd als ‘huis’.
De morfologische codering is een systeem met drie cijfers. Het eerste duidt de woordsoort aan, het tweede is een fijnmazerige indeling daarvan of gewoon de plaats binnen het paradigma, het derde het uiterlijk van een eventuele uitgang. Zie hiervoor de technische documentatie van het corpus en de samenvatting bij PoS-tagsetsysteem .
XML-codering
→ Volledige technische documentatie
De teksten zijn gecodeerd conform de TEI P4 XML-codeerstandaard, met enkele wijzigingen. Die wijzigingen zijn gedefinieerd in de bestanden CATExtns.ent en CATExtns.dtd, waaruit met behulp van de TEI Pizza Chef webtoepassing de structuurgrammatica CAT.dtd werd gegenereerd.
Uitgebreide documentatie over de samenstelling van deze structuurgrammatica is te vinden in de technische documentatie bij het corpus.
In grote lijnen is elke tekst als volgt gecodeerd:
<TEI.2 id=′[oorkondenummer]′> <teiHeader> ... </teiHeader> <text> <body>...</body> </text> </TEI.2>
Daarbij bevat elke tekst een specifiek <teiHeader> gedeelte met alle meta-informatie, en een <text> gedeelte met de transcriptie. Daarbinnen wordt de tekst gestructureerd binnen paragrafen, waarbinnen minimaal allerlei tekstfenomenen en editeursingrepen ondubbelzinnig worden aangeduid met behulp van TEI tags:
<p> ... kenlijc sij allen lieden dat ic broeder michiel calconen prioor der predicaren in <lb/> ypre hebbe ontfanghen van der stede van ypre viue <abbr expan=′ende′ resp=′CDW′>en</abbr> twintich ponden parisisen van <lb/> den paymente van medewintere bi causen <abbr expan=′ende′ resp=′CDW′>en</abbr> <abbr expan=′recompensacien′ resp=′CDW′>recopensacien</abbr> van der assise Jn tekene <lb/> der warede so hebbe ic broeder michiel <abbr resp=′CDW′>voors</abbr> dese lettere gheseghelt metten seghele <lb/> van miere officie Ghedaen int Jaer ons heren dusentich drie hondert <abbr expan=′ende′ resp=′CDW′>en</abbr> neghen <lb/> <abbr expan=′ende′ resp=′CDW′>en</abbr> neghentich den vichtiensten van lauwe maent <lb/> ... </p>
De teksten met taalkundige verrijking bevatten een verdere segmentering tot op woordniveau. Daarbij krijgt elk woord specifieke lemma- en woordsoortinformatie in specifieke attributen:
<p> ... <w lemma=′en′ ana=′c800′> <abbr resp=′CDW′ expan=′ende′>e</abbr> </w> <w lemma=′gerhard′ ana=′c020′>gherard</w> <lb/> <w lemma=′de parmentier′ ana=′c020′>den parmentier</w> <w lemma=′schepen′ ana=′c010′> <del resp=′CDW′ rend=′doorstreept′>scepen</del> </w> <w lemma=′schepen′ ana=′c014′>scepenen</w> <w lemma=′de′ ana=′c472′ rend=′space(0)′>s</w> <w lemma=′voorgezegd′ ana=′c102′>forseits</w> <w lemma=′proost′ ana=′c002′>profts</w> <c>/</c> <w lemma=′oorkonden′ ana=′c204′>orconden</w> <w lemma=′de heer′ ana=′c470 c000′>der</w> <w lemma=′johannes′ ana=′c020′> <hi rend=′supralineair′>jhan</hi> </w> <w lemma=′parochiepaap′ ana=′c001′>prochipape</w> <w lemma=′van′ ana=′c700′>van</w> <w lemma=′moregem′ ana=′c020′> <abbr resp=′CDW′ expan=′morenghem′>mo-<lb/> <supplied resp=′CDW′ reason=′onduidelijk′>r</supplied>enghe</abbr> </w> ... </p>
Uitgebreide documentatie van de gehanteerde codeerpraktijk is te vinden in de technische documentatie bij het corpus.
PoS-tagsetsysteem
= code van 3 cijfers:
- 1e en 2e kolom → woordsoort
- 3e kolom → uitgang, tenzij anders aangegeven
1e en 2e kolom:
-
0- SUBSTANTIEF
- 00 substantief enkelvoud
- 01 substantief meervoud
- 02 eigennaam
- 09 probleem zn.
-
1- ADJECTIEF
- 10 adjectief
- 19 probleem adj.
-
2- WERKWOORD
- 20 persoonsvorm TT zelfst. ww.
- 21 persoonsvorm TT hulpww./koppelww.
- 22 persoonsvorm VT zelfst. ww.
- 23 persoonsvorm VT hulpww./koppelww.
- 24 imperatief
- 25 infinitief
- 27 deelwoord
- 29 probleem ww.
-
3- TELWOORD
- 30 hoofdtelw.
- 31 rangtelw.
- 32 onbepaald telw.
- 39 probleem telw.
-
4- VOORNAAMWOORD
- 40 persoonlijk vnw.
- 401 1e p. enkv.
- 402 2e p. enkv.
- 403 3e p. enkv.
- 404 1e p. mv.
- 405 2e p. mv.
- 406 3e p. mv.
- 409 probleem getal
- 41 aanwijzend vnw.
- 42 betrekkelijk vnw.
- 43 vragend vnw.
- 44 onbepaald vnw.
- 45 bezittelijk vnw.
- 46 reflexief vnw.
- 461 1e p. enkv.
- 462 2e p. enkv.
- 463 3e p. enkv.
- 464 1e p. mv.
- 465 2e p. mv.
- 466 3e p. mv.
- 469 probleem getal
- 47 LIDWOORD bepaald
- 48 LIDWOORD onbepaald
- 49 probleem vnw./lidw.
- 40 persoonlijk vnw.
-
5- BIJWOORD
- 50 (gewoon) bijw.
- 51 aanwijzend bijw.
- 52 betrekkelijk bijw.
- 53 vragend bijw.
- 54 onbepaald bijw.
- 55 hervattend bijw.
- 56 ontkennend bijw.
- 59 probleem bijw.
-
6- VOORNAAMWOORDELIJK BIJWOORD
- 60 persoonlijk vnw.bijw.
- 61 aanwijzend vnw.bijw.
- 62 betrekkelijk vnw.bijw.
- 63 vragend vnw.bijw.
- 64 onbepaald vnw.bijw.
- 69 probleem vnw.bijw.
-
7- VOORZETSEL
- 70 voorzetsel
- 79 probleem vz.
-
8- VOEGWOORD
- 80 nevenschikkend voegw.
- 81 onderschikkend voegw.
- 82 voegw. van vergelijking
- 83 ne/en in tweede deel van tweeledige zin (balansschikking)
- 84 als(e) in betekenis ‘namelijk’
- 89 probleem voegw.
- 90 LATIJN / TOTAAL PROBLEEM
- 91 TUSSENWERPSEL
3e kolom:
- ..0 geen uitgang
- ..1 - e
- ..2 - s (ook: -x die staat voor k +s)
- ..3 - t
- ..4 - n (ook: -en)
- ..5 - r (ook: -re)
- ..6 - a
- ..7 - nt
- ..9 probleem uitgang