About the Corpus Oudnederlands
About the Corpus application
The corpus application is developed by the INT. The backend of the application is the BlackLab Lucene based search engine developed for corpora with token-based annotation (http://inl.github.io/BlackLab/). The web-based frontend is a further development of the corpus-frontend application developed by INT (https://github.com/INL/corpus-frontend) in CLARIN and CLARIAH projects. Its design is inspired by the first version of the OpenSoNaR user interface by Tilburg and Radboud University (https://github.com/Taalmonsters/WhiteLab2.0).
About the Corpus Oudnederlands
The Corpus Oudnederlands in the current release is a collection of all remaining Dutch word material from the period 475-1200 that served as source material for the Oudnederlands Woordenboek (ONW; Dictionary of Old Dutch). This collection of material consists of various components: three large texts (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) and numerous smaller Old Dutch texts and text fragments (including rune inscriptions), glosses and single words, Frankish material and toponymic material. More detailed information on how the corpus was compiled can be found here. The list of sources can be found in the appendix.
A first online accessible version of the corpus was launched on 29 February 2012, in the form of a quotation database, in which it was not possible to search for consecutive words. The reason was that each word in a quotation had a record in the database, with linguistic annotation (part of speech and lemma), the full quotation and the metadata of the quotation. This version is no longer available.
In 2018, for the Nederlab project, the data from the relational database were converted into token by token linguistically annotated text, including corrections of the linguistic annotation and additional text metadata.
In this new version, several corrections have been made to the added metadata in the corpus and the linguistic annotation has been mapped to the TDN-tagset (see below).
Lemmatization
The Old Dutch word forms all have a modern Dutch lemma. For words no longer used in modern Dutch, a modern lemma has been constructed using the same linguistic principles applicable to still existing words.
More information about the used lemmatization principles can be found in Marijke Mooijaart, Het lemma in het GiGaNT-lexicon.
Part of speech tagging
The original part of speech tagging of the Corpus Oudnederlands was done according to the guidelines developed for the Dictionary of Old Dutch (ONW). The Corpus was tagged manually by the editors of the ONW.
In the context of the CLARIAH+ project, a tagset and tagging principles for the annotation of diachronic corpora of historical Dutch have been developed: Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN). A detailed description can be found here. The original part of speech tagging has been converted into the TDN, and is used in the current application.
Credits
When referring to the Corpus Oudnederlands, please use the following reference:
Corpus Oudnederlands (Version 2.0) (February 2022) [Online service]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-u6
For BlackLab:
Software available at https://github.com/INL/BlackLab
Does, Jesse de, Jan Niestadt en Katrien Depuydt (2017), Creating research environments with BlackLab. In: Jan Odijk and Arjan van Hessen (eds.) CLARIN in the Low Countries, pp. 151-165. London: Ubiquity Press. DOI: https://doi.org/10.5334/bbi
For the corpus frontend:
Software available at: https://github.com/INL/corpus-frontend
Appendix: list of sources
The following 90 sources were used to compile this corpus. Further bibliographical information on these sources can be found in the metadata in the corpus application. In the document view of source number 25), referring to the Leidse Willeram, there is a link to the digital version of the book (http://hdl.handle.net/1887.1/item:881139) on the website of the Leiden University Libraries Digital Collections.
- Actes des comtes de Flandre
- Actes et documents anciens intéressant la Belgique
- Beredeneerde inventaris der oorkonden en bescheiden van de Abdij Kloosterrade en van de adellijke vrouwenkloosters Marienthal en Sinnich, berustende op 't Provinciaal Archief van Limburg
- Cartulaire de Saint-Bavon à Gand
- Chartes et documents de l'abbaye de Saint Pierre au mont Blandin à Gand depuis sa fondation jusqu'à sa suppression
- Chronique de l'abbaye de Saint-Riquier
- Chronologisches Wörterbuch des deutschen Wortschatzes. Der Wortschatz des 8. Jahrhunderts (und früherer Quellen)
- Collectie Blok
- Collectie Gysseling
- Collectie Gysseling, addendum
- De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225
- De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225 (II)
- De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225 (III)
- De onuitgegeven oorkonden van de Sint-Salvatorsabdij te Ename voor 1200
- De oorkonden der Graven van Vlaanderen (1191-aanvang 1206)
- Die altmittel- und altniederfränkischen Psalmen und Glossen dr. EA
- Die altmittel- und altniederfränkischen Psalmen und Glossen hs. FA
- Die altmittel- und altniederfränkischen Psalmen und Glossen hs. H
- Die altmittel- und altniederfränkischen Psalmen und Glossen hs. I
- Die Urbare der Abtei Werden a. d. Ruhr
- Die vitae sancti Liudgeri
- Diplomata Belgica ante annum millesimum centesimum scripta
- Een diplomatisch onderzoek van de oudste particuliere oorkonden van Werden
- Einhardi Vita Karoli magni
- (Expositio) Willerammi Eberspergensis Abbatis in Canticis Canticorvm
- Fontes Egmundensis
- Französisches Etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes
- Gebedsstaafje van Westeremden
- Gentse naamkunde van ca. 1000 tot 1253. Een bijdrage tot de kennis van het oudste middelnederlands
- Gesta abbatum Trudonensium, lib. 1 - 7 en lib. 9
- Groningse psalmglossen
- Hansisches Urkundenbuch
- Het fragment van een grafelijke rekening van Vlaanderen uit 1140
- Histoire du meurtre de Charles le Bon, comte de Flandre (1127-1128)
- Hollandse lijst van heidense praktijken
- Hollands-Utrechtse namen van maanden en winden
- Kam van Oostum
- Kam van Toornwerd
- Kempische persoonsnamen. Familienamen in de 12e, 13e en het begin der 14e eeuw
- Le Compte Général de 1187, connu sous le nom de ""Gros Brief"", et les institutions financières de comté de Flandre au XIIe siècle
- Les Gestes des Ducs de Brabant, Tome premier
- Lexicon van Nederlandse toponiemen tot 1200
- Lex Salica
- Liber Camerae
- Liber Traditionum Sancti Petri Blandiniensis
- Mittelfränkische Reimbibel A
- Mittelfränkische Reimbibel B
- Mittelfränkische Reimbibel C
- Naamlijst van een lofvers op de kloostergemeenschap te Munsterbilzen
- Nederbergse doopbelofte
- Nederlandse woorden in Latijnsche oorkonden en registers tot 1250
- Noordnederrijnse bloedbezwering
- Noordoostnederrijnse Prudentiusglossen
- Oorkondenboek der Graafschappen Gelre en Zutfen tot op den slag van Woeringen, 5 Juni 1288
- Oorkondenboek der Witheerenabdij van S.-Michiels te Antwerpen
- Oorkondenboek van Groningen en Drente
- Oorkondenboek van het Sticht Utrecht tot 1301
- Oorkondenboek van Holland en Zeeland tot het einde van het Hollandsche Huis [1299]
- Oorkondenboek van Noord-Brabant tot 1312 (I)
- Oorkondenboek van Noord-Brabant tot 1312 (II)
- Oostnederrijns-Westfaalse paarden- en wormbezwering
- Opera diplomata et historica
- Orosiusglossen uit Sint-Omaars
- Oude Westvlaamse woorden
- Pactus legis Salicae
- Persoonsnamen in de Leiestreek voor 1200
- Quod Vulgo Dicitur. Studien zum Altniederländischen
- Reichenauer Glossen
- Rentenaar, De Nederlandse duinen in de Middeleeuwse bronnen tot omstreeks 1300
- Romaanse leenwoorden in de Westvlaamse naamgeving tot 1225
- Runeninscriptie Bergakker
- Runeninscriptie Bernsterburen
- Stallaert, Glossarium van verouderde rechtstermen, kunstwoorden en andere uitdrukkingen uit Vlaamsche, Brabantsche en Limburgsche oorkonden
- Taxusstaafje van Britsum
- Toltarief Letterswerve
- Toponymisch Woordenboek van België, Nederland, Luxemburg, Noord-Frankrijk en West-Duitsland (voor 1200)
- Traditiones et antiquitates Fuldenses
- Utrechtse doopbelofte
- Verslagen en mededeelingen der Koninklijke Vlaamsche Academie voor Taal- en Letterkunde
- Vlaamse bijnamen vóór 1225 (I)
- Vlaamse bijnamen vóór 1225 (II)
- Vroegmiddeleeuwse persoonsnamen
- Wachtendonkse psalmglossen
- Wachtendonkse psalmglossen, handschrift C
- Weefzwaardje van Westeremden
- Woordenboek der Toponymie van Westelijk Vlaanderen, Vlaams Artesie, het Land van den hoek, de graafschappen Guines en Boulogne en een gedeelte van het graafschap Ponthieu
- Woordenboek van de familienamen in België en Noord-Frankrijk
- Zur Lesart und Hybridität der altniederländischen Federprobe
- Zwaardgevest van Raskwerd
- Zwaardje van Arum