About the Corpus Oudnederlands

About the Corpus application

The corpus application is developed by the INT. The backend of the application is the BlackLab Lucene based search engine developed for corpora with token-based annotation (http://inl.github.io/BlackLab/). The web-based frontend is a further development of the corpus-frontend application developed by INT (https://github.com/INL/corpus-frontend) in CLARIN and CLARIAH projects. Its design is inspired by the first version of the OpenSoNaR user interface by Tilburg and Radboud University (https://github.com/Taalmonsters/WhiteLab2.0).

About the Corpus Oudnederlands

The Corpus Oudnederlands in the current release is a collection of all remaining Dutch word material from the period 475-1200 that served as source material for the Oudnederlands Woordenboek (ONW; Dictionary of Old Dutch). This collection of material consists of various components: three large texts (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) and numerous smaller Old Dutch texts and text fragments (including rune inscriptions), glosses and single words, Frankish material and toponymic material. More detailed information on how the corpus was compiled can be found here. The list of sources can be found in the appendix.

A first online accessible version of the corpus was launched on 29 February 2012, in the form of a quotation database, in which it was not possible to search for consecutive words. The reason was that each word in a quotation had a record in the database, with linguistic annotation (part of speech and lemma), the full quotation and the metadata of the quotation. This version is no longer available.

In 2018, for the Nederlab project, the data from the relational database were converted into token by token linguistically annotated text, including corrections of the linguistic annotation and additional text metadata.

In this new version, several corrections have been made to the added metadata in the corpus and the linguistic annotation has been mapped to the TDN-tagset (see below).

Lemmatization

The Old Dutch word forms all have a modern Dutch lemma. For words no longer used in modern Dutch, a modern lemma has been constructed using the same linguistic principles applicable to still existing words.

More information about the used lemmatization principles can be found in Marijke Mooijaart, Het lemma in het GiGaNT-lexicon.

Part of speech tagging

The original part of speech tagging of the Corpus Oudnederlands was done according to the guidelines developed for the Dictionary of Old Dutch (ONW). The Corpus was tagged manually by the editors of the ONW.

In the context of the CLARIAH+ project, a tagset and tagging principles for the annotation of diachronic corpora of historical Dutch have been developed: Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN). A detailed description can be found here. The original part of speech tagging has been converted into the TDN, and is used in the current application.

Credits

When referring to the Corpus Oudnederlands, please use the following reference:

Corpus Oudnederlands (Version 2.0) (February 2022) [Online service]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-u6

For BlackLab:

Software available at https://github.com/INL/BlackLab

Does, Jesse de, Jan Niestadt en Katrien Depuydt (2017), Creating research environments with BlackLab. In: Jan Odijk and Arjan van Hessen (eds.) CLARIN in the Low Countries, pp. 151-165. London: Ubiquity Press. DOI: https://doi.org/10.5334/bbi

For the corpus frontend:

Software available at: https://github.com/INL/corpus-frontend

Appendix: list of sources

The following 90 sources were used to compile this corpus. Further bibliographical information on these sources can be found in the metadata in the corpus application. In the document view of source number 25), referring to the Leidse Willeram, there is a link to the digital version of the book (http://hdl.handle.net/1887.1/item:881139) on the website of the Leiden University Libraries Digital Collections.

  1. Actes des comtes de Flandre
  2. Actes et documents anciens intéressant la Belgique
  3. Beredeneerde inventaris der oorkonden en bescheiden van de Abdij Kloosterrade en van de adellijke vrouwenkloosters Marienthal en Sinnich, berustende op 't Provinciaal Archief van Limburg
  4. Cartulaire de Saint-Bavon à Gand
  5. Chartes et documents de l'abbaye de Saint Pierre au mont Blandin à Gand depuis sa fondation jusqu'à sa suppression
  6. Chronique de l'abbaye de Saint-Riquier
  7. Chronologisches Wörterbuch des deutschen Wortschatzes. Der Wortschatz des 8. Jahrhunderts (und früherer Quellen)
  8. Collectie Blok
  9. Collectie Gysseling
  10. Collectie Gysseling, addendum
  11. De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225
  12. De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225 (II)
  13. De bij- en beroepsnamen van Germaanse oorsprong in de Westvlaamse oorkonden tot 1225 (III)
  14. De onuitgegeven oorkonden van de Sint-Salvatorsabdij te Ename voor 1200
  15. De oorkonden der Graven van Vlaanderen (1191-aanvang 1206)
  16. Die altmittel- und altniederfränkischen Psalmen und Glossen dr. EA
  17. Die altmittel- und altniederfränkischen Psalmen und Glossen hs. FA
  18. Die altmittel- und altniederfränkischen Psalmen und Glossen hs. H
  19. Die altmittel- und altniederfränkischen Psalmen und Glossen hs. I
  20. Die Urbare der Abtei Werden a. d. Ruhr
  21. Die vitae sancti Liudgeri
  22. Diplomata Belgica ante annum millesimum centesimum scripta
  23. Een diplomatisch onderzoek van de oudste particuliere oorkonden van Werden
  24. Einhardi Vita Karoli magni
  25. (Expositio) Willerammi Eberspergensis Abbatis in Canticis Canticorvm
  26. Fontes Egmundensis
  27. Französisches Etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes
  28. Gebedsstaafje van Westeremden
  29. Gentse naamkunde van ca. 1000 tot 1253. Een bijdrage tot de kennis van het oudste middelnederlands
  30. Gesta abbatum Trudonensium, lib. 1 - 7 en lib. 9
  31. Groningse psalmglossen
  32. Hansisches Urkundenbuch
  33. Het fragment van een grafelijke rekening van Vlaanderen uit 1140
  34. Histoire du meurtre de Charles le Bon, comte de Flandre (1127-1128)
  35. Hollandse lijst van heidense praktijken
  36. Hollands-Utrechtse namen van maanden en winden
  37. Kam van Oostum
  38. Kam van Toornwerd
  39. Kempische persoonsnamen. Familienamen in de 12e, 13e en het begin der 14e eeuw
  40. Le Compte Général de 1187, connu sous le nom de ""Gros Brief"", et les institutions financières de comté de Flandre au XIIe siècle
  41. Les Gestes des Ducs de Brabant, Tome premier
  42. Lexicon van Nederlandse toponiemen tot 1200
  43. Lex Salica
  44. Liber Camerae
  45. Liber Traditionum Sancti Petri Blandiniensis
  46. Mittelfränkische Reimbibel A
  47. Mittelfränkische Reimbibel B
  48. Mittelfränkische Reimbibel C
  49. Naamlijst van een lofvers op de kloostergemeenschap te Munsterbilzen
  50. Nederbergse doopbelofte
  51. Nederlandse woorden in Latijnsche oorkonden en registers tot 1250
  52. Noordnederrijnse bloedbezwering
  53. Noordoostnederrijnse Prudentiusglossen
  54. Oorkondenboek der Graafschappen Gelre en Zutfen tot op den slag van Woeringen, 5 Juni 1288
  55. Oorkondenboek der Witheerenabdij van S.-Michiels te Antwerpen
  56. Oorkondenboek van Groningen en Drente
  57. Oorkondenboek van het Sticht Utrecht tot 1301
  58. Oorkondenboek van Holland en Zeeland tot het einde van het Hollandsche Huis [1299]
  59. Oorkondenboek van Noord-Brabant tot 1312 (I)
  60. Oorkondenboek van Noord-Brabant tot 1312 (II)
  61. Oostnederrijns-Westfaalse paarden- en wormbezwering
  62. Opera diplomata et historica
  63. Orosiusglossen uit Sint-Omaars
  64. Oude Westvlaamse woorden
  65. Pactus legis Salicae
  66. Persoonsnamen in de Leiestreek voor 1200
  67. Quod Vulgo Dicitur. Studien zum Altniederländischen
  68. Reichenauer Glossen
  69. Rentenaar, De Nederlandse duinen in de Middeleeuwse bronnen tot omstreeks 1300
  70. Romaanse leenwoorden in de Westvlaamse naamgeving tot 1225
  71. Runeninscriptie Bergakker
  72. Runeninscriptie Bernsterburen
  73. Stallaert, Glossarium van verouderde rechtstermen, kunstwoorden en andere uitdrukkingen uit Vlaamsche, Brabantsche en Limburgsche oorkonden
  74. Taxusstaafje van Britsum
  75. Toltarief Letterswerve
  76. Toponymisch Woordenboek van België, Nederland, Luxemburg, Noord-Frankrijk en West-Duitsland (voor 1200)
  77. Traditiones et antiquitates Fuldenses
  78. Utrechtse doopbelofte
  79. Verslagen en mededeelingen der Koninklijke Vlaamsche Academie voor Taal- en Letterkunde
  80. Vlaamse bijnamen vóór 1225 (I)
  81. Vlaamse bijnamen vóór 1225 (II)
  82. Vroegmiddeleeuwse persoonsnamen
  83. Wachtendonkse psalmglossen
  84. Wachtendonkse psalmglossen, handschrift C
  85. Weefzwaardje van Westeremden
  86. Woordenboek der Toponymie van Westelijk Vlaanderen, Vlaams Artesie, het Land van den hoek, de graafschappen Guines en Boulogne en een gedeelte van het graafschap Ponthieu
  87. Woordenboek van de familienamen in België en Noord-Frankrijk
  88. Zur Lesart und Hybridität der altniederländischen Federprobe
  89. Zwaardgevest van Raskwerd
  90. Zwaardje van Arum