Porteur du projet : Nicolas Perreaux

 

Argumentaire : [English version below]

Le projet de recherche des Cartae Europae Medii Aevi (CEMA) a pour objectif de réunir l’ensemble des corpus diplomatiques édités et numérisés, d’abord en mode texte mais aussi en mode image, disponibles sur Internet. Il part d’un constat élémentaire : de nombreux programmes ont numérisé des « chartes » depuis plus de quarante ans (cf. Perreaux 2014), selon des logiques régionales ou nationales. Mais la plupart du temps, ces tentatives importantes sont restées isolées, à la fois scientifiquement et historiographiquement, rendant impossible l’interrogation comparée de ces textes pourtant essentielle à l’histoire européenne.

Débuté dès 2008, le corpus répond à ce défi et propose à l’interrogation un ensemble de 250 000 chartes, correspondant à environ de 75 millions de mots. Il constitue ainsi le plus vaste ensemble de textes médiévaux pour les VIIe-XVe siècles, toute typologie confondue. L’intérêt des CEMA ne se limite toutefois pas aux seuls textes, puisqu’un gros effort a été mené pour uniformiser les métadonnées des différents corpus intégrés (auteurs, lieux, éléments de datation, authenticité, tradition, analyses, etc.), ou encore pour repérer les doublons et catégoriser les chartes, en particulier à l’aide de méthodes relevant de l’intelligence artificielle. Le développement de ces « données sur les données » est essentiel au corpus, puisqu’il favorise des interrogations nouvelles.

L’objectif scientifique du corpus est en effet de permettre non seulement des comparaisons diplomatiques, entre des documents provenant de toute l’Europe médiévale, mais aussi des explorations lexicographiques, sémantiques et socio-culturelles. Notre souhait est de mettre à disposition de la communauté scientifique une plateforme commune pour ces textes, dont l’importance est reconnue par tous les historiens du Moyen Âge. Les chartes constituent en effet l’un des héritages culturels médiévaux les mieux répandus chronologiquement et géographiquement – car elles sont présentes dans des milliers de dépôts d’archives, sous la forme de centaines de milliers de parchemins ou de codices (les cartulaires). En abordant les tendances médiévales à cette échelle inédite, on espère pouvoir confirmer (ou infirmer) certaines hypothèses historiographiques anciennes (sur le développement de l’Europe médiévale, la régionalisation linguistique et scripturaire, le développement des infrastructures, des communautés et de l’encadrement des hommes, la création des concepts), mais aussi découvrir des tendances historiques inédites, impossible à lire et à comprendre sans l’aide du Big Data et de la fouille de données.

Graphs CEMA

En pratique, le corpus, actuellement en cours de diffusion via Huma-Num, sera mis à disposition dans différents formats, permettant à la fois des requêtes élémentaires et complexes sous différents logiciels (R, TXM, CQP-Web, NoSketchEngine). La totalité des textes médiolatins a en outre été lemmatisée, grâce aux paramètres développés dans le cadre de l’ANR OMNIA. Les documents vernaculaires sont en cours de lemmatisation, à l’aide de différents paramètres expérimentaux, en particulier pour l’Ancien français.

Outre le corpus textuel, l’équipe du projet souhaite construire une plateforme permettant d'accueillir et de croiser d’autres données relatives aux chartes. En particulier, il s’agit de diffuser une bibliographie des éditions diplomatiques européennes, qui contient à ce jour plus de 2 500 références – références issues de la thèse de Nicolas Perreaux, mais aussi de diverses provenances numériques et d’inventaires papiers (Index des sources du Novum Glossarium, CartulR, Codiphis, Davis, etc.). Nous souhaitons aussi mettre à disposition une bibliothèque de milliers d'éditions numérisées en mode image, au format PDF, récoltées et classées depuis de nombreuses années - et ainsi constituer un répositoire global pour les textes diplomatiques européens, permettant par la suite d'alimenter le corpus textuel par OCR.  A terme, il s’agit de créer un portail cohérent pour les enquêtes (érudites, historiques, sémantiques, cartographiques) sur les textes diplomatiques numériques, tout en assurant la conservation à long terme de ces éditions digitales.

Cartographie éditions CEMA

 

Voir la présentation du projet en vidéo, lors du séminaire H-37 (dir. Paul Bertrand).

Ce projet compte sur le soutien de l’IRHT, de l’École des chartes et de nombreux partenaires nationaux et internationaux.

  • Présentations des CEMA (colloques, journées d'études, workshops)

    Le projet a fait l’objet de présentations propres par Nicolas Perreaux, dans des conférences nationales ou internationales, depuis 2011 :

    - Mai 2020 / « Cartae Europae Medii Aevi. Méthodes, enjeux et possibilités d’un corpus diplomatique européen », communication dans le séminaire H37 (dir. Paul Bertrand), à l’Université de Louvain, Louvain-la-Neuve.

    - Février 2020 / « Cartae Europae Medii Aevi. Présentation et exploration d’un corpus diplomatique européen », communication lors du séminaire des historiens médiévistes de l’Université de Strasbourg, Strasbourg.

    - Septembre 2018 / « Digitial Diplomatics and the Corpus Cartae Europae Medii Aevi: Contents, Methods, Issues », communication lors de colloque Digitales Kulturerbe: Zugang, Vernetzung und Darstellung (org. Simon Teuscher et Tobias Hodel), à Zürich (Suisse).

    - Mai 2018 / « Les corpus diplomatiques numérisés : contenus, méthodes, enjeux », communication en lors du Workshop Humanités numériques. De nouveaux outils pour le médiéviste (org. Paul Bertrand, Nicolas Ruffini et Sébastien de Valeriola), à l’Université de Namur, Namur (Belgique).

    - Décembre 2016 / « La visualisation comme reflet des perspectives intellectuelles en histoire (médiévale) », communication lors du colloque Figures et Objets. Histoire, histoire de l’art, archéologie, à l’Université de Bourgogne, Dijon (org. Daniel Russo et Hervé Duchêne).

    - Novembre 2016 / « Le corpus : une structure historienne ou historique ? », communication en lors de la journée d’étude Qu’est-ce qu’un corpus, à l’IRHT, Paris (org. Eliana Magnani).

    - Octobre 2016 / « Pourquoi modéliser ? L’intérêt heuristique des visualisations en histoire (médiévale) », communication lors du séminaire IVI (Idée, Vérité, Image), à l’Université de Nice Sophia Antipolis, Nice (org. Elsa Grasso et Arnaud Zucker).

    - Février 2016 / « European History of the Middle Ages in a Digital Area? Some experiences about Charter Databases, Churches and Historical Semantics », communication lors du séminaire Power and Institutions in Medieval Islam and Christendom (PIMIC), à l’Université de Madrid, Madrid (Espagne) (org. Ana Rodriguez).

    - Janvier 2016 / « Scriptura mundi. Enquêtes numériques sur la diffusion, le lexique et la sémantique des chartes en Europe (VIIe-milieu du XIVe siècle) », communication lors du séminaire Histoire médiévale, mathématiques et humanités numériques, à l’Université de Toulouse, Toulouse (org. Roland Viader et Jean-Loup Abbé).

    - Octobre 2013 / « Constitution et traitement d’un corpus européen de chartes du Moyen Âge - CEMA », communication lors du séminaire Corpus de l’UMR 6298 ARTeHIS, à l’Université de Bourgogne, Dijon (org. Eliana Magnani).

    - Septembre 2011 / « From accumulation to exploitation? Experiments and proposals for indexing and for the use of diplomatics databases », communication lors du colloque international Digital Diplomatics, à Naples (Italie) (org. Antonella Ambrosio, Georg Vogeler et Sébastien Barret).

  • Publications sur les CEMA

    Liste incomplète de travaux scientifiques exploitant directement le corpus :

    - N. Perreaux et C. Rey : « CBMA VII. Le « vocabulaire courant » en diplomatique : techniques et approches comparées », Bulletin du Centre d’études médiévales d’Auxerre, n° 17.1, 2013, https://cem.revues.org/12984. Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « De l’accumulation à l’exploitation ? Expériences et propositions pour l’indexation et l’utilisation des bases de données diplomatiques », dans AMBROSIO A., BARRET S. et VOGELER G. (dir.), Digital diplomatics. The computer as a tool for the diplomatist?, Böhlau Verglag, Köln-Weimar-Wien, 2014, p. 187-210 (Archiv für Diplomatik. Schriftgeschichte Siegel- und Wappenkunde, Beiheft 14). Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « L’écriture du monde (I). Les chartes et les édifices comme vecteurs de la dynamique sociale dans l’Europe médiévale (VIIe-milieu du XIVe siècle) », Bulletin du Centre d’études médiévales d’Auxerre, vol. 19.2, janvier 2016, https://cem.revues.org/14264. Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « L'écriture du monde (II). L'écriture comme facteur de régionalisation et de spiritualisation du mundus : études lexicales et sémantiques », Bulletin du Centre d’études médiévales d’Auxerre, vol. 20.1, 2016, https://cem.revues.org/14452. Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « Les mots de la sépulture dans l’Europe médiévale (VIIIe-fin du XIIIe siècle) : observations complémentaires à partir des corpus numérisés », dans LAUWERS M. et ZEMOUR A. (dir.), Qu’est-ce qu’une sépulture ? Humanités et systèmes funéraires de la préhistoire à nos jours. Actes des XXXVIe rencontres internationales d’archéologie et d’histoire d’Antibes, 13-15 octobre 2015, Éditions APDCA, Antibes, 2016, p. 113-121. Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « Chronologie, diffusion et environnement des villae dans l’Europe médiévale (VIIe-XIIIe siècles) : recherches sur les corpus diplomatiques numérisés », dans BULLY S. et SAPIN C. (dir.), L’origine des sites monastiques : confrontation entre la terminologie des sources textuelles et les données archéologiques, Dijon, 2016, https://cem.revues.org/14476 (Bulletin du Centre d’études médiévales d’Auxerre, Hors-série n° 10). Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « Le rythme de l’écriture. Productions des chartes et dynamique sociale (IXe-XIIIe siècles) : Bourgogne, Centre, Pays de la Loire », dans SENSEBY C. (dir.), L’écrit monastique dans l’espace ligérien, Presses Universitaires de Rennes, Rennes, 2018, p. 29-50. Lien vers l'article sur HAL-SHS.

    - N. Perreaux : « Langue des capitulaires et langue des chartes : richesses, circulations, spécificités », in JUSSEN Bernhard et UBL K. (dir.), La langue du droit. Sémantique historique et capitulaires carolingiens, Frankfurt, 2021 (article accepté, à paraître).

    - N. Perreaux : « Des « seigneuries » laïques aux territoires ecclésiaux ? Dynamique du processus de spatialisation dans les actes diplomatiques numérisés (VIIe-XIIIe siècles) », in MARTINE T., NOWAK J. et SCHNEIDER J. (dir.), Espaces ecclésiastiques et seigneuries laïques. Définitions, modèles et conflits en zones d’interface (IXe-XIIIe siècle), Paris, Presses Universitaires de la Sorbonne, 2021 (article accepté, à paraître).

    - N. Perreaux : « An Imaginary Frailty? Memory Discourses in Charters (7th-13th c.) », in DOLEŽALOVÁ L. et CERMÁK J. (dir.), Discourses and practices of Memory in the Middle Ages, Brepols, Turnhout, 2021 (article accepté, à paraître).

    - N. Perreaux : « Les lieux de stockage dans les textes diplomatiques (VIIe-XIIIe siècles). Enquête lexicale, sémantique et numérique », in SCHNEIDER L. et LAUWERS M. (dir.), Mises en réserve : production, accumulation et redistribution des céréales dans l’Occident médiéval et moderne, Flaran, PUM, 2021 (article accepté, à paraître).

    - N. Perreaux : « Œuvrer, servir, souffrir. Réflexions sur la sémantique des activités médiévales », in LAUWERS M. (dir.), Labeur et production au sein des monastères de l’Occident médiéval, Turnhout, Brepols, 2021 (article accepté, à paraître).

[EN] Presentation of the projet:

The Cartae Europae Medii Aevi (CEMA) research project aims to bring together all the edited and digitised diplomatic corpuses, first in text mode but also in image mode, available on the Internet. It is based on a basic observation: many programmes have been digitising "charters" for more than forty years (see Perreaux 2014), according to regional or national logic. However, most of the time, these important attempts have remained isolated, both scientifically and historiographically, making it impossible to carry out comparative research on these texts, which are essential to European history.

Begun in 2008, the corpus responds to this challenge and offers a set of 250,000 charters, corresponding to approximately 75 million words. It thus constitutes the largest collection of medieval texts for the 7th-15th centuries, of any typology. However, the interest of the CEMA is not limited to the texts alone, since a major effort has been made to standardise the metadata of the various integrated corpuses (authors, places, dating elements, authenticity, tradition, analyses, etc.), or to identify duplicates and categorise the charters, in particular using artificial intelligence (IA) methods. The development of this "data on data" is essential to the corpus, since it encourages new questions.

The scientific objective of the corpus is indeed to allow not only diplomatic comparisons, between documents from all over medieval Europe, but also lexicographical, semantic and socio-cultural explorations. Our wish is to provide the scientific community with a common platform for these texts, whose importance is recognised by all medieval historians. Indeed, charters constitute one of the most widespread medieval cultural legacies chronologically and geographically - as they are present in thousands of archives, in the form of hundreds of thousands of parchments or codices (the cartulary). By approaching medieval trends on this unprecedented scale, it is hoped to confirm (or disprove) certain ancient historiographical hypotheses (on the development of medieval Europe, linguistic and scriptural regionalisation, the development of infrastructure, communities and human supervision, the creation of concepts), but also to discover novel historical trends, impossible to read and understand without the help of Big Data and data/text mining.

In practice, the corpus, currently being disseminated via Huma-Num, will be made available in different formats, allowing both elementary and complex queries under different software (R, TXM, CQP-Web, NoSketchEngine). In addition, all the mediolatin texts have been lemmatised, thanks to the parameters developed within the framework of the ANR OMNIA. Vernacular documents are in the process of being lemmatised, using various experimental parameters, particularly for Old French.

In addition to the textual corpus, the project team wishes to build a platform to host and cross-reference other data related to the charters. In particular, the aim is to disseminate a bibliography of European diplomatic editions, which to date contains more than 2,500 references - references from Nicolas Perreaux's thesis, but also from various digital sources and paper inventories (Index des sources du Novum Glossarium, CartulR, Codiphis, Davis, etc.). We would also like to make available a library of thousands of digitised editions in image mode, in PDF format, collected and classified over many years - and thus constitute a global repository for European diplomatic texts, which can then be fed into the text corpus by OCR. Ultimately, the aim is to create a coherent portal for surveys (scholarly, historical, semantic, cartographic) on digital diplomatic texts, while ensuring the long-term preservation of these digital editions.