Skip to content

Mémoire de stage de Master "Technologies numériques appliquées à l'Histoire" à l'Ecole nationale des Chartes

Notifications You must be signed in to change notification settings

Juliettejns/Memoire_TNAH

Repository files navigation

Mémoire de stage du master "Technologies numériques appliquées à l'Histoire"

Du catalogue papier au numérique : Une chaîne de traitement ouverte pour l’extraction d’informations issues de documents structurés

Ce mémoire a été réalisé à la suite d’un stage de quatre mois (de mars à juillet 2021) à Artl@s, projet en histoire de l’art et humanités numériques dirigé par Béatrice Joyeux-Prunel et financé par l’École Normale Supérieure et le centre IMAGO. Ce projet a pour but de rassembler des catalogues d’exposition du XIXème et XXème siècle issus du monde entier au sein de la base de données Basart. Un premier travail, réalisé par Caroline Corbières, a permis d’établir une chaîne de traitement permettant d’automatiser la production de ces catalogues, de leur version numérisée à leur versement dans la base. L’objectif de ce stage a été de tester une alternative libre, ouverte et gratuite à ce travail.

Ce mémoire s’attache donc à décrire les différentes briques permettant l’élaboration de cette chaîne de traitement. Il s’intéresse à la problématique de la récupération puis l’annotation d’informations depuis des documents semi-structurés, en ciblant son proposautour des catalogues. Il développe tout au long de ce travail une réflexion autour de la Science Ouverte, l’application de ses principes et son intérêt pour les projets de recherche,en prenant appui sur l’exemple d’Artl@s.

Description des annexes numériques

Le dépôt contient des livrables techniques réalisés au cours du stage:

  • 1_Jeux_de_donnees correspond au dépôt réalisé dans le cadre de l'élaboration d'un corpus d'entraînement de modèles d'HTR.
  • 2_Extraction_Python correspond au dépôt contenant le programme python d'extraction de données de fichiers ALTO et d'encodage automatique en XML-TEI
  • 3_Catalogues_Encodés contient les catalogues encodés par la chaîne de traitement réalisée au cours de ce stage. (Un détail plus poussé de ce travail est disponible ici.)

Licence

Les images des catalogues publiées avant 1920, les transcriptions et le code sont CC-BY.
Les autres images sont extraites de catalogues publiées après 1920 et sont la propriété intellectuelle de leur producteur.
68747470733a2f2f692e6372656174697665636f6d6d6f6e732e6f72672f6c2f62792f322e302f38387833312e706e67

Cite this repository

Juliette Janès, Du catalogue papier au numérique : Une chaîne de traitement ouverte pour l’extraction d’informations issues de documents structurés, mémoire de master « Technologies numériques appliquées à l’histoire »,dir. Thibault Clérice et Béatrice Joyeux-Prunel, École nationale des chartes, 2021, https://github.com/Juliettejns/Memoire_TNAH.

About

Mémoire de stage de Master "Technologies numériques appliquées à l'Histoire" à l'Ecole nationale des Chartes

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published