Post-doctorant(e) Projet « COM-IA » « Vision artificielle et réseaux de neurones profonds appliqués à l'analyse sémantique et la segmentation de manuscrits anciens »

UNIVERSITE PARIS 1 PANTHEON SORBONNE  |  Contractuel

En Bref

  • Lieu de travail : Paris
  • Catégorie : A
  • Date de publication : 28/04/2025
  • Valable jusqu'au : 27/06/2025
  • Code postal : 75000
  • Salaire : Jusqu'à 20 000€
  • Référence : pz4qy2eoob

Employeur

Poste

Recherche en mathématiques appliquées
Les principales questions abordées dans le cadre de ce projet sont :
1 la détection et l'identification de motifs d'intérêt (illustrations, glose, annotations...) présents dans les numérisations de manuscrits médiévaux, le positionnement de ces motifs sur la page,
2. l'identification du texte sur la numérisation, ainsi que la description précise des caractéristiques de celui-ci (positionnement, nombre de colonnes, taille des marges, module,...),
3. la détection et l'identification automatique de signes visuels structurant la page (symboles, abréviations, renvois,...)
4. la différenciation entre texte principal et tout type d'annotation paratextuelle, dont la glose. Il s'agit d'annotations se présentant sous la forme de commentaires structurés.
5. mise en relation automatique de la glose avec la partie du texte à laquelle elle se rapporte,
6. le repérage de strates d'écriture rédigées à des périodes différentes qui seront ordonnées chronologiquement.
Les principaux outils pour mener ce projet à bien consistent pour une part en des stratégies préexistantes telles que les approches de reconnaissance de caractères (HTR), certaines architectures de réseaux de neurones profonds préentraînés (Kraken,...), des stratégies de segmentation d'image classiques en vision artificielle (computer vision).
Toutefois une spécificité importante du présent projet tient au faible nombre d'exemples d'apprentissage, ce qui rend l'entraînement des réseaux de neurones profonds habituellement difficile. Il est donc nécessaire de développer des stratégies alternatives reposant par exemple sur l'apprentissage auto-supervisé (selfsupervised learning) ou encore des techniques d'augmentation de données à l'aide de modèles de diffusion par exemple.
Sur un plan historique
Les manuscrits juridiques sont la cible de ce projet. À partir du XIIe siècle se met en place une Europe du droit. Elle est la conséquence, notamment, de la codification des droits romains et canons, de la revendication par les princes du pouvoir de légiférer, d'une hiérarchisation des justices à leur profit, de la judiciarisation de la vie sociale qui fait des juges et des juristes des figures centrales ou encore, de manière plus générale, d'un besoin social de la loi et du droit. Cette Europe du droit voit une production croissante de manuscrits juridiques. De nature très hétérogène (codes, coutumiers, ordonnances, statuts, accords de parlement, livres universitaires, de la pratique ou encore manuscrits personnels), ce corpus construit néanmoins une 2 sémiotique juridique commune dans la société médiévale. Écriture, mise en page, décoration construisent la singularité scripturaire et matérielle des manuscrits juridiques : la norme et son application est ainsi dépendante de ce standard d'écriture. En lien avec le programme du Lamop sur les technologies législatives, ce projet a pour originalité de développer une approche interdisciplinaire, combinant codicologie quantitative et intelligence artificielle (IA) pour analyser un large corpus de manuscrits numérisés. L'objectif est de décrypter les différentes strates d'écriture (texte principal, gloses, annotations marginales, etc.), de les ordonner chronologiquement et d'étudier leurs interactions. Si cette approche s'intéresse à la spécificité de la scripturalité juridique - la question de la construction de l'authenticité de la norme par exemple –, la méthodologie ainsi construite pourra s'appliquer à d'autres corpus afin de renouveler l'approche, en particulier numérique, du rôle du livre dans la société médiévale.

Le post-doctorant sera responsable des tâches suivantes :
Conception et développement d'algorithmes :
• Concevoir et développer des algorithmes appropriés pour répondre aux questions de recherche proposées.
• Implémenter ces algorithmes dans un langage de programmation adéquat.
• Optimiser les performances des algorithmes développés, en termes de précision, de robustesse et d'efficacité.
Collecte et préparation de données :
• Collecter et préparer les données nécessaires à ses recherches, qui pourront inclure des documents numérisés, des images et du texte.
• Préparer ces données afin de les rendre exploitables par les algorithmes.
• Création d'un dataset support des analyses
Expérimentation et validation :
• Mener des expériences pour tester et valider ses hypothèses de recherche.
• Collaborer avec les autres membres de l'équipe de recherche, et éventuellement avec des partenaires extérieurs, pour mener à bien ces expériences.
Valorisation de travaux :
• Rédaction (en anglais) et soumission d'articles dans des revues scientifiques à comité de lecture de haut niveau en Mathématiques appliquées et en Histoire.
• Soumission de contributions et exposés (en anglais) dans des conférences nationales et internationales de haut niveau.
• Participation active à des séminaires.
• Organisation d'événements scientifiques

Profil

Savoir-faire
• Solides compétences en traitement d'images et en reconnaissance de formes.
• Expertise en apprentissage automatique (machine learning) et en intelligence artificielle, notamment en apprentissage profond (deep learning).
• Maîtrise des outils de programmation (Python, etc.) et des bibliothèques associées (TensorFlow, PyTorch, OpenCV, etc.).
Compétences spécifiques :
• Expérience dans la détection et la reconnaissance de motifs visuels.
• Capacité à développer des algorithmes pour l'analyse de documents complexes.
• Curiosité pour l'histoire
Savoir-être :
• Rigueur scientifique et capacité d'analyse.
• Autonomie et esprit d'initiative.
• Aptitude à travailler en équipe.
Formation souhaitée :
• Doctorat en mathématiques appliquées, informatique, traitement d'images, intelligence artificielle. Si les compétences techniques sont maîtrisées il peut s'agir d'un domaine connexe comme les humanités numériques.
Pour faire acte de candidatures, envoyer CV et lettre de motivation à :
Stéphane Lamassé : stephane.lamasse@univ-paris1.fr
Alain Celisse : alain.celisse@univ-paris1.fr
Date limite de candidature : 13 juin 2025
Entretien à prévoir : L'audition pourra se tenir en visioconférence

Ces offres pourraient vous intéresser

Recevoir des offres d'emploi similaires par email

Domaine/Métier : Chargé d'études
Localité : Paris

Les informations à caractère personnel recueillies font l’objet d’un traitement par Emploipublic.fr du Groupe Moniteur RCS Nanterre B 403 080 823.
Elles sont nécessaires entre autres, à la création de votre compte et sont enregistrées dans nos fichiers.
Groupe Moniteur ou toutes sociétés du groupe Infopro Digital pourront utiliser ces fichiers afin de vous proposer des produits et/ou services analogues.
Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.