Déchiffrer l'écriture de certaines personnes peut être un défi majeur, en particulier lorsque cette écriture est constituée de caractères cunéiformes imprimés sur des tablettes vieilles de 3 000 ans.
Désormais, les spécialistes du Moyen-Orient peuvent utiliser l'intelligence artificielle (IA) pour identifier et copier des caractères cunéiformes à partir de photos de tablettes, ce qui leur permet de lire facilement des écritures complexes.
Avec les hiéroglyphes égyptiens, l'écriture cunéiforme est l'une des plus anciennes formes d'écriture connues et se compose de plus de 1 000 caractères uniques. L'apparence de ces caractères peut varier selon les époques, les cultures, la géographie et même les auteurs individuels, ce qui les rend difficiles à interpréter. Des chercheurs de Cornell et de l'université de Tel Aviv (TAU) ont développé une approche appelée ProtoSnap qui « enclenche » en place un prototype d'un caractère pour l'adapter aux variations individuelles imprimées sur une tablette.
Avec cette nouvelle approche, ils peuvent faire une copie précise de n'importe quel caractère et reproduire des tablettes entières.
"Lorsque l'on remonte dans le monde antique, on constate une grande variabilité dans les formes des caractères", explique Hadar Averbuch-Elor, professeur adjoint d'informatique à Cornell Tech et au Cornell Ann S. Bowers College of Computing and Information Science, qui a dirigé la recherche, "Même avec le même caractère, l'apparence change au fil du temps, et c'est donc un problème très difficile de pouvoir déchiffrer automatiquement ce que le caractère signifie réellement."
Rachel Mikulinsky, étudiante en master et co-première auteure de TAU, présentera « ProtoSnap : Prototype Alignment for Cuneiform Signs » en avril lors de la Conférence internationale sur les représentations de l'apprentissage (ICLR).
On estime que 500 000 tablettes cunéiformes se trouvent dans les musées, mais seule une fraction a été traduite et publiée. "Il existe une quantité infinie de scans 2D de ces cunéiformes, mais la quantité de données étiquetées est très rare", a déclaré Averbuch-Elor.
Pour voir s'ils pouvaient déchiffrer automatiquement ces scans, l'équipe a appliqué un modèle de diffusion (un type de modèle d'IA génératif souvent utilisé pour les tâches de vision par ordinateur, telles que la génération d'images) pour calculer la similarité entre chaque pixel d'une image d'un caractère sur une tablette et un prototype général du caractère. Ils ont ensuite aligné les deux versions et ont aligné le modèle pour qu'il corresponde aux traits du caractère réel.
Les caractères capturés peuvent également être utilisés pour former des modèles d’IA en aval qui effectuent la reconnaissance optique de caractères, transformant essentiellement les images des tablettes en texte lisible par machine.
Les chercheurs ont montré que, lorsqu’ils sont formés avec ces données, les modèles en aval sont bien plus performants pour reconnaître les caractères cunéiformes, même ceux qui sont rares ou qui présentent de nombreuses variations, par rapport aux efforts précédents utilisant l’IA.
Cette avancée pourrait permettre d'automatiser le processus de copie sur tablette, ce qui permettrait aux experts d'économiser d'innombrables heures et de comparer à grande échelle des caractères entre différentes époques, villes et auteurs.
"À la base de nos recherches se trouve l'objectif de multiplier par dix les sources anciennes dont nous disposons", a déclaré le co-auteur Yoram Cohen, professeur d'archéologie à la TAU, "Cela nous permettra, pour la première fois, de manipuler des données volumineuses, ce qui nous permettra d'obtenir de nouvelles informations mesurables sur les sociétés anciennes : leur religion, leur économie, leur vie sociale et juridique."
Lien vers l'article:
- Université de Tel Aviv: "ProtoSnap: Prototype Alignment for Cuneiform Signs"
Aucun commentaire:
Enregistrer un commentaire