Immersion dans la préhistoire grâce à l'IA

Pouvoir se promener dans une grotte habitée il y a plus de 500 000 ans, visualiser les restes d’une occupation humaine puis sortir dans la vallée qui la borde pour observer la faune et la flore de cette époque : voilà le rêve des archéologues du site de Tautavel, dans les Pyrénées-Orientales.

02/07/2021

R&D

Tous les articles

Sommaire

À télécharger

Cet article a initialement été publié sur le site The Conversation.

Aujourd’hui, ce rêve devient presque réalité avec le projet Schopper porté par l’Agence nationale de la recherche. Autour de celui-ci gravitent cinq partenaires français : trois laboratoires (CERP-HNHP, CEROS et LIX) et deux entreprises (Craft.AI et Immersion Tools) qui créent ensemble des solutions technologiques novatrices appliquées à la recherche en archéologie.

Ce projet nous a permis d’aboutir notamment à une technologie générant les paysages de la vallée de Tautavel fréquentée par les hommes préhistoriques au cours de périodes climatiques contrastées (glaciaire et interglaciaire), entre 600 000 ans et 90 000 ans avant le présent.

La simulation est alimentée par les paramètres climatiques (température, humidité) obtenus par des modèles de machine learning (apprentissage automatique) appliqués aux périodes passées. Elle permet de positionner les espèces végétales selon leurs aptitudes écologiques et les animaux qui se déplacent et se nourrissent en fonction des ressources disponibles et de leur éthologie.

Associé au développement de l’ensemble de la vallée en 3D immersif, le résultat offre aujourd’hui aux chercheurs archéologues la possibilité de se déplacer à l’échelle 1 :1 dans la vallée afin d’apprécier le relief du terrain et les distances, la densité du couvert végétal, les zones de franchissement de barrières naturelles, de regroupement et de passage des animaux. Autant de repères importants pour appréhender la mobilité des chasseurs-cueilleurs. Il est également possible d’observer des dispositions de flores dont les pollens ont été retrouvés fossilisés dans la grotte, ou encore de suivre l’évolution du paysage.

54 ans de fouilles

À l’origine de cette reconstitution virtuelle, on retrouve « Schopper », un simulateur qui permet de tester des hypothèses sur l’environnement et les comportements des hommes préhistoriques dans un environnement immersif reconstitué. Le principe est dans un premier temps d’apprendre des données archéologiques, pour ensuite formuler des hypothèses sur le comportement ou sur l’environnement, et enfin observer les mécanismes et impacts de ces hypothèses dans l’environnement reconstitué.

Ce simulateur est le résultat de deux plates-formes en interaction.

Deux plates-formes interagissent pour explorer la faune et la flore avoisinant la grotte de Tautavel. La vallée au cours d’un interglaciaire il y a 500 000 ans. Auteurs, Fourni par l'auteur

La première repose sur la base de données du laboratoire de recherche en préhistoire situé à Tautavel, en charge de la fouille du site pilote du projet, la Caune de l’Arago. Ce gisement du paléolithique inférieur d’intérêt mondial a livré, entre autres, les plus vieux fossiles humains sur le territoire français.

Grâce aux travaux du préhistorien Henry de Lumley, le CERP a constitué une base de données qui mémorise 54 ans de fouilles avec une méthodologie structurée. Elle contient près de 500 000 objets (ossements d’animaux, industries lithiques…), correspondant à une cinquantaine de moments d’occupation de la grotte, ainsi que des prélèvements (sédiments, pollens…).

Pour exploiter cette base de données, Craft.AI, start-up spécialisée dans l’intelligence artificielle (IA), a développé pour Schopper un moteur qui permet de tester des hypothèses scientifiques. Il est ainsi possible d’interroger par exemple la durée des périodes d’occupation de la grotte, la fonction qu’elle avait pour les hommes du passé, mais aussi les conditions climatiques.

La deuxième plate-forme est réalisée par l’équipe d’Immersion Tools, spécialisée dans l’intégration d’outils de présentation visuelle innovants. Elle offre aux archéologues la possibilité d’interagir en réalité virtuelle, en immersion, avec la base de données dans la grotte modélisée en 3D comme le montre l’animation ci-dessous.

Chaque objet est matérialisé par un parallélépipède de couleur correspondant à sa nature. Leur position spatiale au moment de leur découverte à la fouille, leur orientation et leur inclinaison sont respectées. Les chercheurs ont accès à une palette d’outils leur permettant de mesurer les distances entre les objets, d’afficher des scans 3D ou le carroyage, ou encore de se déplacer en suivant les mouvements du corps ou par « téléportation ».

Deux approches pour entraîner l’IA

Pour fonctionner, un outil d’IA a besoin d’apprendre. Quand il s’agit d’un apprentissage supervisé, comme c’est le cas de Schopper, il faut lui donner des données « étiquetées », associant par exemple un ensemble de restes de flore et de faune avec un certain climat.

Deux difficultés majeures se présentent ici en archéologie. Tout d’abord, le volume de données est faible. Les données proviennent de plusieurs disciplines académiques et sont donc assez hétérogènes. Elles restent de plus difficiles à interpréter : comme personne n’était là il y a 400 000 ans pour savoir s’il faisait chaud ou froid, il paraît difficile de savoir dans quelles conditions climatiques se développait une plante dont nous retrouvons un fossile de pollen.

Nous avons donc dû adapter les modes d’entraînement de l’IA à ces contraintes spécifiques de l’archéologie. Le premier mode d’entraînement proposé dans Schopper repose ainsi sur l’« actualisme » : il s’agit d’admettre que ce qui se passe maintenant est similaire à ce qui se passait il y a longtemps (dans certains cas). Cela nous permet d’avoir accès à un plus grand volume de données en enrichissant les données préhistoriques avec des données actuelles.

On suppose par exemple que le renne chassé par l’homme de Tautavel il y a 450 000 ans possède la même écologie que le renne actuel. Cela revient à émettre l’hypothèse qu’il vivait sous un climat relativement froid dans des régions arctiques ou subarctiques. Le chêne vert, dont les grains de pollens sont prélevés dans certains niveaux de la Caune de l’Arago, devrait, lui, rester typique du cortège méditerranéen actuel, thermophile et résistant à la sécheresse.

Pour la faune, nous nous référons notamment à une importante base de données WWF listant les espèces de vertébrés de l’ensemble des écorégions du globe. Celles-ci représentent autant de points de données nourrissant l’apprentissage en associant aux animaux les caractéristiques de leur environnement. Ce peut être le biome terrestre, une valeur de température moyenne annuelle, ou encore un total des précipitations en millimètres sur l’année.

D’après l’IA, les thèses des experts ne reposent pas toujours exactement sur les arguments qu’ils énoncent. Fourni par l'auteur

Le deuxième mode utilisé a pour point de départ des « dires d’experts ». Un archéologue selon sa spécialité va par exemple déduire d’un ensemble de données que les hommes à une certaine date n’avaient résidé que brièvement dans la grotte.

L’IA vient alors interroger les mêmes éléments pour identifier ceux qui ont poussé, d’après elle, le chercheur à donner cet avis. Il peut d’ailleurs arriver que l’algorithme déduise que les variables décisives dans la décision finale diffèrent de celles énoncées par l’expert dans ses articles.

Exploitation des modèles

Une fois ainsi les données préparées, débute une série d’aller-retour qui visent à identifier les paramètres optimaux. Elle est entrecoupée d’étapes de validation permettant de déterminer la qualité de l’apprentissage du modèle ainsi que son pouvoir de généralisation. En ce sens, le machine learning suit le principe du rasoir d’Ockham où une modélisation plus simple est préférée à une explication trop complexe.

Les modèles se voient enfin appliqués pour comprendre, dans la région de la Caune de l’Arago et à différentes époques, le biome, le type de climat, la température, la quantité de précipitations ou la durée d’occupation et la fonction du site.

Des algorithmes d’explication tels que SHAP sont par ailleurs utilisés afin de comprendre comment un modèle aboutit à une décision et pas une autre. Cela permet notamment aux archéologues qui ne sont pas experts en machine learning d’appréhender les processus décisionnels mis en œuvre dans les modèles qu’ils utilisent.

Reste maintenant à approfondir le traitement par le modèle de ce qui touche aux comportements de nos ancêtres. Cela se heurte malheureusement aux difficultés d’établir des référentiels solides d’apprentissage avec peu de données sur des périodes aussi anciennes. Le consortium du projet travaille néanmoins sur de nouvelles pistes techniques pour améliorer la performance de l’IA et ajouter de l’immersion par le son. Ce sera la suite des développements de Schopper.

Ce papier a été rédigé avec Philippe Carrez, fondateur d’Immersion-Tools, et Matthieu Boussard, ingénieur Recherche et Développement chez Craft AI, deux partenaires du projet Schopper.

Une plateforme compatible avec tout l’écosystème

aws
Azure
Google Cloud
OVH Cloud
scikit-lean
PyTorch
Tensor Flow
XGBoost
jupyter
PC
Python
R
Rust
mongo DB