doctorat 07 - cofund msca, ai4thesciences (psl, france) - «apprentissage automatique informé par la physique en ...

DÉTAILS OPPORTUNITÉ

Récompense totale

0 $

Université étatique

Université PSL

Région

Europe de l'Ouest

Pays hôte

France

Date limite

26 févr. 2021

Niveau d'études

Doctorat

Type d'opportunité

Doctorat

Spécialités

Physique

Financement d'opportunité

Financement complet

Pays éligibles

Cette opportunité est destiné à tous les pays

Région éligible

Toutes les régions

«L'intelligence artificielle pour les sciences» (AI4theSciences) est un programme doctoral innovant, interdisciplinaire et intersectoriel, dirigé par l'Université Paris Sciences et Lettres et cofinancé par la Commission européenne. Soutenu par le programme européen d'innovation et de recherche Horizon 2020 - Marie Sklodowska-Curie Actions, AI4theSciences a une forme unique pour former une nouvelle génération de chercheurs au plus haut niveau académique dans leur discipline principale (physique, ingénierie, biologie, sciences humaines et sociales) et maîtriser les dernières technologies en intelligence artificielle et en apprentissage automatique qui s'appliquent dans leur propre domaine.

26 doctorants rejoindront les écoles doctorales de l'université PSL en 2 cohortes académiques pour mener des travaux sur des sujets proposés et définis par la communauté scientifique de PSL. L'appel 2020 offrira jusqu'à 15 postes de doctorat sur 24 projets de recherche de doctorat. Les candidats seront recrutés selon des processus RH de haut niveau, basés sur la transparence, l'égalité des chances et l'excellence.

Description du sujet de thèse: «L'apprentissage automatique basé sur la physique dans le contexte de l'imagerie sismique»

Contexte - Motivation

Dans le cadre du projet MINDS (Mines Initiative for Numerics and Data Science) développé à Mines ParisTech-PSL, l'objectif est de combler le fossé entre l'apprentissage automatique et les approches basées sur la physique. L'apprentissage automatique se développe très rapidement. Après une éventuelle étape d'apprentissage, l'objectif est de laisser parler les données. Ces approches ont tendance à oublier les approches plus traditionnelles basées sur la physique. L'objectif des travaux est de développer, dans le cadre de l'imagerie sismique, une approche intermédiaire pour préserver la physique [1]. Actuellement, les principaux apports du Machine Learning au traitement sismique sont liés aux étapes de prétraitement (dépotage, picking, ...) mais pas encore vraiment à la partie imagerie (détermination des propriétés de la Terre à partir de mesures de surface, un problème linéaire). L'introduction explicite de la physique dans le Machine Learning devrait combler cette lacune. En cas de succès, le projet aura un impact important sur la manière dont les industriels traitent les données sismiques.

En 2019, Raissi et al., Ont démontré comment il est possible de combiner des approches d'apprentissage automatique avec des approches de physique plus traditionnelles ( Physics-Informed Neural Networks , PINN) [3]. Les applications sont liées à la résolution d'équations aux dérivées partielles (ie problèmes directs) ainsi qu'à la résolution de problèmes inverses (détermination des principaux paramètres contrôlant les phénomènes physiques, par exemple la propagation des ondes, à partir d'un ensemble d'observations). La dernière approche sera développée ici.

D'une part, les réseaux de neurones profonds sont capables en théorie de décrire n'importe quelle fonction. L'apprentissage est généralement une tâche complexe et dans les problèmes liés à la physique, les observations sont rares et coûteuses à acquérir. D'un autre côté, le Machine Learning ne considère généralement pas les équations basées sur la physique, une source d'informations très utile. Comme proposé dans [3], une fonction de perte modifiée dans les réseaux de neurones contient plusieurs termes pour garantir que les données prédisent les observations et que les lois de la physique sont respectées. Ce second terme peut être vu comme un terme de régularisation, indispensable en pratique pour éviter tout sur-ajustement en cas de données bruyantes. L'auto-différenciation (rétropropagation des erreurs) au sein des réseaux de neurones permet d'estimer les paramètres optimaux. Cette approche est très attractive et sera étendue et modifiée pour être applicable dans le cadre de l'imagerie sismique. L'acquisition sismique consiste à activer une source sismique et à enregistrer des ondes acoustiques / élastiques. L'objectif est de déterminer les champs d'ondes de vitesse sismique et tout autre paramètre contrôlant la propagation des ondes dans la sous-surface. En comparaison avec les premières applications PINN, l'imagerie sismique offre certains aspects particuliers à bien prendre en compte:

Les ondes sismiques sont principalement des ondes de propagation, ce qui signifie que le champ d'ondes n'est pas lisse. Afin de vérifier que le champ d'onde obéit à l'équation d'onde, le nombre de points de contrôle est a priori beaucoup plus important que pour un problème diffusif avec une solution plus régulière;
La fonction de perte traditionnelle en imagerie sismique contient un grand nombre de minima locaux. Comment se comporte l'approche PINN? Comment tirer parti du contenu fréquentiel des données? Dans les approches classiques, l'estimation du modèle repose d'abord sur les basses fréquences puis agrandit le spectre de fréquences, afin d'éviter les minima locaux. Comment le réseau de neurones pourrait-il bénéficier de cette approche (par exemple un proxy pour la partie modélisation)?
Enfin, le nombre d'inconnues (nombre de paramètres à estimer) est potentiellement très important (des milliers voire plus, car les paramètres dépendent des coordonnées spatiales). Dans les premiers articles, seules quelques valeurs ont été déterminées. Comment jouer avec le réseau neuronal pour résoudre ce problème? Les Réseaux Adversaires Génératifs (GAN) pourraient être très utiles pour déterminer le paramétrage optimal [2].

Principales références:

[1] Chauris, H. (2019). Inversion complète de la forme d'onde, imagerie inSeismic, une approche pratique, JL. Mari et M. Mendes (Eds.), EDP Sciences, chapitre 5, 23 p., ISBN (ebook): 978-2-7598-2351-2, doi: 10.1051 / 978-2-7598-2351-2.c007

[2] Goodfellow, I., J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville et Y. Bengio (2014). Generative Adversarial Network, Actes de la Conférence internationale sur l'information neuronale, arXiv: 1406.2661

[3] Raissi, M., P. Perdikaris, GE Karniadakis (2019) .Réseaux de neurones informés par la physique: Un cadre d'apprentissage en profondeur pour résoudre des problèmes en avant et en arrière impliquant des équations aux dérivées partielles non linéaires.Journal of Computational Physics, 378, 686-707

Objectifs scientifiques, méthodologie et résultats attendus

L'objectif de la thèse de doctorat est donc de développer une nouvelle approche d'apprentissage automatique informée par la physique dans le contexte de l'imagerie sismique. Les validations seront effectuées sur des ensembles de données synthétiques et réels, fournis par l'entreprise industrielle. L'entreprise co-supervisera également les travaux (sous la direction d'une personne diplômée «HDR») et proposera un stage pour l'application aux données réelles, de sorte que l'entreprise puisse réellement bénéficier du travail. L'entreprise identifiée étant internationale, les données réelles peuvent provenir de l'étranger, en collaboration avec des équipes locales. Le principal directeur académique a une longue expérience en imagerie sismique et en problèmes inverses. Il a encadré plus de 15 doctorants.

mobilité internationale

Le candidat devrait passer environ 6 mois à travailler au sein de l'entreprise pour l'application aux données réelles et pour le transfert de technologie. Les écoles d'été dans les entreprises industrielles seront fortement soutenues.

Suivi de thèse

Hervé Chauris et Elie Hachem

PSL

Créée en 2012, l'Université PSL a pour objectif de développer des formations interdisciplinaires et des projets scientifiques d'excellence au sein de ses membres. Ses 140 laboratoires et ses 2 900 chercheurs mènent des recherches disciplinaires de haut niveau, tant fondamentales qu'appliquées, favorisant une forte approche interdisciplinaire. Le périmètre de l'Université PSL couvre tous les domaines de la connaissance et de la création (Sciences, Sciences humaines et sociales, Ingénierie, Arts). Ses onze écoles composantes rassemblent 17 000 élèves et ont remporté plus de 200 ERC. PSL a été classée 36e au classement 2020 de Shanghai (ARWU).

POSTULEZ MAINTENANT ( 2 CANDIDATES )