Thèse Identifiabilité Sensibilité aux a Priori et Propriétés des Modèles de Mélanges Dirichlet-Multinomial pour l'Évaluation Diagnostique sans Gold Standard H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Clermont Auvergne École doctorale : Sciences Fondamentales Laboratoire de recherche : Laboratoire de Mathématiques Blaise Pascal Direction de la thèse : PIERRE DRUILHET ORCID 0000000272509856 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-25T23:59:59 L'évaluation des performances diagnostiques sans test de référence parfait (gold standard) repose sur des modèles à classes latentes. Les approches classiques, issues du modèle de Hui et Walter (1980), ont été enrichies pour intégrer des dépendances conditionnelles entre tests, mais restent fortement contraintes et présentent des fragilités importantes. En particulier, leur identifiabilité peut être compromise dans des situations réalistes, comme en présence de faibles prévalences ou de corrélations élevées entre tests, conduisant à des estimations incohérentes des sensibilités et spécificités .
Par ailleurs, dans un cadre bayésien, ces modèles sont très sensibles au choix des distributions a priori. Lorsque l'information contenue dans les données est limitée, des a priori même faiblement informatifs peuvent induire des biais significatifs, ce qui pose un problème majeur pour leur utilisation en pratique .
Face à ces limites, cette thèse propose d'étudier des modèles plus flexibles fondés sur des mélanges de distributions Dirichlet-Multinomial pour les données catégorielles, ainsi que des mélanges de processus de Dirichlet pour les données continues. Ces approches permettent de modéliser des dépendances complexes sans imposer de structure paramétrique rigide, mais soulèvent des questions fondamentales d'identifiabilité et de robustesse.
Le premier objectif est de caractériser l'identifiabilité des modèles de mélange Dirichlet-Multinomial à deux composantes. Il s'agit d'établir des conditions nécessaires et suffisantes d'identifiabilité, de décrire les classes d'équivalence des paramètres, et de relier ces résultats à des quantités interprétables en diagnostic, en fonction du nombre de tests et des dépendances.
Le deuxième objectif consiste à analyser la sensibilité des inférences bayésiennes aux choix d'a priori. Différentes familles d'a priori seront étudiées (Dirichlet, Gamma, impropres), afin de comprendre leur influence sur les distributions a posteriori et de proposer des choix robustes. Une extension des résultats existants sur l'approximation des a priori impropres sera développée dans le cadre multivarié des modèles de mélange.
Le troisième objectif repose sur des études de simulation visant à évaluer les propriétés des estimateurs (biais, variance, couverture) dans des scénarios réalistes, notamment en santé animale. Ces analyses permettront d'identifier les configurations où l'inférence est la plus fragile et de comparer les approches proposées aux modèles classiques.
Enfin, le quatrième objectif étend le cadre aux mélanges de processus de Dirichlet pour l'estimation non paramétrique de courbes ROC sans gold standard. L'objectif est de proposer une méthodologie permettant d'estimer ces courbes et leurs intervalles de crédibilité sans hypothèses paramétriques fortes.
Les contributions attendues sont à la fois théoriques, méthodologiques et appliquées : caractérisation de l'identifiabilité de ces modèles, recommandations pour le choix des a priori, développement d'outils non paramétriques pour les courbes ROC, et amélioration de la fiabilité de l'évaluation diagnostique en santé animale et humaine. L'évaluation des performances des tests diagnostiques (sensibilité, spécificité, courbes ROC) repose généralement sur l'existence d'un test de référence parfait (gold standard), souvent indisponible en pratique, notamment en santé animale et pour certaines pathologies humaines.
Dans ce cadre, les modèles à classes latentes permettent d'estimer les performances à partir des seules données observées. Cependant, les approches classiques, issues du modèle de Hui et Walter, reposent sur des hypothèses fortes (indépendance conditionnelle, structures paramétriques simples) souvent irréalistes.
Deux difficultés majeures apparaissent :
- des problèmes d'identifiabilité,
- une forte sensibilité aux a priori en cadre bayésien lorsque les données sont peu informatives.
Ces limites peuvent conduire à des inférences instables ou biaisées.
Les modèles de mélanges Dirichlet-Multinomial et les processus de Dirichlet offrent une alternative plus flexible pour modéliser des dépendances complexes. Toutefois, leurs propriétés théoriques, notamment en termes d'identifiabilité et de robustesse, restent encore mal comprises dans ce contexte.
Ce projet s'inscrit à l'interface entre statistique bayésienne, identifiabilité et biostatistique, avec pour objectif d'améliorer la fiabilité de l'évaluation diagnostique sans gold standard. Étudier l'identifiabilité des modèles de mélanges Dirichlet-Multinomial
Analyser la sensibilité aux a priori en cadre bayésien
Évaluer les performances des estimateurs (biais, variance, robustesse)
Développer des méthodes non paramétriques pour les courbes ROC sans gold standard
Améliorer la fiabilité de l'évaluation diagnostique en absence de référence parfaite L'approche repose d'abord sur une analyse théorique de l'identifiabilité des modèles de mélanges Dirichlet-Multinomial, en établissant des conditions nécessaires et suffisantes ainsi que les classes d'équivalence des paramètres. Le cadre bayésien est mobilisé via une modélisation hiérarchique, accompagnée d'une étude approfondie de la sensibilité aux distributions a priori (Dirichlet, Gamma, a priori impropres).
Des développements méthodologiques sont ensuite proposés, notamment l'extension aux mélanges de processus de Dirichlet afin de permettre une modélisation non paramétrique des distributions des tests. L'inférence repose sur des méthodes computationnelles de type MCMC, en particulier des algorithmes d'échantillonnage adaptés aux modèles de mélange.
Les propriétés des estimateurs sont évaluées à l'aide d'études de simulation, en termes de biais, variance et couverture, dans des scénarios réalistes. Enfin, les méthodes sont appliquées à des données réelles issues de l'épidémiologie diagnostique afin de valider leur pertinence et leur robustesse.
Le profil recherché
Compétence en mathématiques appliquées, probabilité, statistique et programmation.