Thèse de doctorat
Résumé : Un processus aléatoire générant un jeu de données multivarié composé de vecteurs de dimension p peut être en réalité caractérisé par une dimension latente q bien inférieure à p. Il est en effet tout à fait envisageable que l’information contenue dans un sous-espace de dimension p-q après projection des vecteurs aléatoires caractérisant le processus de génération des données ne soit pas pertinente (quasi-absence d’aléatoire, présence exclusive de bruit). Dans ce cas de figure, il est commun de chercher à réduire la dimension des observations en projetant le jeu de données sur le sous-espace supposé contenir l’information pertinente. Pour mener pareille projection à bien tout en contrôlant l’erreur commise, des outils d’inférence statistique sur la dimension sous-jacente q du processus aléatoire générant les données sont nécessaires. Cette thèse se propose d’étudier ce problème à travers le prisme de l’analyse en composantes principales en construisant plusieurs nouveaux outils d’inférence statistique permettant l’estimation de la dimension latente q. Plus précisément, nous proposons de nouveaux tests d’hypothèse permettant de vérifier la présence d’une information non-réductible à un bruit après projection des vecteurs aléatoires considérés sur un sous-espace de dimension p-q, ainsi que des procédures permettant de contrôler la part de la variabilité totale contenue dans ledit sous-espace. Le premier de nos objectifs est de proposer autant que faire se peut des procédures robustes à la présence de valeurs aberrantes et de distributions dites à queues lourdes, ce qui permet l’utilisation par le praticien desdites procédures lorsque l’hypothèse Gaussienne classique n’est pas supposée vérifiée. Le second objectif est de proposer une amélioration significative par rapport aux tests d’hypothèse existants en termes de capacité asymptotique à détecter correctement la dimension latente du processus aléatoire. En particulier, nous montrons que les procédures proposées jusqu’ici dans la littérature scientifique permettant de détecter la présence d’une information non-réductible à un bruit après projection sur un sous-espace de dimension p-q sont caractérisées par un angle mort occasionnant une performance relativement faible dans de nombreux cas de figure, lorsque ces procédures sont utilisées pour estimer la dimension latente d’un processus aléatoire. Nous proposons donc pour ce problème spécifique de nouvelles procédures asymptotiquement plus performantes dans les cas problématiques sans pour autant sacrifier aucune propriété asymptotique enviable des procédures existantes.