Résumé : Parmi les paramètres influençant l'inférence d'arbres phylogénétiques, nous nous sommes penchés d'une part sur (i) l'utilisation et l'efficacité de différents marqueurs et (ii) l'influence de la radiation évolutive (la succession rapide d'événements de spéciation) dans la construction d'arbres phylogénétiques et, d'autre part, sur l'applicabilité du modèle de substitution nucléotidique GTR (General Time Reversible).

La première partie de ce travail étudie l'évolution des cétacés en se basant sur les séquences des génomes mitochondriaux, sur le motif d'insertion de rétroposons SINEs (short interspersed elements) nouvellement isolés et les loci nucléaires de ces derniers. Le choix des cétacés est motivé par la présence, durant leur évolution, de radiations évolutives, qui sont propices au tri différentiel de lignées généalogiques: si des séquences de gènes ou des allèles restent polymorphes entre des événements de spéciations, il est possible, et même probable, d'observer une incompatibilité entre les histoires évolutives de ces marqueurs, malgré que celles-ci soient bien correctes. Nous abordons l'étude du tri différentiel des lignées généalogiques par le biais des SINEs, dont l'insertion aléatoire et irréversible confère à ces marqueurs un risque de convergence particulièrement faible.

Notre approche multi-marqueur nous permet de reconstruire un arbre robuste à partir duquel nous analysons ces différents marqueurs à l'aide des rapports signal/bruit (la qualité du contenu informatif du marqueur) et effort/signal (les efforts à mettre en oeuvre pour obtenir du signal phylogénétique). Nous discutons également les relations conflictuelles/incorrectes obtenues à partir des différents marqueurs, notamment des motifs d'insertion de SINEs pour lesquels nous décrivons un test objectif nous permettant de différencier le tri différentiel de lignées généalogiques et la convergence.

Les modèles de substitutions nucléotidiques sont à la base de nombreuses méthodes d'inférence phylogénétiques. Parmi ces modèles, le modèle GTR est un des plus complets et des plus utilisés. Waddell and Steel [1997] ont décrit une procédure qui permet d'estimer les distances et les taux instantanés de substitution pour des séquences évoluant selon les hypothèses du modèle GTR. Il existe néanmoins des conditions qui rendent cette procédure, et donc l'utilisation du modèle GTR, inapplicables.

Nous avons simulé l'évolution de séquences d'ADN le long de 12 arbres caractérisés par un ensemble de conditions biologiquement plausibles (différentes longueurs de branches, des conditions de (non-)homogénéité de la matrice de taux instantanés de substitution et différentes longueurs de séquences). Pour chaque ensemble de conditions, nous avons évalué (i) l'applicabilité du modèle GTR et (ii) la qualité des alignements obtenus à partir des données simulées.

Nos résultats indiquent que l'inapplicabilité de la procédure de Waddell and Steel [1997] peut effectivement être considérée comme un problème pratique car elle apparaît avant les difficultés d'alignement (étape nécessaire et préalable à toute inférence phylogénétique). La probabilité de cette inapplicabilité dépend du taux de substitution et de la taille des données.