par Lukicheva, Svitlana 
Président du jury Hardy, Olivier J.
Promoteur Mardulyn, Patrick
Publication Non publié, 2021-09-10

Président du jury Hardy, Olivier J.

Promoteur Mardulyn, Patrick

Publication Non publié, 2021-09-10
Thèse de doctorat
Résumé : | The recent emergence of new DNA sequencing technologies has opened the door to whole genome sequencing (WGS) at low cost even for non-model organisms. A high number of new genomes from a number of species have been assembled during the last two decades; transcriptome sequencing allowed annotate genes in these newly assembled genomes; sequencing genomes of multiple individuals of the same species increased our ability to study genetic variation at the level of the entire genome. These achievements provide new research opportunities in many areas of biology and medicine. In particular, evolutionary biology could highly benefit from these advancements, which gave the potential to allow new breakthroughs, for example in our understanding of genome evolution, population/species adaptation or speciation.Speciation—the process by which groups of organisms diverge from each other—and hybridization—the process of interbreeding between individuals of different species—have been extensively studied for decades. Hybridization is believed to occur in many species, including insects. The remarkable species diversity displayed by herbivorous insects (likely more than one million species) is a testimony of their evolutionary success, making these organisms particularly appropriate to study the processes that generate biological diversity. Today, we have the possibility to explore the impact of hybridization at the level of the entire genome; this constitutes the main goal of the present work.This thesis investigates the extent of gene exchange occurring between two sister species, as a result of hybridization. While hybridization appears to occur in many species, we investigate whether it has important implications for species divergence at the level of the entire genome. In particular, the present study focuses on two sister species of cold-resistant leaf beetles, Gonioctena intermedia and G. quinquepunctata, to explore the extent of introgression—transfer of genetic information through hybridization—between them. These species diverged around one million years ago and display today parapatric distributions with a hybrid zone mainly located in the Alps. Several cases of asymmetric mitochondrial introgression have been previously detected between the species, in the direction from G. quinquepunctata to G. intermedia. However, introgression at the level of the nuclear genome had not been detected so far between the two species. This thesis closes this gap by analyzing genetic variation between individuals of the two species in their hybrid zone, at the level of the nuclear genome. This work can be divided in two parts: (1) assembly and annotation of the genome of G. quinquepunctata, and (2) study of introgression between the two species.The success of a whole-genome assembly project depends on several aspects, an important one is related to the characteristics of the genome to assemble. The genome of G. quinquepunctata combines many characteristics that can make the assembly process difficult. Thanks to the combination of two sequencing libraries—good quality short Illumina reads and low quality long Nanopore reads—and to the availability of powerful computing clusters, we were able to assemble the genome using an assembler that is well adapted to handling large genomes, as it requires relatively low amounts of memory and is fast. We also sequenced an RNA-Seq library, that allowed us to perform the annotation of the assembled genome and identify a high number of proteins (more than 40,000).The assembled genome was then used to infer introgression at the level of the nuclear genome between G. intermedia and G. quinquepunctata. We sequenced Illumina libraries for 10 G. intermedia individuals, 9 G. quinquepunctata individuals and one G. quinquepunctata hybrid.The resulting sequence reads were mapped to the reference genome to perform variant calling. We then used a machine-learning approach, requiring training with simulated data and combining a large number of summary statistics allowing to detect introgression in different scenarios. This approach allowed us to establish the presence of a low percentage of asymmetric nuclear introgression in the same direction as for the mitochondrial genome. This result constitutes an additional example of hybridization between two diverging sister species inside a secondary contact zone, leading to introgression in the nuclear genome, suggesting more permeable species boundaries than previously thought.In addition to this result, the assembled genome of G. quinquepunctata, as well as the resequencing of several individuals of both species in the hybrid zone, will be used for future phylogeographic studies (e.g., to evaluate the impact of climate variation that occurred at the end of the Pleistocene on the species range of these insects), to the study of the adaptation of insect populations to various environmental conditions (climate, diet) or to the identification of genes under positive selection. |
L'émergence récente de nouvelles technologies de séquençage de l'ADN a ouvert la porte au séquençage du génome entier (WGS) à faible coût, même pour les organismes non-modèles. Un grand nombre de nouveaux génomes de différentes espèces ont été assemblés au cours des deux dernières décennies ; le séquençage du transcriptome a permis d'annoter les gènes dans ces génomes nouvellement assemblés ; le séquençage des génomes de plusieurs individus d'une même espèce a augmenté notre capacité à étudier la variation génétique au niveau du génome entier. Ces avancées offrent de nouvelles possibilités pour la recherche dans de nombreux domaines de la biologie et de la médecine. En particulier, la biologie évolutive a pu fortement en bénéficier, par exemple pour notre compréhension de l'évolution du génome, de l'adaptation des populations/espèces ou de la spéciation. La spéciation—le processus par lequel des groupes d'organismes divergent les uns des autres—et l'hybridation—le processus de croisement entre des individus d'espèces différentes—ont été largement étudiées pendant des décennies. On pense que l'hybridation se produit chez de nombreuses espèces, y compris les insectes. La remarquable diversité d'espèces affichée par les insectes herbivores (probablement plus d'un million d'espèces) témoigne de leur succès évolutif, ce qui rend ces organismes particulièrement appropriés pour étudier les processus qui génèrent la diversité biologique. Aujourd'hui, nous avons la possibilité d'explorer l'impact de l'hybridation au niveau du génome entier ; ceci constitue l'objectif principal du présent travail. Cette thèse étudie l'ampleur des échanges de gènes entre deux espèces sœurs résultant de l'hybridation. Alors que l'hybridation semble se produire chez de nombreuses espèces, nous cherchons à savoir si elle a des implications importantes sur la divergence des espèces au niveau du génome entier. En particulier, la présente étude se concentre sur deux espèces sœurs de coléoptères résistants au froid, Gonioctena intermedia et G. quinquepunctata, afin d'explorer l'étendue de l'introgression—transfert d'information génétique par hybridation—entre elles. Ces espèces ont divergé il y a environ un million d'années et ont aujourd'hui des distributions parapatriques avec une zone hybride principalement située dans les Alpes. Plusieurs cas d'introgression asymétrique du génome mitochnodrial ont été précédemment détectés de G. quinquepunctata vers G. intermedia. Cependant, l'introgression au niveau du génome nucléaire n'avait pas été détectée jusqu'à présent entre les deux espèces. Cette thèse comble cette lacune en analysant la variation génétique entre les individus des deux espèces dans leur zone hybride, au niveau du génome nucléaire. Ce travail peut être divisé en deux parties : (1) assemblage et annotation du génome de G. quinquepunctata, et (2) étude de l'introgression entre les deux espèces. Le succès d'un projet portant sur l'assemblage d'un génome entier dépend de plusieurs facteurs, et l'un des plus importants concerne les caractéristiques du génome à assembler. Le génome de G. quinquepunctata combine de nombreuses caractéristiques qui peuvent rendre le processus d'assemblage difficile. Grâce à la combinaison de deux librairies de séquençage—des lectures courtes Illumina de bonne qualité et des lectures longues Nanopore de mauvaise qualité—et à la disponibilité de puissants clusters de calcul, nous avons pu assembler le génome à l'aide d'un assembleur bien adapté à la gestion de grands génomes, car il requiert des quantités relativement faibles de mémoire et est rapide. Nous avons également séquencé une librairie ARN-Seq, qui nous a permis d'effectuer l'annotation du génome assemblé et d'identifier un grand nombre de protéines (plus de 40 000). Le génome assemblé a ensuite été utilisé pour inférer l'introgression au niveau du génome nucléaire entre G. intermedia et G. quinquepunctata. Nous avons séquencé des librairies Illumina pour 10 individus G. intermedia, 9 individus G. quinquepunctata et un individu G. quinquepunctata hybride. Ces séquences ont été alignées avec le génome de référence afin d'identifier les variants. Nous avons ensuite utilisé une approche d'apprentissage automatique, nécessitant un entraînement avec des données simulées et combinant un grand nombre de statistiques descriptives permettant de détecter l'introgression dans différents scénarios. Cette approche nous a permis d'établir la présence d'un faible pourcentage d'introgression nucléaire asymétrique dans la même direction que pour le génome mitochondrial. Ce résultat constitue un exemple supplémentaire d'hybridation entre deux espèces sœurs divergentes à l'intérieur d'une zone de contact secondaire, conduisant à une introgression dans le génome nucléaire, suggérant que les frontières d'espèces sont plus perméables qu'on ne le pensait auparavant. En plus de ce résultat, le génome assemblé de G. quinquepunctata, ainsi que le séquençage du génome entier de plusieurs individus des deux espèces dans la zone hybride, seront utilisés pour de futures études phylogéographiques (par exemple, pour évaluer l'impact des variations climatiques survenues à la fin du Pléistocène sur l'aire de répartition de ces insectes), pour l'étude de l'adaptation des populations d'insectes à diverses conditions environnementales (climat, régime alimentaire) ou pour l'identification de gènes sous sélection positive. |