Résumé : Diabetes is a chronic disease characterized by dysregulation of blood glucose homeostasis. Pancreatic islets play an essential role in most types of diabetes. The etiology of diabetes is complex and multifactorial, with a role for multiple environmental and genetic factors. Among the environmental factors, there is a growing body of evidence that lipoglucotoxicity, i.e., the deleterious effects of free fatty acids and glucose, contributes to β-cell failure which in turn may lead to type 2 diabetes.To improve our understanding of lipoglucotoxicity, I generated the transcriptomic signatures of human islets in type 2 diabetes and under lipoglucotoxic conditions, identifying implicated genes and associated pathways. I compared signatures to determine transient and permanent changes induced by lipoglucotoxicity and examined their potential relevance for type 2 diabetes. For this comparison, I implemented and improved the rank-rank hypergeometric overlap (RRHO) method that compares two ranked lists, e.g., two transcriptome gene lists.More than 700 variants contribute to type 2 diabetes risk, but the underlying molecular mechanisms remain to be clarified. To fill this gap, we consolidated sequencing datasets (genomes, transcriptomes, methylomes, …) for more than 500 human islet preparations into a new database, called TIGER (for Translational human pancreatic Islet Genotype tissue-Expression Resource), the largest of its kind. I used this dataset to examine the role of type 2 diabetes variants on gene expression using an expression quantitative trait locus (eQTL) approach. I detected more than 1.1 million variants associated with gene expression changes. Next, I colocalized those variants with large type 2 diabetes genome-wide association studies (GWAS) to identify causal variants associated to diabetes and gene expression. This led to 53 colocalizations, 32 of which were new.In the course of my work, I identified multiple shortcomings and inaccuracies in bioinformatic tools. The RRHO method that I used in the lipoglucotoxicity study missed many genes as the algorithm trades performance for accuracy. Worse, the algorithm is unable to handle very large analyses, e.g., non-coding RNA, transcript-level and splicing analyses. I hence developed a new RRHO method called RedRibbon to overcome these limitations. I tested the method on artificial and large real datasets (transcript-level analysis of the lipoglucotoxicity data) and found major improvements in accuracy. I also identified multiple shortcomings in the colocalization methods used in TIGER, leaving many legitimate colocalizations undetected. I developed a novel variant prefiltering method based on RRHO called colocRedRibbon. This new pipeline nearly doubled the number of colocalizations for type 2 diabetes. I also applied it on type 1 diabetes GWAS variants, representing the biggest colocalization study for type 1 diabetes to date.Altogether, this work has contributed to a better understanding of the role of lipoglucotoxicity and genetic variants on gene expression in human islets in diabetes. The work on the genetics of the disease provides insight on the molecular effects of type 2 diabetes risk factors, identifying pathogenic mechanisms and therapeutic targets, setting the stage for genetic background-based treatment of diabetes. Future research should focus on further understanding the role of genetic variants and their interaction with the environment, aiming to clarify the effect of each GWAS variant and the tissues in which the pathogenic effects take place.
Le diabète est une maladie chronique caractérisée par un dérèglement de l'homéostasie du glucose sanguin. Les îlots pancréatiques jouent un rôle essentiel dans la plupart des types de diabète. L'étiologie du diabète est complexe et multifactorielle, impliquant de multiples facteurs environnementaux et génétiques.Parmi ces facteurs environnementaux, il existe de plus en plus de preuves que la lipoglucotoxicité, c'est-à-dire les effets délétères des acides gras libres et du glucose, contribue à la défaillance des cellules β. Celle-ci pouvant, à son tour, conduire au diabète de type 2 (DT2). Afin d’améliorer notre compréhension sur la lipoglucotoxicité, j'ai extrait les signatures transcriptomiques associées au diabète de type 2 et à des conditions lipoglucotoxiques sur des îlots de Langerhans humains pour identifier les gènes impliqués ainsi que les voies métaboliques associées. J'ai ensuite comparé ces signatures pour déterminer les changements - transitoires et permanents – induits par la lipoglucotoxicité, et examiné leur pertinence pour le DT2. Pour cette comparaison, j'ai mis en œuvre et amélioré la méthode RRHO (rank-rank hypergeometric overlap) qui compare deux listes ordonnées, par exemple deux listes transcriptomiques de gènes.Plus de 700 variants contribuent au risque de DT2, mais les mécanismes moléculaires sous-jacents restent à clarifier. Pour combler cette lacune, nous avons consolidé des données de séquençage (génomes, transcriptomes, méthylomes, ...) de plus de 500 préparations d'îlots de Langerhans humains dans une nouvelle base de données, nommée TIGER (pour Translational human pancreatic Islet Genotype tissue-Expression Resource), la plus grande de ce type. J’ai utilisé ce jeu de données pour examiner le rôle des variants du DT2 sur l'expression des gènes en utilisant une approche fondée sur les loci de caractères quantitatifs d'expression (eQTL). J’ai détecté plus de 1,1 million de variants associés à des changements d'expression de gènes. Enfin, j'ai colocalisé ces variants à de grandes études d'association pangénomique (GWAS) sur le DT2 afin d'identifier les variants associés à la fois au diabète et à l'expression génique. Cela a conduit à l’identification de 53 colocalisations, dont 32 nouvelles.Au cours de mon travail, j'ai identifié de multiples lacunes et imprécisions dans certains outils bioinformatiques : la méthode RRHO utilisée dans l'étude de lipoglucotoxicité ne détecte pas de nombreux gènes, l'algorithme troquant performance contre précision. De plus, l'algorithme est incapable de gérer des analyses de très grande envergure, par exemple des analyses d'ARNnc, sur les transcrits et d’épissage alternatif. Afin de surmonter ces limitations, j’ai développé une nouvelle méthode RRHO nommée « RedRibbon ». J’ai testé la méthode sur des ensembles de données artificielles et réelles de grande taille (analyse de la lipoglucotoxicité sur les transcrits) et j’ai constaté des améliorations majeures de la précision. J’ai également identifié de nombreuses lacunes dans la méthode de colocalisation utilisée dans TIGER, laissant de nombreuses colocalisations légitimes non détectées. J’ai développé une nouvelle méthode de préfiltrage des variants basée sur la RRHO, appelée colocRedRibbon. Avec ce nouveau pipeline, j’ai presque doublé le nombre de colocalisations pour le DT2 ; je l’ai également appliqué au diabète de type 1 (DT1), la plus grande étude de colocalisation pour le DT1 à ce jour.Ces travaux ont contribué à une meilleure compréhension du rôle, dans le diabète, de la lipoglucotoxicité et des variants sur l'expression des gènes dans les îlots de Langerhans humains. Ces travaux sur la génétique de la maladie permettent de mieux comprendre les effets moléculaires des facteurs de risque du DT2, d'identifier les mécanismes pathogéniques et les cibles thérapeutiques, ouvrant ainsi la voie à un traitement du diabète fondé sur le bagage génétique. Les recherches futures devraient se concentrer sur une meilleure compréhension du rôle des variants et de leurs interactions avec l'environnement, afin de clarifier l'effet de chaque variant GWAS et les tissus dans lesquels les effets pathogènes se produisent.