Thèse de doctorat
Résumé : L’altération des marques épigénétiques est de plus en plus reconnue comme une caractéristique fondamentale des cancers. Dans cette thèse, nous avons utilisé des profils de méthylation de l’ADN en vue d’améliorer la classification des patients atteints du cancer du sein grâce à une approche basée sur l’apprentissage automatique. L’objectif à long terme est le développement d’outils cliniques de médecine personnalisée. Les données de méthylation de l’ADN furent acquises à l’aide d’une puce à ADN dédiée à la méthylation, appelée Infinium. Cette technologie est récente comparée, par exemple, aux puces d’expression génique et son prétraitement n’est pas encore standardisé. La première partie de cette thèse fut donc consacrée à l’évaluation des méthodes de normalisation par comparaison des données normalisées avec d’autres technologies (pyroséquençage et RRBS) pour les deux technologies Infinium les plus récentes (450k et 850k). Nous avons également évalué la couverture de régions biologiquement relevantes (promoteurs et amplificateurs) par les deux technologies. Ensuite, nous avons utilisé les données Infinium (correctement prétraitées) pour développer un score, appelé MeTIL score, qui présente une valeur pronostique et prédictive dans les cancers du sein. Nous avons profité de la capacité de la méthylation de l’ADN à refléter la composition cellulaire pour extraire une signature de méthylation (c’est-à-dire un ensemble de positions de l’ADN où la méthylation varie) qui reflète la présence de lymphocytes dans l’échantillon tumoral. Après une sélection de sites présentant une méthylation spécifique aux lymphocytes, nous avons développé une approche basée sur l’apprentissage automatique pour obtenir une signature d’une tailleoptimale réduite à cinq sites permettant potentiellement une utilisation en clinique. Après conversion de cette signature en un score, nous avons montré sa spécificité pour les lymphocytes à l’aide de données externes et de simulations informatiques. Puis, nous avons montré la capacité du MeTIL score à prédire la réponse à la chimiothérapie ainsi que son pouvoir pronostique dans des cohortes indépendantes de cancer du sein et, même, dans d’autres cancers.
Epigenetic alterations are increasingly recognised as an hallmark of cancers. In this thesis, we used a machine-learning-based approach to improve breast cancer patients’ classification using DNA methylation profiling with the long term aim to make treatment more personalised. The DNA methylation data were acquired using a high density DNA methylation array called Infinium. This technology is recent compared to expression arrays and its preprocessing is not yet standardised. So, the first part of this thesis was to evaluate the normalisation methods by comparing normalised data against other technologies (pyrosequencing and RRBS) for the two most recent Infinium arrays (450k and 850k).We also went deeper into the evaluation of these arrays by assessing their coverage of biologically relevant regions like promoters and enhancers. Then, we used accurately preprocessed Infinium data to develop a score, called MeTIL score, which shows prognostic and predictive value in breast cancers. We took advantage that DNA methylation can mirror the cell composition to extract a DNA methylation signature (i.e. a set of DNA methylation sites) that reflects presence of lymphocytes within the tumour. After an initial selection of lymphocyte-specific sites we developed a machine-learning-based framework which reduced the predictive set to an optimal size of five methylation sites making it potentially suitable to use in clinics. After conversion of this signature to a score, we showed its specificity to lymphocytes using external datasets and simulations. Then, we showed its ability predict response to chemotherapy and, finally, its prognostic value in independent breast cancer cohorts and even in other cancers.