Résumé : Cette thèse se place dans le cadre de l'étude in silico, c'est-à-dire assistée par ordinateur, des liens qui unissent la séquence d'une protéine à la (ou aux) structure(s) tri-dimensionnelle(s) qu'elle adopte. Le décryptage de ces liens présente de nombreuses applications dans divers domaines et constitue sans doute l'une des problématiques les plus fascinantes de la recherche en biologie moléculaire.

Le premier aspect de notre travail concerne le développement de potentiels statistiques dérivés de bases de données de protéines dont les structures sont connues. Ces potentiels présentent plusieurs avantages: ils peuvent être aisément adaptés à des représentations structurales simplifiées, et permettent de définir un nombre limité de fonctions énergétiques qui incarnent l'ensemble complexe d'interactions gouvernant la structure et la stabilité des protéines, et qui incluent également certaines contributions entropiques. Cependant, leur signification physique reste assez nébuleuse, car l'impact des diverses hypothèses nécessaires à leur dérivation est loin d'être clairement établi. Nous nous sommes attachés à l'étude de certaines limitations des ces potentiels: leur dépendance en la taille des protéines incluses dans la base de données, la non-additivité des termes de potentiels, et l'importance souvent négligée de l'environnement protéique spécifique ressenti par chaque résidu. Nous avons ainsi mis en évidence que l'influence de la taille des protéines de la base de données sur les potentiels de distance entre résidus est spécifique à chaque paire d'acides aminés, peut être relativement importante, et résulte essentiellement de la répartition inhomogène des résidus hydrophobes et hydrophiles entre le coeur et la surface des protéines. Ces résultats ont guidé la mise au point de fonctions correctives qui permettent de tenir compte de cette influence lors de la dérivation des potentiels. Par ailleurs, la définition d'une procédure générale de dérivation de potentiels et de termes de couplage a rendu possible la création d'une fonction énergétique qui tient compte simultanément de plusieurs descripteurs de séquence et de structure (la nature des résidus, leurs conformations, leurs accessibilités au solvant, ainsi que les distances qui les séparent dans l'espace et le long de la séquence). Cette fonction énergétique présente des performances nettement améliorées par rapport aux potentiels originaux, et par rapport à d'autres potentiels décrits dans la littérature.

Le deuxième aspect de notre travail concerne l'application de programmes basés sur des potentiels statistiques à l'étude de protéines qui adoptent des structures alternatives. La permutation de domaines est un phénomène qui affecte diverses protéines et qui implique la génération d'un oligomère suite à l'échange de fragments structuraux entre monomères identiques. Nos résultats suggèrent que la présence de "faiblesses structurales", c'est-à-dire de régions qui ne sont pas optimales vis-à-vis de la stabilité de la structure native ou qui présentent une préférence marquée pour une conformation non-native en absence d'interactions tertiaires, est intimement liée aux mécanismes de permutation. Nous avons également mis en évidence l'importance des interactions de type cation-{pi}, qui sont fréquemment observées dans certaines zones clés de la permutation. Finalement, nous avons sélectionné un ensemble de mutations susceptibles de modifier sensiblement la propension de diverses protéines à permuter. L'étude expérimentale de ces mutations devrait permettre de valider, ou de raffiner, les hypothèses que nous avons proposées quant au rôle joué par les faiblesses structurales et les interactions de type cation-{pi}. Nous avons également analysé une autre protéine soumise à d'importants réarrangements conformationnels: l'{alpha}1-antitrypsine. Dans le cas de cette protéine, les modifications structurales sont indispensables à l'exécution de l'activité biologique normale, mais peuvent sous certaines conditions mener à la formation de polymères insolubles et au développement de maladies. Afin de contribuer à une meilleure compréhension des mécanismes responsables de la polymérisation, nous avons cherché à concevoir rationnellement des protéines mutantes qui présentent une propension à polymériser contrôlée. Des tests expérimentaux ont été réalisés par le groupe australien du Professeur S.P. Bottomley, et ont permis de valider nos prédictions de manière assez remarquable.

The work presented in this thesis concerns the computational study of the relationships between the sequence of a protein and its three-dimensional structure(s). The unravelling of these relationships has many applications in different domains and is probably one of the most fascinating issues in molecular biology.

The first part of our work is devoted to the development of statistical potentials derived from databases of known protein structures. These potentials allow to define a limited number of energetic functions embodying the complex ensemble of interactions that rule protein folding and stability (including some entropic contributions), and can be easily adapted to simplified representations of protein structures. However, their physical meaning remains unclear since several hypotheses and approximations are necessary, whose impact is far from clearly understood. We studied some of the limitations of these potentials: their dependence on the size of the proteins included in the database, the non-additivity of the different potential terms, and the importance of the specific environment of each residue. Our results show that residue-based distance potentials are affected by the size of the database proteins, and that this effect can be quite strong, is residue-specific, and seems to result mostly from the inhomogeneous partition of hydrophobic and hydrophilic residues between the surface and the core of proteins. On the basis of these observations, we defined a set of corrective functions in order to take protein size into account while deriving the potentials. On the other hand, we developed a general procedure of derivation of potentials and coupling terms and consequently created an energetic function describing the correlations between several sequence and structure descriptors (the nature of each residue, the conformation of its main chain, its solvent accessibility, and the distances that separate it from other residues, in space and along the sequence). This energetic function presents a strongly improved predictive power, in comparison with the original potentials and with other potentials described in the literature.

The second part describes the application of different programs, based on statistical potentials, to the study of proteins that adopt alternative structures. Domain swapping involves the exchange of a structural element between identical proteins, and leads to the generation of an oligomeric unit. We showed that the presence of “structural weaknesses”, regions that are not optimal with respect to the folding mechanisms or to the stability of the native structure, seems to be intimately linked with the swapping mechanisms. In addition, cation-{pi} interactions were frequently detected in some key locations and might also play an important role. Finally, we designed a set of mutations that are likely to affect the swapping propensities of different proteins. The experimental study of these mutations should allow to validate, or refine, our hypotheses concerning the importance of structural weaknesses and cation-{pi} interactions. We also analysed another protein that undergoes large conformational changes: {alpha}1-antitrypsin. In this case, the structural modifications are necessary to the proper execution of the biological activity. However, under certain circumstances, they lead to the formation of insoluble polymers and the development of diseases. With the aim of reaching a better understanding of the mechanisms that are responsible for this polymerisation, we tried to design mutant proteins that display a controlled polymerisation propensity. An experimental study of these mutants was conducted by the group of Prof. S.P. Bottomley, and remarkably confirmed our predictions.