Résumé : La multidimensionnalité de l’espace de compétition politique peut être considérée sous un angle thématique, et nous présenterons les principaux éléments de la « salience theory », centrée sur le principe que tous les acteurs politiques ne se positionnent pas sur toutes les dimensions thématiques. Ces choix thématiques ont une dimension stratégique et la confrontation directe devient l’exception, les acteurs préférant mettre l’accent sur les thématiques sur lesquelles ils se sentent forts et évitent d’évoquer les thématiques sur lesquelles ils se sentent peu légitimes. Nous mettrons en avant trois assomptions principales faites dans la littérature sur la salience theory et que nous avons pour projet de remettre en question : la compétition politique se déroule principalement durant les campagnes électorales, l’appropriation thématique est stable dans le temps, le parti politique est le niveau d’analyse le plus pertinent. Cette dernière assomption est celle que nous discuterons le plus, en mettant en avant une discussion sur l’« individualisation » de la politique et ses conséquences sur l’appropriation thématique. Il nous est vite apparu que les données disponibles sur Internet, spécialement les données se situant dans les sites Internet personnels, présentaient des avantages certains. Le premier étant bien sûr l’accessibilité des données. Outre la facilité d’accès, nous montrerons dans le Chapitre 2 que les données provenant des sites Internet personnels présentent un triple avantage, car elles sont non médiatisées, complètes et représentatives. Nous montrerons donc dans le deuxième chapitre les intérêts que l’on peut avoir à utiliser des données numériques, telles que le contenu des sites Internet personnels des personnalités politiques, pour répondre à notre question de recherche. Malgré tous ces avantages, ce matériel empirique n’est pas un médium neutre, et nous montrerons qu’il est encore difficile pour les sciences sociales de se positionner par rapport aux impacts sociaux de ces nouveaux moyens de communication. Nous illustrerons ce problème notamment par une discussion sur la notion de « communauté virtuelle » en montrant que, depuis longtemps en sociologie, la notion de communauté a fait l’objet d’une réalité fantasmée de projet de vie sociale en dehors de la « société », et que ce fantasme s’est ravivé avec l’arrivée d’Internet. Cependant, malgré le développement récent d’Internet, nous conclurons ce deuxième chapitre en avançant que les concepts sociologiques antérieurs au développement d’Internet restent pertinents d’un point de vue d’intelligibilisation de ce phénomène. Les défis majeurs qui se posent aux sociologues lorsqu’ils sont confrontés à ces nouveaux supports de communication ne sont donc pas tant d’ordre théorique, que d’ordre méthodologique. Le premier problème auquel est confronté le chercheur analysant le contenu de sites Internet est d’opérer à une sélection qui n’est ni trop restreinte, car il manquerait de l’information ; ni trop large, car la recherche déborderait en dehors de la portée initiale du projet. Dans différentes recherches que nous avons menées, nous avons testé différentes possibilités de sélection de sites Internet qui se sont spécifiées et améliorées dans le temps (d’une première recherche sur les sites évoquant les inscriptions scolaires, dans laquelle nous avons vite compris l’intérêt des hyperliens), à des méthodes de sélections de blogs à caractère politique dans laquelle nous avons systématisé l’usage des hyperliens, à une méthode de sélection automatisée des sites Internet par structures locales cohésives. Nous avons élaboré un algorithme pour créer un robot d’indexation capable de naviguer dans un environnement d’hyperliens pour y détecter des groupes d’acteurs densément connectés, que nous appellerons des « communautés virtuelles ». Lorsque beaucoup d’études s’intéressant aux « blogs politiques » partent du contenu des sites Internet pour définir leur appartenance à une « blogosphère politique », nous montrerons plutôt tout l’intérêt de partir de la dimension relationnelle pour identifier des poches de sites Internet densément connectés. Qui plus est, nous montrerons qu’il est possible d’optimiser la détection de communautés virtuelles en incorporant des assomptions d’ordre sociologique dans les décisions prises par le robot d’indexation. Différents algorithmes, reposant sur différentes assomptions sur ce qui fait le lien social dans une communauté, seront présentés et comparés. Nous expliciterons l’algorithme final se fondant sur la clôture de relations triadiques locales, et montrerons qu’il nous permet d’identifier cinq communautés virtuelles dont les frontières sont relativement hermétiques et correspondent aux démarcations que l’on connaît entre partis politiques belges francophones. Nous montrerons que malgré le fait que toutes les communautés virtuelles aient été sélectionnées de la même manière, elles présentent des propriétés structurelles distinctes et ne sont pas organisées macrostructurellement de la même manière. En mesurant différentes propriétés structurelles de ces différentes communautés virtuelles, nous pourrons mettre en évidence tant les éléments qui les rassemblent que ceux qui les distinguent. En effet, chacune des communautés virtuelles a des caractéristiques structurelles qui lui sont propres. Mais nous avons surtout mis en évidence une propriété structurelle commune à l’ensemble des communautés virtuelles : leur rassemblement autour d’un petit nombre de sites « autoritaires » qui forment les coeurs de ces communautés autour desquels les autres acteurs gravitent. Les communautés virtuelles auront été définies comme des agrégations d’interactions triadiques, nous y rajouterons dans le quatrième chapitre autour d’un petit nombre de sites autoritaires. Nous clôturerons ce quatrième chapitre par une discussion plus globale, concernant ce chapitre et le précédent, sur ce que représente un hyperlien pour le chercheur, de même que l’usage stratégique et symbolique que les acteurs peuvent en faire. Nous montrerons particulièrement le lien entre notre projet et l’analyse de contenu dont l’objectif est de donner une description objective, systématique et quantitative du contenu d’un document, pour en extraire une signification. Nous expliciterons comment les documents de notre corpus ont été sélectionnés et effectuerons de premières analyses de comptage sur ces documents pour illustrer le passage de données non structurées à des données structurées, élément fondamental pour la compréhension de la modélisation textuelle présentée dans le chapitre suivant. Nous montrerons donc le progrès important qu’il est possible de réaliser par la possibilité de faire des statistiques descriptives à partir de données non structurées telles que les données textuelles. Cependant pour répondre à nos questions de recherche, il nous faudra dépasser les « simples » statistiques textuelles descriptives pour nous lancer dans des modélisations plus complexes orientées vers l’extraction de sens utile pour répondre à nos questions de recherche. Nous replacerons les éléments qui nous semblent principaux, tels que l’appropriation thématique, l’individualisation, les communautés politiques, l’importance des hyperliens et les interactions locales triadiques, pour expliciter nos choix de modélisation textuelle et dans quelles mesures ces choix nous permettent de répondre aux questions de recherche posées. Nous expliciterons en détail le modèle choisi (la « Latent Dirichlet Allocation »), pour que le lecteur comprenne bien toutes les assomptions qui sont faites sur la structure du corpus, la structure des documents, le choix des mots... et ainsi comprendre comment tous ces éléments sont modélisés pour classer thématiquement tous les documents de notre corpus. C’est bien sûr à ce niveau que la lecture du chapitre précédent est indispensable pour le lecteur n’étant pas familier avec la modélisation de données textuelles. Une fois des thématiques assignées aux documents, nous serons prêts à répondre à nos questions de recherche concernant l’appropriation thématique. Nous évaluerons cette appropriation thématique à plusieurs niveaux analytiques : au niveau individuel, au niveau méso relationnel et au niveau macro-communautaire. Nous montrerons principalement que les effets d’appropriation thématique au niveau macro-communautaire sont des artefacts dus à des agrégations d’effets personnels. La communauté politique, et transitivement le parti politique, ne semble pas être le niveau d’analyse le plus pertinent pour rendre compte de l’appropriation thématique dans la recherche que nous avons menée ici. Nous montrerons finalement que l’appropriation est principalement d’ordre individuel. Les « effets de pairs » ont aussi leur importance, confirmant par le biais de l’analyse textuelle que les hyperliens sont porteurs de sens et sont des indicateurs sociaux de première importance pour les chercheurs en sciences et politiques analysant les traces numériques laissées par les acteurs sur Internet.Cette dissertation doctorale est donc avant tout la présentation d’une démarche de recherche que nous avons affinée au fur et à mesure de notre expérience avec l’analyse des traces numériques laissées par les acteurs sur Internet. La richesse des sciences sociales réside avant tout dans la diversité de ses approches à ses objets d’études, et nous présenterons ici une démarche forte basée essentiellement sur les possibilités d’automatisation de l’extraction de l’information et de la modélisation analytique des comportements observés. Nous espérons avant tout convaincre le lecteur de cette dissertation doctorale que les traces numériques laissées par les acteurs sur Internet présentent une opportunité pour aborder certaines théories sous un angle nouveau, présentant une grande richesse tant dans ses potentialités que dans ses écueils. Elles présentent avant tout, aujourd’hui, une occasion pour le chercheur de mettre à profit son imagination et son esprit d’innovation qui sont les moteurs premiers de toute démarche scientifique