Traitement de données issues d'un corpus écrit multilingue. Approche agile pour l'analyse du discours eurorégional

Hermand, Marie-Hélène; Thouraud, Emmanuel

Citer

Traitement de données issues d'un corpus écrit multilingue. Approche agile pour l'analyse du discours eurorégional

;Thouraud, Emmanuel
Référence Traitement de données issues d'un corpus écrit multilingue. Approche agile pour l'analyse du discours eurorégional(18-19 mai 2015: ENS Lyon), Actes du colloque ICODOC 2015 "Corpus complexes et enjeux méthodologiques : de la collecte de données à leur analyse", SHS Web of Conferences
Publication Publié, 2015

Publication dans des actes

Résumé :

L'article présente quelques éléments de la procédure mise en place pour traiter un corpus écrit comportant 617 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’« agile » en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d'analyse morphosyntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots- pivots, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L'analyse d'observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos.

Référencement	Visibilité	Pérennité	Facilité
Les publications encodées constituent la bibliographie académique de l'Université.	Les documents déposés sont indexés par les moteurs de recherche (Google Scholar,…).	Les documents déposés en open-access sont archivés au sein du réseau de préservation SAFE-PLN (www.safepln.org).	Les listes de publications sont compatibles avec le CV-ULB, le FNRS et accessibles sur le web.

Traitement de données issues d'un corpus écrit multilingue. Approche agile pour l'analyse du discours eurorégional

Documents en relation

DI-fusion