Thèse de doctorat
Résumé : Decision-makers in an organization rely on historical data to make future decisions. A data warehouse (DW) is a permanent, subject-oriented, and extit{historical} collection of data that is fed by multiple and independent data sources (DSs).Data sources change their extit{content} and extit{schema} independently from an integrating DW. Their content evolve due to the recording of daily operations, whereas their schema evolve from the adoption of new technologies, changes in the modeled reality, or changes in the business requirements. As a result of changes in DSs, the DW may become obsolete and thus need to be redesigned.In practice, the content changes in DSs are propagated to a DW by periodically loading new data into it, which may overwrite the existing DW content. However, For analysis purposes, it may be necessary to keep the history of a DW content. A temporal data warehouse (TDW) can maintain a history of its content changes; however, it is not meant to handle schema changes.A multiversion data warehouse (MVDW) can handle changes in its content and schema; still, its implementation is complex, and querying data from multiple versions is challenging. This thesis aims to tackle the challenge of DW evolution by combining the features and advantages of temporal and multiversion data warehouses as one solution.The presented approach separates the concerns and uses TDWs to handle content evolution and MVDWs for schema evolution. To this end, a multidimensional model is presented for data storage, and the semantics of OLAP operations are defined for data analysis.After that, the model is augmented with temporal features to manage content evolution. Moreover, the temporal equivalent of OLAP operations is given to analyze the evolving content. Then, the model is extended to allow multiple versions of a DW and query data from it.Finally, the temporal and multiversion features are combined in a holistic model. This way, both features can be used independently to manage content and schema evolution.
La grande majorité des décisions importantes d’une organisation tend à s’appuyer, plus ou moins directement, sur des informations historiques. Un entrepôt de données (ED) recueille des données en continu, orientée sujet et historique, alimentée par des sources (SD) multiples et indépendantes.Les sources de données modifient leur contenu et schéma indépendamment d'un ED intégrateur. Le premier évolue en raison de l'enregistrement des opérations quotidiennes, tandis que le second évolue en raison de l'adoption de nouvelles technologies, de changements dans la réalité modélisée ou de modifications des exigences métier. En raison des changements dans les SD, le ED peut devenir obsolète et doit donc être repensé.Dans la pratique, les changements de contenu dans les SD sont propagés dans un ED en y chargeant périodiquement de nouvelles données, qui peuvent écraser le contenu existant. Cependant, à des fins d'analyse, il peut être nécessaire de conserver l'historique du contenu d'un ED. Un entrepôt de données temporel (EDT) peut conserver l'historique des modifications de son contenu, mais il n'est pas conçu pour gérer les modifications de schéma. Un entrepôt de données multiversion (EDMV) peut gérer les changements de contenu et de schéma, mais sa mise en œuvre est complexe et l'interrogation de données provenant de versions multiples est difficile. Cette thèse vise à relever le défi de l'évolution des entrepôts de données en combinant les caractéristiques et les avantages des EDs temporels (EDT) et multiversions (EDMV) en une solution unique. L'approche présentée identifie les enjeux et utilisations, d’une part, des EDTs pour gérer l'évolution des contenus et, d’autre part, des EDTMV pour celles des schémas. À cette fin, un modèle multidimensionnel est présenté pour le stockage des données, et la sémantique des opérations OLAP est définie pour l'analyse des données. Ce modèle est augmenté de caractéristiques temporelles pour gérer l'évolution du contenu. Ensuite, l'équivalent temporel des opérations OLAP est donné pour analyser le contenu évolutif. De plus, le modèle est étendu pour permettre de multiples versions d'un ED et d'interroger les données à partir de celui-ci. Pour finir, les fonctionnalités temporelles et multiversions sont combinées dans un modèle holistique. De cette façon, l’approche présentée dans cette thèse permet d’utiliser les deux fonctionnalités indépendamment afin de gérer l'évolution tant du contenu que des schémas.