archivage de data warehouse - informatica.com · livre blanc archivage de data warehouse : un moyen...

18
LIVRE BLANC Archivage de data warehouse : Un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Upload: voliem

Post on 10-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

L I V R E B L A N C

Archivage de data warehouse : Un moyen d'optimiser les performances

des data warehouses et de réduire les coûts

Le présent document contient des données confidentielles et exclusives, ainsi que des informations constituant des secrets commerciaux (« Informations confidentielles ») d'Informatica Corporation. Il ne peut être copié, distribué, dupliqué ni reproduit, de quelque manière que ce soit, sans l'autorisation écrite préalable d'Informatica.

Même si tout a été mis en œuvre pour garantir que les informations contenues dans ce document sont exactes et exhaustives, il est possible qu'il contienne des erreurs typographiques ou des inexactitudes techniques. Informatica ne saurait être tenu responsable des pertes résultant de l'utilisation d'informations figurant dans ce document. Les informations contenues dans le présent document sont susceptibles d'être modifiées sans préavis.

L'intégration des attributs de produits étudiés dans ce document dans une quelconque version ou mise à jour d'un produit logiciel Informatica — ainsi que le calendrier de sortie de ces versions ou mises à jour — sont à la seule discrétion d'Informatica.

Protégé par les brevets américains suivants : 6,032,158 ; 5,794,246 ; 6,014,670 ; 6,339,775 ; 6,044,374 ; 6,208,990 ; 6,208,990 ; 6,850,947 et 6,895,471 ; ou par les brevets américains en instance suivants : 09/644,280 ; 10/966,046 ; 10/727,700.

Publication janvier 2010

Livre Blanc

1Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Table des matièresSynthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Raisons incitant à la gestion de la croissance des données dans les data warehouses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Solutions conventionnelles et leurs limites . . . . . . . . . . . . . . . . . . . . . . . . . 5

Mise à niveau du matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Réglage et partitionnement de base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Codage manuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Purge de données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Les avantages de l'archivage de data warehouse . . . . . . . . . . . . . . . . . . . . 6

Principales exigences liées à la solution d'archivage de data warehouse . . .8

Fonctionnalités d'évaluation de la croissance des données. . . . . . . . . . . . . . . . . . . . . . . 8

Découverte de métadonnées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Élargissement simple des métadonnées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Techniques d'archivage robustes pour des niveaux optimaux de stockage hiérarchisé . . . . 11

Multiples méthodes d'accès simple aux données archivées . . . . . . . . . . . . . . . . . . . . . 12

Connectivité universelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Intégration avec d'autres plates-formes de stockage, solutions de gestion de contenu d'entreprise et solutions de stockage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Informatica Data Archive : la solution d'archivage de data warehouse complète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

2

SynthèseLes data warehouses sont des systèmes stratégiques qui lient les données en provenance de différentes applications source, en agrégeant les données et en les livrant à des systèmes décisionnels analytiques déterminants pour les processus d'analyse financière et de prise de décision de nombreuses entreprises. Étant donné que les data warehouses intègrent des données issues de plusieurs systèmes et qu'il s'agit d'une application de type cumulative exigeant l'exploration détaillée des données, les data warehouses contiennent des volumes de données très importants, qui se mesurent en téraoctets. La taille des data warehouses va continuer de s'accroître prodigieusement.

L'augmentation des volumes des data warehouses est due à un certain nombre de facteurs, notamment :

besoin de synthétiser des données issues d'applications disparates afin d'obtenir une vue complète de •l'entité client ou de l'entreprise ;

complexité des bases de données, qui augmente au fur et à mesure de la capture des informations •supplémentaires relatives à chaque transaction ;

besoin d'intégrer des données plus souvent en temps réel ;•

extension des volumes de transactions due au développement naturel de l'entreprise ;•

besoin de conserver des données pendant des périodes plus longues, conformément aux règlementations •(ce qui contribue à faire augmenter les volumes et les coûts de gestion).

Pour répondre à ces problèmes de plus en plus complexes, les services informatiques ont besoin de solutions durables et économiques, permettant de gérer l'augmentation des données des data warehouses, ainsi que la dégradation des performances et les frais de maintenance associés à cette croissance. La réponse à ce problème est l'archivage de data warehouse .

Ce Livre Blanc étudie comment l'archivage de data warehouse peut aider votre service informatique à mieux gérer le volume croissant des données présentes dans vos data warehouses et à réduire les frais de stockage qui en découlent, et ce, par l'utilisation d'un stockage hiérarchisé. À l'issue de la lecture ce cette publication, vous connaîtrez mieux :

les raisons incitant à la gestion de la croissance des données dans les data warehouses ;•

les raisons pour lesquelles les méthodes traditionnelles de gestion de la croissance des données ne sont •pas suffisantes ;

les avantages de l'archivage de data warehouse ; •

les principales exigences liées à une solution d'archivage de data warehouse.•

Livre Blanc

3Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Raisons incitant à la gestion de la croissance des données dans les data warehousesComme le montre la figure 1, les volumes de données ne se contentent pas d'augmenter, ils explosent. Selon l'institut Forrester Research, le volume des données hébergées dans des applications métiers volumineuses, notamment les data warehouses, s'accroît de 65 % chaque année.¹ Cette croissance est due principalement à l'accumulation de données inactives. IDC estime que 85 % des données de production sont inactives.

Exaoctets

25,0

20,0

15,0

10,0

5,0

0,02005 2006 2007 2008 2009 2010 2011

Figure 1. Les repositories de données des systèmes métiers volumineux, notamment les data warehouses, s'accroissent de plus de 65 % chaque année.

1 Forrester Research, Securing Next-Generation Information Architectures, The Promise of Improved Security or the Risk of New Attack Vectors (Sécurisation des architectures informatiques de la prochaine génération, la promesse de

plus de sécurité, ou les risques liés aux nouveaux vecteurs d’attaque), 24 octobre 2008.

4

La croissance des volumes de data warehouse peut être attribuée à différents facteurs :

La croissance de l'entreprise• . Au fur et à mesure que votre entreprise se développe, des volumes de transactions s'ajoutent à vos applications. Lorsque votre société fusionne avec une autre, la rachète ou développe ses activités au niveau mondial, cela se traduit par davantage de données.

La demande de données en temps réel• . Aujourd'hui, les utilisateurs ne veulent pas de données anciennes ou obsolètes. Ils ont besoin d'informations actualisées et récentes, afin de pouvoir prendre de meilleures décisions stratégiques. Ainsi, les data warehouses sont mis à jour plus fréquemment, afin d'intégrer les dernières informations.

Une vue globale permettant la prise de décision• . Un nombre croissant d'informations issues de sources disparates sont intégrées dans les data warehouses afin de fournir une vue globale du client ou des autres entités métiers. Ainsi, les data warehouses deviennent des bases de données volumineuses, fournissant l'ensemble des informations nécessaires à des prises de décision rapides et adaptées.

Une conservation des données plus longue, à des fins de conformité• . Les entreprises conservent les données plus longtemps, pour des raisons de conformité réglementaire. Certaines réglementations imposent une durée de conservation des données de dix ans.

La taille croissante des données est à l'origine d'un certain nombre de problèmes de gestion de data warehouses :

Des coûts d'infrastructure et de maintenance croissants• . L'augmentation des données entraîne des coûts supplémentaires de matériel, logiciels et maintenance. Bien que les coûts de stockage continuent de baisser, les data warehouses de production sont en général hébergés sur des espaces de stockages haut de gamme, qui représentent une partie significative du budget informatique. Avec davantage de données à traiter, vous avez également besoin de davantage de CPU, ce qui fait augmenter les frais de licence. Lorsque davantage de temps et de travail sont consacrés à la réalisation de tâches administratives (sauvegardes et mises à niveau), les systèmes sont indisponibles plus longtemps et le temps consacré aux projets informatiques critiques ou stratégiques est réduit. Résultat : les frais en heures supplémentaires de l'équipe informatique ou même des coûts en équivalent temps plein augmentent.

Une disponibilité système réduite• . Au fur et à mesure que les volumes de données augmentent, le temps et les efforts que vos utilisateurs finaux et administrateurs de base de données consacrent à l'exécution de tâches essentielles sur les data warehouses de production augmentent également. Les chargements de data warehouses prennent davantage de temps. Les sauvegardes de base de données sont plus lentes et ne peuvent plus avoir lieu en une nuit. La mise à niveau des versions de bases de données ou l'application de correctifs logiciels deviennent plus complexes et ne peuvent plus s'effectuer pendant le week-end. Le maintien des accords de niveau de service (SLA) des applications tout en limitant les frais devient virtuellement impossible.

Les performances des data warehouses déclinent • au fur et à mesure de l'accumulation des données, comme l'indique la figure 2. L'exécution des rapports prend davantage de temps et le temps de réponse global des utilisateurs finaux est plus long.

Ces défis incitent les services informatiques à chercher des solutions plus efficaces pour gérer les volumes de données croissants dans leurs data warehouses.

Taill

e de

bas

e de

don

nées Performances

Délai

Données inactives

Données actives

Figure 2. Les performances des data warehouses baissent au fur et à mesure que le volume de données augmente.

Livre Blanc

5Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Solutions conventionnelles et leurs limitesSi votre service informatique ressemble aux autres, vous avez utilisé différentes méthodes pour gérer la croissance des données dans vos data warehouses. Par exemple :

Vous avez peut-être acheté de nouveaux matériels de traitement et de stockage de données. •

Vous avez peut-être réglé et partitionné la base de données. •

Vous avez peut-être développé des scripts en interne pour purger ou archiver les données. •

Cependant, ces approches conventionnelles ne permettent pas toujours d'offrir une solution durable aux défis posés par la gestion de data warehouses. Explorons les limites des solutions classiques.

Mise à niveau du matérielL'utilisation de davantage de matériel peut sembler être la réponse la plus simple, mais ce n'est pas une solution viable à long terme, même avec la tendance à la baisse des coûts liés aux disques et aux processeurs et la présence sur le marché de dispositifs de data warehouse puissants. Avec les volumes croissants de données, la bande passante réseau ou d'entrée/sortie finit par devenir un goulot d'étranglement. De plus, davantage de matériel contribue à accroître la complexité de l'architecture tout en offrant une amélioration limitée de l'évolutivité. Les dispositifs de data warehouse puissants peuvent également devenir onéreux : à mesure que le volume de données augmente, ils nécessitent davantage de puissance de traitement.

Réglage et partitionnement de base de donnéesLes administrateurs de data warehouse ont souvent recours au réglage et au partitionnement pour gérer l'augmentation des données présentes dans la base de données et améliorer les performances des applications. Néanmoins, les administrateurs de bases de données découvrent rapidement que le réglage est efficace à la première utilisation, mais que les réglages suivants sont moins performants et demandent davantage de temps.

Le partitionnement permet une certaine amélioration des performances des bases de données, mais ne diminue pas la capacité de stockage nécessaire. En outre, il est limité pour ce qui est de la réduction des coûts d'infrastructure généraux, notamment ceux qui concernent les licences de base de données, le serveur et le stockage.

Codage manuelLe développement et la gestion de codes et de scripts maison pour purger ou archiver les données des data warehouses coûtent cher, car ils nécessitent une excellente connaissance des entités métiers, des schémas de table, des relations et des règles métiers. Comme les contraintes et les relations entre objets de data warehouse ne sont pas toutes gérées dans le cadre des métadonnées de data warehouse, les scripts maison ont tendance à appliquer, pour l'archivage ou la purge, des règles métiers incohérentes à travers les multiples enregistrements, tables, entités et bases de données.

Purge de donnéesUne simple purge des données des data warehouses ne constitue pas une alternative sûre, pour des raisons de conformité. Bien qu'un pourcentage important des données présentes dans les data warehouses soient issues d'autres sources et puissent être reproduites via l'intégration de ces sources, de nombreux data warehouses contiennent d'autres données d'exploitation ou transactionnelles, qui ne sont stockées nulle part ailleurs. Les data warehouses ont aussi tendance à évoluer pour devenir des applications à part entière, devant être sauvegardées et archivées pour garantir leur disponibilité, leur reprise rapide et la découverte électronique à des fins d'audit de conformité.

6

Les avantages de l'archivage de data warehouseLe secret de la gestion du volume exponentiel des données dans les data warehouses repose sur deux axes : la valeur des données diminue au fil du temps et toutes les données ne sont pas d'égale importance.

Commençons par examiner l'axe temporel. Les utilisateurs de votre entreprise peuvent avoir besoin d'accéder à des informations détaillées sur le chiffre d'affaires de l'année précédente à des fins de reporting financier. Une fois l'année fiscale écoulée, les informations financières de l'année ou des trois années précédentes ne sont plus consultées aussi régulièrement. Ainsi, les données « historiques » sont en général inactives, et sont rarement utilisées à des fins de reporting agrégé et de conformité.

Le second axe à prendre en compte est que toutes les données ne revêtent pas la même importance. Dans les data warehouses, tandis que les informations historiques synthétisées sont nécessaires sur de plus longues périodes (par exemple, les informations sur le chiffre d'affaires annuel peuvent être nécessaires au reporting de performances pour les trois à sept années précédentes), les données transactionnelles ou les agrégats granulaires (par exemple, les données trimestrielles de chiffre d'affaires) sont rarement nécessaires au-delà d'une année.

Les services informatiques ont besoin de gérer de façon sûre, efficace, et économique différentes classifications de données de production dans les data warehouses en fonction de leur valeur pour l'entreprise tout au long du cycle de vie des données. Selon Gartner, une des meilleures pratiques pour gérer un data warehouse évolutif consiste à faire en sorte que l'architecture tienne compte du stockage et de l'accès, ainsi que des méthodes d'archivage et de retrait.2 Cette affirmation prouve la nécessite de gérer la croissance des données et le cycle de vie des données dans les data warehouses par l'archivage et le retrait de données.

L'archivage de data warehouse permet aux services informatiques de purger et de déplacer les données de valeur moindre ou auxquelles l'accès est moins fréquent des data warehouses de production vers des stockages de deuxième ou de troisième niveau, afin de réduire les coûts, d'améliorer la disponibilité et les performances du système, tout en répondant aux exigences en matière de conservation des données, d'accès et de sécurité. La figure 3 montre un exemple de stratégie de stockage hiérarchisé pour les data warehouses.

ARCHIVAGE

RESTAURATION

ARCHIVAGE

RESTAURATION

ERP/SCM

Bases de données

Fichiers plats

Application CRM

Applications de productionsur le 1er niveau de stockage

hiérarchisé (p. ex., SAN)

Data warehouse de productionsur le 1er ou le 2e niveau de stockage hiérarchisé (p. ex.,

SAN, NAS, App DW)

Data warehouseArchivage sur le 2e ou

le 3e niveau de stockage hiérarchisé (p. ex., SATA, NAS)

Archivage basé sur les �chiers compressé sur le 2e et le 3e

niveau de stockage hiérarchisé(p. ex., NAS, CAS, Cloud)

Archivage basé sur des �chiers compressés

Archivagedu DW

DW de PROD

Figure 3. Exemple de stratégie de stockage hiérarchisé pour les data warehouses .

2 Beyer, Mark A., Data Warehouse Architecture Best Practices and Guiding Principles (Meilleures pratiques et principes directeurs de l’architecture Data Warehouse), Gartner Research, 6 novembre 2009.

Livre Blanc

7Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

L'archivage de data warehouse permet aux services informatiques de :

gérer de façon économique la croissance des données • en déplaçant les données inactives vers des infrastructures moins onéreuses et en activant le stockage hiérarchisé ;

améliorer les performances de data warehouse • en supprimant les données inactives en vue de réduire la taille des données à traiter dans les data warehouses de production ;

supporter la conformité réglementaire • en conservant les données de façon plus rentable pendant un délai plus long.

SoLUTIon D'ARChIvAge De DATA wARehoUSe Que doit rechercher votre service informatique ?

Des fonctionnalités d'évaluation de la croissance des données• . La solution est-elle en mesure d'évaluer et de cibler les tables, les espaces de table et les schémas les plus volumineux, et ceux dont la croissance est la plus rapide ?

La découverte des métadonnées• . La solution permet-elle la découverte automatique des métadonnées relatives aux tables, colonnes et relations ?

Un élargissement simple des métadonnées• . La solution est-elle dotée d'interfaces graphiques simples permettant d'élargir et de personnaliser les métadonnées découvertes ?

Des techniques d'archivage robustes pour des niveaux optimaux de stockage •hiérarchisé. La solution fournit-elle plusieurs options de formats d'archivage et de destination ? Permet-elle l'archivage des tables à la croissance la plus rapide tout en préservant l'intégrité des données ? Permet-elle la restauration des données en vue de supporter différentes exigences de stockage et d'accès ?

Multiples options d'accès simple aux données archivées• . Avez-vous facilement accès aux données archivées, que ce soit à partir de l'interface de l'application ou d'une interface indépendante, en utilisant des protocoles standards ?

Une connectivité universelle• . La solution est-elle en mesure d'archiver des données à partir de n'importe quel système source ?

L'intégration avec d'autres plates-formes d'archivage, systèmes de gestion de •contenu d'entreprise (eCM) et solutions de stockage. La solution supporte-t-elle l'intégration avec d'autres plates-formes d'archivage, systèmes ECM et stockages des archives de fichiers afin de permettre la gestion centralisée du stockage et la découverte des données archivées ?

8

Principales exigences liées à la solution d'archivage de data warehouseSi votre service informatique envisage d'avoir recours à une solution d'archivage de data warehouse, voici les principales exigences à prendre en compte :

fonctionnalités d'évaluation de la croissance des données ;•

découverte des métadonnées ;•

élargissement simple des métadonnées ; •

techniques d'archivage robustes pour des niveaux optimaux de stockage hiérarchisé ; •

multiples méthodes d'accès simple aux données archivées ;•

connectivité universelle ;•

intégration avec d'autres plates-formes de stockage, solutions de gestion de contenu d'entreprise et solutions •de stockage.

Examinons ces facteurs de façon plus détaillée.

Fonctionnalités d'évaluation de la croissance des donnéesVotre service informatique doit dans un premier temps déterminer les tables et les espaces de table qui s'accroissent le plus rapidement. Une solution d'archivage de data warehouse doit vous permettre d'évaluer la croissance des données non pas une seule fois, mais de façon continue afin d'ajuster en permanence les stratégies d'archivage et d'optimiser le retour sur investissement de votre solution. Une fois que les tables de faits, de détails et les espaces de table s'accroissant le plus rapidement ont été identifiés, votre service informatique peut définir les stratégies d'archivage appropriées.

L'analyse approfondie de la croissance des données vous permet d'évaluer les taux de croissance actuels et futurs des données dans les tables, les espaces de table et les schémas présents dans vos data warehouses. La figure 4 montre un exemple d'analyse de la croissance des données qui aide le service informatique à identifier les tables et les espaces de table occupant le plus d'espace. Ce type d'analyse aide votre équipe à planifier de façon proactive l'augmentation des volumes de données en estimant la réduction de volume obtenue par l'archivage des données inactives (voir figure 5).

Livre Blanc

9Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Estimation Réel Estimation

-3 ans -2 ans -1 an Réel +1 an +2 ans +3 ans

Fichier de données (Go) - 5.886 10.589 16.062 28.121 40.447 53.877

Données - 411 739 1.121 1.963 2.823 3.761

Modules les plus volumineux*

Activité - 181,6 448,7 809,0 1.148,3 1.555,1 2.029,2

Sauvegarde - 60,0 71,4 82,7 95,2 108,9 124,0

Gestion de contrat - 6,4 14,8 27,9 346,8 665,6 984,6

Échantillons - 23,4 24,7 25,9 36,9 48,0 59,3

Segmentation - - - 4,2 54,5 104,9 155,2

Figure 4. Grâce à l'analyse de la croissance des données, votre service informatique élabore un inventaire des tables et des schémas de votre data warehouse qui s'accroissent le plus rapidement.

Figure 5. L'analyse de la croissance des données permet à votre service informatique de comprendre l'impact des stratégies d'archivage des données sur la croissance des données dans les data warehouses .

Les tables appartenant aux « modules d'activité, de sauvegarde et de gestion de contrat* » constituent 82 % de l'ensemble des données (920 sur 1 121 Go) :

10

Figure 6. Une interface graphique simple vous permet d'afficher, de modifier et d'étendre facilement les métadonnées découvertes à partir de votre data warehouse.

Découverte de métadonnéesChaque data warehouse possède son propre type de schéma, avec des relations et des contraintes variables entre les tables de dimensions et les tables de faits et parmi les tables agrégées, de faits et de dimensions. La solution d'archivage de data warehouse doit fournir un moyen automatique de rechercher dans la base de données les métadonnées relatives aux schémas et aux relations d'entités. La solution d'archivage doit prendre en compte les relations entre les enregistrements des tables et des schémas pour garantir que tous les enregistrements associés soient déplacés ensemble et que tous les liens soient maintenus. Ainsi, l'intégrité des données est préservée au moment de l'archivage et de la restauration des données. Sans moyen automatique pour découvrir ces métadonnées, vous devrez les définir manuellement, ce qui exigera un délai de configuration significatif avant le déploiement de la solution.

Élargissement simple des métadonnéesToutes les métadonnées ne peuvent pas être découvertes par des recherches dans la base de données. Une solution d'archivage de data warehouse doit fournir une interface graphique simple pour permettre aux utilisateurs d'étendre et de personnaliser les métadonnées découvertes. Les groupements de tables dans des entités métiers et les définitions de règles métiers spécifiant les critères d'éligibilité pour les enregistrements à archiver sont des métadonnées qui peuvent ne pas être découvertes ou induites de façon précise. Il se peut donc que des directives fournies par les utilisateurs soient requises.

Avec une interface graphique simple, comme illustré à la figure 6, vous pouvez facilement afficher, modifier et étendre les métadonnées de modèle d'entité et les règles métiers de votre data warehouse. En faisant des recherches dans la base de données et en utilisant une interface basée sur un assistant, vous pouvez rapidement découvrir des métadonnées dans le data warehouse et ajouter de nouveaux attributs afin d'enrichir les métadonnées structurelles.

Livre Blanc

11Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Techniques d'archivage robustes pour des niveaux optimaux de stockage hiérarchiséLes principales raisons incitant à l'adoption de l'archivage de data warehouse sont en général les suivantes : baisse des coûts d'infrastructure par la création d'un stockage hiérarchisé, réduction des coûts de maintenance et maintien des performances du data warehouse. Le simple déplacement des données inactives des data warehouses de production vers des serveurs et des stockages moins onéreux permet d'atteindre ces objectifs, mais les exigences de votre entreprise sont sans doute plus complexes. Pour sélectionner une solution d'archivage de data warehouse, vous devez prendre en compte les contraintes budgétaires et de performances de votre entreprise, ainsi que ses exigences d'accès.

Votre service informatique accèdera probablement aux données archivées moins fréquemment qu'aux données actives. Toutefois, vous devrez peut-être récupérer périodiquement une combinaison de données actives et archivées à partir de l'interface de l'application d'origine. Dans ce cas, les données doivent être archivées dans un format qui offre des performances de requête relativement élevées, par exemple une autre instance de data warehouse située sur une infrastructure meilleur marché.

Par ailleurs, si les données inactives sont anciennes et prêtes à être retirées, vous y accéderez rarement. Dans ce cas, un accès via un outil de reporting plutôt que via une interface d'application peut s'avérer adéquat. Des performances de requête moindres peuvent être tolérées, et les données peuvent être archivées dans un format compressé optimal, par exemple, un fichier compressé. L'archivage dans un format de fichier compressé peut permettre des économies substantielles sur la capacité de stockage. En fonction de la taille des données et du niveau de redondance des valeurs de données, vous serez en mesure d'atteindre un rapport de compression allant de 20:1 à 60:1 par rapport à la taille des données d'origine.

Selon l'ancienneté des données, le temps de réponse et la fréquence d'accès, les fichiers d'archives compressés peuvent être stockés dans un système de fichiers situé sur un support de stockage moins onéreux ou même sur le cloud, pour des économies d'échelle. Comme l'ancienneté des données et les spécifications d'accès changent au fil du temps, votre service informatique doit disposer d'un moyen de convertir et de transférer les données d'un format d'archivage et d'un emplacement vers un autre, en mettant en place un stockage hiérarchisé économique.

Une solution d'archivage de data warehouse doit également permettre d'archiver les données transactionnelles et détaillées uniquement, car ce sont celles qui s'accroissent le plus vite. Cela doit être fait tout en conservant l'intégrité des données et les liens vers les tables de dimensions et agrégées qui peuvent être stockées dans le système de production. Enfin, certains enregistrements de dimension plus anciens peuvent également être archivés. Pour une stratégie d'archivage optimale, la solution d'archivage de data warehouse doit savoir quels types de tables archiver. Dans le même temps, l'utilisateur doit être en mesure de définir une tâche d'archivage facilement, sans avoir recours à une configuration ou une programmation extensive. La figure 7 illustre une stratégie d'archivage de data warehouse où les données sont lentement déplacées vers une autre base de données, puis converties dans un format de fichier compressé mieux adapté, ce qui entraîne une réduction extrême de la capacité de stockage. La figure 8 montre une interface basée sur un assistant permettant aux utilisateurs de définir et de contrôler facilement les travaux d'archivage.

Data warehouse

de production

(moins de 2 ans)

Data warehouse

d'archivage

(2 à 7 ans)

Fichier d'archive

optimisé (compression à 40:1)

(plus de 7 ans)

DÉTAIL1

DÉTAIL2DÉTAIL 3

DÉTAIL 4

DÉTAIL 5

DÉTAIL 6

DÉTAIL 7

DIM1

AG1

DIM2

AG2

OLD_DIM3 OLD_DIM2

DIM3

AG2

Figure 7. Une solution d'archivage de data warehouse doit proposer plusieurs formats d'archivage (base de données ou fichier compressé) permettant une hiérarchisation optimale du stockage et la flexibilité nécessaire à l'archivage de différents types d'enregistrements tout en préservant l'intégrité des données.

12

Une solution d'archivage de data warehouse qui offre plusieurs formats d'archivage et options d'accessibilité permet aux services informatiques de faire les compromis appropriés entre taille des archives, performances, accessibilité des applications et coûts.

Votre service informatique doit également être en mesure de restaurer les données archivées à leur emplacement d'origine. Autrement, il n'y a aucun moyen de corriger les erreurs pendant l'archivage ou de faire face aux modifications des spécifications d'accès. Si les données archivées nécessitent par la suite d'être réactivées et, pour une raison ou une autre, doivent être modifiées ou annotées, elles doivent également être restaurées. Par exemple, une commande client fermée et rouverte peut devoir être restaurée car elle est de nouveau active. La solution d'archivage de data warehouse doit être en mesure de restaurer les données archivées à différents niveaux de granularité (enregistrements de détail sélectionnés, entités métiers ou totalité de l'archive, par exemple).

Multiples méthodes d'accès simple aux données archivéesQuel que soit le format d'archive, les données archivées doivent être facilement accessibles depuis l'interface de l'application d'origine ou via des interfaces standards à des fins de reporting. Des interfaces SQL/ODBC/JDBC standards doivent être disponibles pour le reporting à l'aide de n'importe quel outil de reporting ou de BI. Si l'accès aux données et leur retrait ne sont nécessaire qu'à des fins d'audit de conformité, l'option d'accès aux données depuis une interface de découverte électronique doit être disponible.

Connectivité universelleDans la plupart des entreprises, les data warehouses et les applications sont situés sur différents systèmes de bases de données et d'exploitation. Pour prendre en charge les besoins de votre entreprise, votre solution d'archivage doit permettre la gestion des processus d'archivage quels que soient les data warehouses et les applications sur différentes bases de données, notamment des bases de données relationnelles (par exemple, Oracle, DB2, Sybase, SQL Server, Teradata, Informix), des systèmes mainframe (par exemple, IDMS, VSAM, IMS), des fichiers et des modules d'applications CRM et ERP sur des systèmes ouverts (par exemple, Windows, Linux, UNIX) ou mainframe (par exemple, z/OS, AS/400).

Figure 8. Archivage d'entités métiers complètes à l'aide d'Informatica Data Archive.

Livre Blanc

13Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

Intégration avec d'autres plates-formes de stockage, solutions de gestion de contenu d'entreprise et solutions de stockageVotre entreprise dispose peut-être déjà d'une solution d'archivage des messages électroniques et des fichiers. Votre service informatique a peut-être également normalisé les processus en les alignant sur une solution ECM de gestion de contenu d'entreprise pour gérer vos données non structurées. Pour supporter la conformité aux exigences réglementaires et garantir l'immuabilité et le stockage d'une seule instance des données conservées, vous utilisez peut-être des plates-formes d'archivage, telles que le stockage adressable de contenu, qui nécessite une connectivité propriétaire.

Pour permettre à votre entreprise de répondre rapidement et de façon adéquate aux demandes d'audit et de conserver les données de façon économique sur des périodes plus longues, votre solution d'archivage doit vous permettre de gérer et de découvrir des données archivées de tous types, qu'elles soient structurées ou non, de façon centralisée. Vous pouvez procéder ainsi si votre solution d'archivage de data warehouse s'intègre à vos solutions d'archivage, de gestion de contenu et de stockage existantes afin de permettre la gestion centralisée et la découverte électronique de tous les types de données archivées.

Informatica Data Archive : la solution d'archivage de data warehouse complèteInformatica Data Archive™ aide votre service informatique à gérer de façon économique l'explosion des volumes de données dans les data warehouses. Elle lui permet d'archiver facilement les données inactives en toute sécurité, puis d'y accéder rapidement en cas de besoin. Informatica Data Archive offre la gamme complète de fonctionnalités dont votre service informatique a besoin pour gérer efficacement la croissance des données dans les data warehouses, notamment :

des fonctionnalités d'évaluation de la croissance des données ; •

la découverte complète de métadonnées ;•

l'élargissement simple des métadonnées ;•

des techniques d'archivage robustes garantissant l'intégrité des données après archivage et la prise en •charge de plusieurs formats d'archives pour permettre un stockage hiérarchisé optimal ;

de multiples méthodes d'accès simple aux données archivées ;•

une connectivité universelle ;•

l'intégration avec d'autres plates-formes d'archivage, ECM et solutions de stockage, telles que Symantec, •CommVault et EMC.

Informatica Data Archive met à profit la puissance de la plate-forme Informatica, la plate-forme d'intégration de données leader du marché, pour gérer les gros volumes de données typiques des très grandes entreprises. Le logiciel offre une évolutivité et des performances supérieures, en plaçant les données sur les options de stockage les plus rentables en fonction de leur valeur. Il offre également une interopérabilité sans égale. Le logiciel est basé sur une architecture ouverte, facilement extensible, permettant une intégration simple avec des solutions tierces.

14

ConclusionVos services informatiques ne peuvent plus ignorer les coûts croissants associés à la gestion de l'augmentation des volumes de données des data warehouses. Les méthodes traditionnelles de gestion de la croissance des données apportent une solution aux symptômes, et non aux causes du problème. Le meilleur moyen de maîtriser les risques et les coûts de gestion des données de votre service informatique est de déplacer les données dormantes vers une infrastructure moins coûteuse. Voici ce que les solutions d'archivage de data warehouse peuvent faire pour vous.

Informatica Data Archive offre la gamme complète de fonctionnalités dont votre service informatique a besoin pour gérer efficacement la croissance des données dans les data warehouses. Lorsque votre service informatique met en œuvre la solution d'archivage souple, évolutive et complète d'Informatica, les coûts de propriété totaux de vos data warehouses et des autres applications diminuent par :

la réduction des coûts de stockage, de serveur, de logiciels et de maintenance ;•

l'amélioration des performances des data warehouses ; •

l'augmentation de la disponibilité des data warehouses ;•

la mise en conformité avec les réglementations internes, sectorielles et gouvernementales.•

Ensemble, Informatica et votre service informatique peuvent mettre en adéquation la valeur métier des données avec l'infrastructure de gestion informatique la mieux appropriée et la plus rentable pour les gérer.

PoUR en SAvoIR PLUS

Si vous souhaitez en savoir plus sur Informatica Data Archive et la plate-forme Informatica, visitez le site www.informatica.com/fr ou appelez Informatica au +33 1 42 04 89 00.

À PRoPoS D'InFoRMATICA

Informatica Corporation (NASDAQ : INFA) est le leader mondial des fournisseurs indépendants de solutions d'intégration de données. La plate-forme Informatica offre aux entreprises une approche complète, unifiée, ouverte et économique pour réduire leurs coûts informatiques et renforcer leur avantage concurrentiel en exploitant au mieux leur capital d'informations. Plus de 4 000 entreprises dans le monde s'appuient sur Informatica pour accéder aux informations hébergées dans les systèmes traditionnels et les infrastructures de cloud computing, les intégrer et renforcer leur fiabilité.

Livre Blanc

15Archivage de data warehouse : un moyen d'optimiser les performances des data warehouses et de réduire les coûts

L I V R E B L A N C

Siège mondial, 100 Cardinal Way, Redwood City, CA 94063, États-UnisTéléphone : +1 650 385 5000 Télécopie : +1 650 385 5500 Appel gratuit depuis les États-Unis : +1 800 653 3871 www.informatica.com

© 2010 Informatica Corporation. Tous droits réservés. Imprimé aux États-Unis. Informatica, le logo Informatica et The Data Integration Company sont des marques commerciales ou déposées appartenant à Informatica Corporation aux États-Unis et dans d'autres pays. Tous les autres noms de sociétés et de produits sont la propriété de leurs détenteurs respectifs et peuvent avoir fait l'objet d'un dépôt de marque. Première publication : 2010

7082FR (01/06/2010)