a network-aware distributed storage cache for data intensive environments
DESCRIPTION
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS. Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences Directorate – Lawrence Berkley National Laboratory University of California, Berkley, CA, 94720 - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/1.jpg)
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA
INTENSIVE ENVIRONMENTS
Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDINGComputing Sciences Directorate – Lawrence Berkley National Laboratory University of California, Berkley, CA, 94720
Proceedings of IEEE High Performance Distributed Computing conference ( HPDC-8 ), August 1999
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
![Page 2: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/2.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
PLAN
1- Introduction
2- Problématique
3- Cache de stockage distribué
4- Optimisation, adaptation « network-aware »
5- Résultats
6- Conclusion
![Page 3: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/3.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Introduction
Ce dont on dispose:
Ce que l’on voudrait:
- Une nouvelle générations d’applications scientifiques
- De plus en plus de données à traiter
- Un réseau de plus en plus performant
- Pouvoir stocker ces données pour en avoir un accès plus facile et plus rapides
- Distribuer ces données pour permettre un accès facile a tous les scientifique du monde
- Pour ce faire, utiliser le réseau au meilleur de ça capacité
![Page 4: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/4.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Problématique
Construire une architecture au dessus du réseau pour le stockage de donnée, un cache implémenté sur le réseau
Optimiser cette architecture en fonction des performances du réseau et de son état
![Page 5: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/5.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Cache de stockage distribué
Le modèle de manipulation de donnée utilisé:
![Page 6: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/6.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Cache de stockage distribué: «DPSS» Distributed Parallel Storage System
L’architecture DPSS (basé sur le modèle précédent):
![Page 7: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/7.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
DPSS: exemple…
![Page 8: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/8.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
DPSS: description
- Collection de serveur de disque (en parallèle et sur un réseau haut débit)
- Une interface application supportant des sémantique I/O
- DPSS autorise une reconfiguration dynamique: l’ajout et/ou le retrait de disque à la volée
- Un serveur DPSS est une station UNIX, avec 6 disques SCSI, et une interface réseau haut débit capable de fournir de 60 à 120 Mbits/sec
![Page 9: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/9.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware»
Monitoring system: JAMM (java agents monitoring and managment)
- Collecter les informations du réseau
- Publier ces informations dans une base LDAP
- Lancer JAMM sur tous les clients et les serveurs
![Page 10: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/10.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware» (2)
Optimisation du buffer TCP:
- DPSS utilise TCP
- La congestion dans un réseau utilisant TCP est dû à la taille de la fenêtre TCP
- La fenêtre TCP (émission) dépend du buffer TCP (en réception)
- La taille du buffer est fonction du produit délai bande passante (sur le réseau)
![Page 11: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/11.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware» (3)
Optimisation du buffer TCP:
- Il est difficile de déterminer les paramètres de TCP qui soit optimal pour chacune des connexions (client - serveur)
- La librairie cliente DPSS, mesure le produit délai bande passante vers tous les serveurs DPSS, et calcul la taille optimal du buffer TCP.
![Page 12: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/12.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware» (4)
Load balancing:
- Le DPSS peut effectuer un load balancing si les données sont répliquées sur plusieurs serveurs
- Le DPSS effectue la répartition des requêtes de données clientes suivant l’algorithme de flots de coût minimum
![Page 13: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/13.jpg)
Le DPSS utilise dans sa version précédente ma méthode « greedy master»
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware» (5)
Load balancing:
Le DPSS maître choisi le serveur avec la plus grande bande passante vers le client pour 75% des cas pour le reste il choisit les serveurs de manière aléatoire.
![Page 14: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/14.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Optimisation, adaptation « network-aware» (6)
Load balancing:
L’algorithme de flots à coût minimum consiste à attribué un coût basé sur la latence réseau par bloc de données et par lien.
L’algorithme est lancé à chaque fois qu’un client envoie une requête (l’algo prend environ 1ms) et choisi le serveur avec la plus petite latence donc le plus petit coût pour maximiser le rendement
![Page 15: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/15.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Résultats (1)
TCP buffer tuning
![Page 16: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/16.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Résultats (2)
Load Balancing
![Page 17: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/17.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Résultats (3)
Load Balancing: comparaison entre les 2 algo pour le load balancing sur 3 clients.
![Page 18: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/18.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Résultats (4)
Load Balancing:comparaison entre les 2 algo pour le load balancing sur 1 et 3 clients.
![Page 19: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/19.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Conclusions (1)
- le load balancing (avec l’algorithme de flots a coût minimum) et la réplication de données augmente les performances du système
- Le fait que le système prenne en compte l’état du réseau augmente aussi les performance du système
- La réplication permet une meilleure tolérance aux fautes
![Page 20: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/20.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Conclusions (2)
- dommage qu’aucun test n’est était fait pour définir le coût de la réplication
- Il n’y a pas de système de sécurité mis en place dans DPSS
- Aucune comparaison n’a été faite au niveau performance avec les autres systèmes de stockage distribué…
![Page 21: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/21.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Conclusions (3)
- L’article ne donne pas assez de détails sur le DPSS lui même (dommage par rapport au titre…)
- d’autres articles montrent des exemples d’utilisation de DPSS avec d’autre optimisation
Le projet DPSS n’est plus d’actualité…
![Page 22: A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS](https://reader035.vdocuments.site/reader035/viewer/2022062723/56814019550346895dab6749/html5/thumbnails/22.jpg)
Tahiry RAZAFINDRALAMBO – DEA DISIC - 2004
Merci…
Des questions?