les données massives à calcul québec - accueil · mission colloque données massives 2015 - crdm...
TRANSCRIPT
Colloque données massives 2015 - CRDM
Les données massives à Calcul Québec
Marc Parizeau, professeur et directeur scientifique de Calcul Québec
Plan
• Calcul Québec / Calcul Canada • Les outils et les services disponibles • Un outil en particulier : Spark
2Colloque données massives 2015 - CRDM
Calcul Québec
3Colloque données massives 2015 - CRDM
Mission
4Colloque données massives 2015 - CRDM
Procurer au milieu de la R&D des infrastructures matérielles et logicielles en Calcul Informatique de Pointe (CIP) ainsi que des services d’expert-conseil, afin de contribuer à l’avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié en CIP, capable d’exploiter efficacement le parallélisme des systèmes informatiques modernes.
Quelques chiffres…
• Quatre sites principaux ✓ Laval ✓ McGill / ETS ✓ UdeM ✓ Sherbrooke
• Au total: ✓ un personnel d’une quarantaine d’employés ✓ environ 1200 utilisateurs dans 400 groupes de recherche ✓ 80,000 cœurs de calcul ✓ 300 accélérateurs ✓ 200 To de mémoire vive ✓ 8000 To de stockage sur disque
5Colloque données massives 2015 - CRDM
Statistiques
6Colloque données massives 2015 - CRDM
Nous rejoindre
• Site web ✓ http://www.calculquebec.ca ✓ http://wiki.calculquebec.ca ✓ http://www.calculquebec.ca/fr/acces-aux-ressources
• Support technique ✓ [email protected]
• Informations générales ✓ [email protected]
• Pour un serveur spécifique ✓ <serveur>@calculquebec.ca
7Colloque données massives 2015 - CRDM
Calcul Canada
8Colloque données massives 2015 - CRDM
Université membre
Université membre avec personnel
Université membre avec personnel et infrastructures
Infrastructures à l’UL
• Colosse ✓ Grappe de 960 noeuds ✓ 2 x Intel X5560 2.8GHz (8 coeurs) ✓ Mémoire : DDR3 à 1333 MHz.
- 936 noeuds: 24 GB (3 GB / coeur) - 24 noeuds: 48 GB (6 GB / coeur)
✓ Réseau: Infiniband QDR (40Gbps) ✓ Stockage: 2 x 500 TB (1PB total) ✓ 17 GB/s (scratch), 12 GB/s (home)
• Hélios ✓ Grappe de 168 GPGPU ✓ 15 noeuds, 20 coeurs à 2,5 GHz, 128 Go
RAM et 8 GPU NVIDIA K20 par noeud ✓ 6 noeuds, 24 coeurs à 2,7 GHz, 256 GB
RAM et 8 GPU NVIDIA K80 par noeud
9Colloque données massives 2015 - CRDM
Services disponibles
• Administration et opération de grappes de calcul ✓ Déploiement de systèmes de calcul et de stockage parallèle ✓ Conception et mise en service de solutions de calcul sur-
mesure
• Exploitation de grappes de calcul ✓ Développement d'algorithmes parallèles (MPI, OpenMP, CUDA,
Hadoop, Spark, etc.) ✓ Configuration / utilisation de logiciels HPC (Ansys, OpenFoam,
etc.) ✓ Adaptation et optimisation de workflows distribués ✓ Virtualisation
• Formation10Colloque données massives 2015 - CRDM
Les formations
• De base ✓ Software Carpentry
Ligne de commande UnixGestion de codeprogrammation (R / Python)Premiers pas sur les serveurs de calcul
✓ Programmation Python ✓ Programmation R ✓ MDCS : Matlab Distributed Computer Server ✓ Visualisation avec Paraview
• Analyse de données ✓ Hadoop / MapReduce ✓ Spark
11Colloque données massives 2015 - CRDM
• Accélérateurs et GPU ✓ programmation Cuda ✓ Programmation Cuda avancée ✓ Bibliothèques GPU ✓ programmation de Xeon Phi
• Calcul parallèle de haute performance ✓ Introduction à OpenMP ✓ Programmation OpenMP avancée ✓ Introduction à MPI ✓ Programmation MPI avancée et programmation hybride ✓ Profilage et optimisation avec Open / SpeedShop ✓ Déboggage avec DDT ✓ Entrées/sorties parallèles avec HDF5
12Colloque données massives 2015 - CRDM
13Colloque données massives 2015 - CRDM
Outils: Hadoop + Spark
Les défis du « big data »
14Colloque données massives 2015 - CRDM
les 3 Vs…
+ la véracité
Apache Software Foundation
• Plus de 150 projets open source ✓ dont plus d’une trentaine en lien
avec les données massives
15Colloque données massives 2015 - CRDM
Hadoop
16Colloque données massives 2015 - CRDM
mécanique de base
stockage distribué
autres outils
Les enjeux
17Colloque données massives 2015 - CRDM
l’approche classiquene fonctionne plus avec les données massives
(Oracle)
(Google)
(Hadoop / Spark)
Stockage distribué (HDFS)
18Colloque données massives 2015 - CRDM
HDFS = Hadoop Distributed File System
Map - shuffle - reduce
19Colloque données massives 2015 - CRDM
Redondance
20Colloque données massives 2015 - CRDM
21Colloque données massives 2015 - CRDM
problèmes majeurs: usage de disques
• Spark remplace le map/reduce de Hadoop • Permet de faire des itérations sans passer par
le stockage sur disque • Augmente la performance jusqu’à 100x
22Colloque données massives 2015 - CRDM
23Colloque données massives 2015 - CRDM
Hadoop
Spark
Pour en savoir plus?
• La prochaine formation Spark est mardi le 3 novembre!
• Voir notre calendrier: ✓ http://www.calculquebec.ca/fr/aide-et-documentation/
formation/calendrier-formations
• Pour s’inscrire: ✓ http://calculquebec.eventbrite.ca
24Colloque données massives 2015 - CRDM
Conclusion
• Temps de calcul ✓ Extension de capacité de calcul. ✓ Capacité supplémentaire de courte durée (bursting).
• Stockage / transfert de données • Consultation ✓ choix technologique ✓ développement algorithmique ✓ optimisation, etc.
• Formations spécialisées • Soutien à la recherche • Contrats avec l’industrie
25Colloque données massives 2015 - CRDM