sql-on-hadoopair.imag.fr/images/e/e9/vt2015_sql-on-hadoop.pdf · sql-on-hadoop veille technologique...
TRANSCRIPT
![Page 2: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/2.jpg)
STRUCTURED DATA VS UNSTRUCTURED
DATA
Données structurées (RDBMS)
• Exiger de strictement être organisé
• Annexer à RDBMS sans couture
• Consultable par l’ algorithme simple, des moteurs de recherche ou d'autres opérations de recherche
• Proche de la langue de machine
• Résidées dans une base de données traditionnelle ligne-colonne
Données non-structurées
• Texte et contenu multimédia.
• 80 à 90 pour cent des données dans n'importe quel organisme est non-structuré
• Se grandissent significativement
• Contenir des infos intéressantes qui pourraient aider à mieux faire la décision
Machine Humaine
![Page 3: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/3.jpg)
LIMITATIONS DE L’ ARCHITECTURE D’ ANALYSE DE DONNÉE EXISTANTE
![Page 4: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/4.jpg)
QU’EST CE QUE C’EST APACHE
HADOOP?
Un système à tolérance de pannes évolutive distribuée pour le
stockage et le traitement (open source sous la licence Apache)
des données.
Le noyau de Hadoop dispose de deux systèmes principaux:
Hadoop Distributed File System : stockage auto-guérison en
clusters à haute bande passante.
MapReduce: ressources management distribué à tolérance de
pannes et la planification couplé avec une abstraction de
programmation de données évolutive.
![Page 5: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/5.jpg)
BÉNÉFICES PRINCIPAUX: AGILITÉ ET
FLEXIBILITÉ
Schéma-à-écrire (RDBMS):
• Schéma doit être crée avant la chargement de données
• Une opération de charge explicite doit avoir lieu, qui transforme les données à structure de DB interne.
• De nouvelles colonnes doivent être ajoutées explicitement avant que de nouvelles données de ces colonnes peuvent être chargées dans la base de données.
Schéma-à-lire (Hadoop):
• • Les données sont tout simplement copié dans l’entrepôt de fichiers, pas nécessaire de transformation.
• • Un SerDe (sérialiseur / Deserlizer) est appliquée pendant le temps de lecture pour extraire les colonnes nécessaires (binding tardive)
• • De nouvelles données peuvent commencer à circuler à tout moment et apparaîtront de façon rétroactive une fois le SerDe est mis à jour pour l'analyser.
Lecture est rapide Chargement est rapide
Standards/Gouvernance Flexibilité/Agilité
![Page 6: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/6.jpg)
HDFS: HADOOP DISTRIBUTED FILE SYSTEM
Un fichier donné est décomposée en blocs (par défaut = 64 Mo), puis les blocs sont répliquées sur grappe (par défaut = 3).
Optimisé pour:• Débit• PUT / GET / Supprimer• Annexer
Réplication de bloc pour:
• Durabilité• Disponibilité• Débit
Réplications de bloc sont réparties sur les serveurs et chevalets.
![Page 7: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/7.jpg)
MAPREDUCE: FRAMEWORK COMPUTATIONNEL
![Page 8: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/8.jpg)
MAPREDUCE: RESOURCE MANAGER / SCHEDULER
Un travail donné est décomposé en tâches, puis les tâches sont planifiées pour être aussi proche de données que possible.
Trois niveaux de la localité des données:
• même serveur que les données (disque local)
• même rack que les données (rack de commutateur / feuille)
• Partout où il y a un emplacement libre (rack croix)
Optimisé pour:
• Le traitement par lots
• Guérison de défaillance
Le système détecte les tâches retardataires et exécute des tâches parallèles sur la même tranche de données spéculative.
![Page 9: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/9.jpg)
ARCHITECTURE DE HAUT-NIVEAU DE HADOOP
![Page 10: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/10.jpg)
HISTOIRE DE LA CRÉATION DE
HADOOP
![Page 11: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/11.jpg)
HADOOP DANS LE STACK DE
DONNÉES D’ENTREPRISE
![Page 12: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/12.jpg)
APACHE HIVE
Un sous-ensemble de SQL couvrant les états les plus communs
• le soutien JDBC / ODBC
• types de données Agile: Array, Plan, structure, et des objets JSON
• Système enfichable SerDe de travailler sur des fichiers non structurées directement
• Fonctions et agrégats définis par l'utilisateur
• le soutien Regular Expression
• le soutien de MapReduce
• Cloisons et Godets (pour l'optimisation des performances)
• Microstrategy / Tableau de compatibilité (via ODBC)
• Dans les œuvres: Indices, Colonnes de stockage, Vues, Explode / Collect
![Page 13: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/13.jpg)
APACHE HADOOP: TYPES DE
DONNÉES AGILES
STRUCTS:
– SELECT mytable.mycolumn.myfield FROM …
• MAPS (Hashes):
– SELECT mytable.mycolumn[mykey] FROM …
• ARRAYS:
– SELECT mytable.mycolumn[5] FROM …
• JSON:
– SELECT get_json_object(mycolumn, objpath) FROM …
![Page 14: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/14.jpg)
CONCLUSION
Explorer les données brutes originales
traitement de données complexe
Data bat Algorithme
Développent du logiciel scalable
Conserver toutes les données en vie pour toujours
Use The Right Tool For The Right Job!
![Page 15: SQL-on-Hadoopair.imag.fr/images/e/e9/VT2015_SQL-on-Hadoop.pdf · SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr](https://reader033.vdocuments.site/reader033/viewer/2022053022/6050025c1fe3e357046448ad/html5/thumbnails/15.jpg)
MERCI POUR VOTRE ATTENTION
Avez-vous des questions?