big data et business intelligence de a… azure
TRANSCRIPT
tech.days 2015#mstechdaysSESSION
Application & Digital
Communication & RSE
Business Intelligence
Integration & MDM
Client Relation Focus
Cloud by MicrosoftParis-Lyon-Genève
Big Data
tech.days 2015#mstechdaysSESSION
StockageBig Data
On-premise
On-cloud
File d’attente
Transformation
Pocess temps réélBusiness intelligence
BI TEMPS REEL
STOCKAGE
PERMANENTAnalyse Excel
Dashboard Power BI
Reporting SSRS
Azure Machine LearningSQL Server Azure
Services de données Microsoft Azure
tech.days 2015#mstechdaysSESSION
Data Source Collect Process ConsumeDeliver
Event Inputs- Event Hub
- Azure Blob
Transform- Temporal joins
- Filter
- Aggregates
- Projections
- Windows
- Etc.
Correlate
Outputs- SQL Azure
- Azure Blobs
- Event Hub
Azure
Storage
Azure Stream Analytics
Reference Data- Azure Blob
tech.days 2015#mstechdaysSESSION
StockageBig Data
File d’attente
Transformation
Pocess temps réélBusiness intelligence
Analyse Excel
Dashboard Power BI
Azure Machine Learning
SQL Server Azure
Services de données Microsoft Azure
2-Extraction temps réel par lot
1-Collecte des Flux RSS des dépêches d’une trentaine de journaux
Pour la démo, accélération du temps pour traiter environ 3 semaines de flux
tech.days 2015#mstechdaysSESSION
Pip
eli
ne S
cri
pt
IHM
Azu
re D
ata
Facto
ry
"type": "Hive", ou "type": "Pig",
"type": "Copy",
tech.days 2015#mstechdaysSESSIONP
ig L
ati
n S
cri
pt
Hiv
e s
cri
pt
DROP TABLE IF EXISTS HiveDepeche; CREATE EXTERNAL TABLE HiveDepeche(
Journal string, Nb int) ROW FORMAT DELIMITED FIELDS TERMINATEDBY ',' LINES TERMINATED BY '10' STOREDAS TEXTFILE LOCATION '${hiveconf:RESULTOUTPUT}/
${hiveconf:Year}/${hiveconf:Month}/${hiveconf:Day}';
INSERT OVERWRITE TABLE HiveDepecheSELECT Journal, count(*) FROM Depechegroup by Journal;
a = LOAD '$LOGINPUT';b = foreach a generate flatten(TOKENIZE((chararray)$0)) as word;c = group b by word;d = foreach c generate COUNT(b), group;STORE d INTO '$LOGOUTPUT';
tech.days 2015#mstechdaysSESSION
On Premises SQL ServerSQL AzureAzure Blob Storage
Activités
Dataset 2
Azure Data Factory
Fro
m
Ru
ns
On
Dataset 1
HDInsight Compute
Pipeline1
Autres Pipelines
Azure Blob tempory Storage
Fro
m/T
o
ELT
tech.days 2015#mstechdaysSESSION
// Deploy Table
New-AzureDataFactoryTable-DataFactoryName“ADF“-File File1.json
// Deploy Pipeline
New-AzureDataFactoryPipeline-DataFactoryName “ADF“-File File2.json
// Start Pipeline
Set-AzureDataFactoryPipelineActivePeriod-DataFactoryName “ADF“-StartTime 02/10/2015 12:00:00
tech.days 2015#mstechdaysSESSION
StockageBig Data
File d’attente
Transformation
Pocess temps réélBusiness intelligence
Analyse Excel
Dashboard Power BI
Azure Machine Learning
SQL Server Azure
Services de données Microsoft Azure
3-Agrégation et comptage des mots
5b-Analyse prédictive temps réel
2-Extraction temps réel par lot
5a-Analyse temps réel
4- Chargement
1-Collecte des Flux RSS des dépêches d’une trentaine de journaux
Pour la démo, accélération du temps pour traiter environ 3 semaines de flux
tech.days 2015#mstechdaysSESSION
Analyse
descriptive
Analyse
explicative
Analyse
prédictive
Analyse
prescriptive
tech.days 2015#mstechdaysSESSION
« Ciel rouge le matin, avertit le marin. »
« Plus vite courent les fourmis, plus haut monte le mercure. »
« Les oignons ont beaucoup de pelures, l'hiver sera dur. »
tech.days 2015#mstechdaysSESSION
…pour découvrir les concepts nécessaires avant d’appréhender le Machine Learning
tech.days 2015#mstechdaysSESSION
Des chiffres et des lettres !
Plutôt nommées:Variables quantitatives
Variables qualitatives
tech.days 2015#mstechdaysSESSION
Un échantillon pour l’apprentissage (~60%)
Un échantillon pour la validation du modèle(~40%)
Ou validation croisée
tech.days 2015#mstechdaysSESSION
Identifier de groupes intrinsèquement homogènes et différents entre eux
tech.days 2015#mstechdaysSESSION
tech.days 2015#mstechdaysSESSION
let
Source = Marketplace.Subscriptions(),
#"https://api.datamarket.azure.com/data.ashx/aml
_labs/lexicon_based_sentiment_analysis/v1/" =
Source{[ServiceUrl="https://api.datamarket.azure
.com/data.ashx/aml_labs/lexicon_based_sentiment_
analysis/v1/"]}[Feeds],
Score =
#"https://api.datamarket.azure.com/data.ashx/aml
_labs/lexicon_based_sentiment_analysis/v1/"{[Nam
e="Score"]}[Data]
in
Score
URL de l’API
tech.days 2015#mstechdaysSESSION
Le Machine Learning est un sport d’équipe.
Statisticiens / Mathématiciens
DBA
Développeurs
Data Scientist
Fonctionnels / Décideurs
Un type à moustache ?