hungarian*academyof sciences( mtasztakiadatmenedzsment kihívások*és*válaszok* andras*benczur*...

19
Adatmenedzsment Kihívások és válaszok Andras Benczur Insitute for Computer Science and Control Hungarian Academy of Sciences (MTA SZTAKI) benczur @ sztaki.mta.hu hFp://datamining.sztaki.hu November 11, 2025 Jövő Internet Konferencia

Upload: others

Post on 08-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Adatmenedzsment  Kihívások  és  válaszok  

Andras  Benczur  Insitute  for  Computer  Science  and  Control  

Hungarian  Academy  of  Sciences  (MTA  SZTAKI)  [email protected]  

hFp://datamining.sztaki.hu  

November  11,  2025  Jövő  Internet  Konferencia  

Page 2: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Growth  of  Data  vs.  Growth  of  Data  Analysts  

http://www.delphianalytics.net/wp-content/uploads/2013/04/GrowthOfDataVsDataAnalysts.png

Page 3: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

2012.06: h"p://www.forbes.com/sites/davefeinleib/2012/06/19/the-­‐‑big-­‐‑data-­‐‑landscape/

Page 4: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

2013.02: h"p://www.slideshare.net/mjft01/big-­‐‑data-­‐‑big-­‐‑deal-­‐‑a-­‐‑big-­‐‑data-­‐‑101-­‐‑presentation

Page 5: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

SAP  HANA  Demo:  Meryl  Streep,  Oscar  2012  

Page 6: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

SAP  HANA  Demo:  Meryl  Streep,  Oscar  2012  

Page 7: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

kép: http://mirror.co.uk

SAP  HANA  Demo:  Meryl  Streep,  Oscar  2012  

Page 8: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

SAP  HANA  Demo:  Meryl  Streep,  Oscar  2012  

Page 9: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

What  was  The  Challenge  in  AnalyZcs?  •  One  year  1  billion  Tweet  collecZon,  100GB  •  Ad  Hoc  queries  (Meryl  Streep)  may  have  100,000+  hits  

•  Fast  response  needed  to  support  the  analyst  •  SoluZons  

o In  Memory  databases  (such  as  SAP  HANA)  o Customized  approximate  data  structures  (Bloom  filters,  MinHash  fingerprints)  

Page 10: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

InformaZon  spread  predicZon  in  Zme  

Page 11: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

CollaboraZon  w/  Ericsson  on  Spark  Piggybacking  

1.  Hard  to  predict  resource  usage  –  overesZmaZon  hurts  Spark  2.  Peaks  may  cause  out-­‐of-­‐memory  errors  –  Spark  will  fail    

Zme  

resources   resource  allocated  by  job  

current  consumpZon  out-­‐of-­‐memory  error  

under-­‐uZlizaZon,  waste  of  resources  

Page 12: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

CollaboraZon  w/  Ericsson  on  Spark  Piggybacking  

Page 13: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Data  Stream  AnalyZcs:  Mobile  Session  Drop  

•  Periodic  radio  channel  physical  parameter  measurements  •  Predict  abnormal  terminaZon  

Best  features  selected  by  AdaBoost:                Drop  Not  drop  

1.  RLC  NACK  raZo  Upl.  Max        0.93447    0.12676    2.  RLC  NACK  raZo  Upl.  Mean        0.11787  -­‐0.11571  3.  Harq  NACK  raZo  Downl.  Max        0.02061      0.00619    4.  Delta  RLC  NACK  raZo  Upl.  Mean  0.19277      0.18110    5.  Signal-­‐Interf+Noise  Mean        1.92105    6.61538  

i

i+2 i Dynamic  Time  Warping  

AUC:  0.93  

FPR:  0.03,  TPR:  0.7  FPR:  0.2,  TPR:  0.89  

Drop  No  Drop  

Page 14: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

STREAMLINE  Magic  Triangle  New  iniZaZve  on  top  of  Apache  Flink  •  DFKI  (DE)  •  SICS  (SE)  •  Portugal  Telecom  (PT)  •  Internet  Memory  (FR)  •  Rovio  (FI)  •  NMusic  (PT  )  •  SZTAKI  (HU)    

Page 15: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Batch  and  Streaming  in  Flink  

A "use-case complete" framework to unify batch and stream processing

Event  logs

Historic  data

ETL   Relational Graph  analysis Machine  learning Streaming  analysis

Page 16: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Flink

Historic data

Ka?a,  RabbitMQ,  ...

HDFS,  JDBC,  ...

ETL, Graphs, Machine Learning Relational, … Low latency windowing, aggregations, ...

Event  logs

Real-time data streams

Batch  and  stream:  Same  execuZon  engine    

An engine that puts equal emphasis to streaming and batch

Page 17: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

Bike  Share  Challenge  –  one  

more  month  to  go!  

November  11,  2025  Jövő  Internet  Konferencia  

Page 18: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

November  11,  2025   Jövő  Internet  Konferencia  

Page 19: Hungarian*Academyof Sciences( MTASZTAKIAdatmenedzsment Kihívások*és*válaszok* Andras*Benczur* Insitute*for*Computer*Science*and*Control* Hungarian*Academyof Sciences(MTASZTAKI)benczur@sztaki.mta.hu*

QuesZons?  November  11,  2025  Jövő  Internet  Konferencia  

•  New  architecture  for  unified  batch  +  stream  needed  •  Apache  Flink  has  the  potenZal  

•  New  machine  learning  is  needed  • We  parZcipate  in  turning  research  codes  to  open  source  soqware