introduction to big data for (university) … data for system... · •graph: allegro, neo4j,...

INTRODUCTION TO BIG DATA FOR (UNIVERSITY) SYSTEM ADMINISTRATOR

Asst. Prof. Natawut Nupairoj, Ph.D.Mobile Application and System Services Research GroupHead of DepartmentDepartment of Computing EngineeringChulalongkorn [email protected]

“ขอมลจะมความส าคญทางเศรษฐกจ เหมอนกบเงนและทอง” - World

Economic Forum

“ในป 2020, ขอมลในโลกทงหมดจะมขนาด 40ZB หรอ 5.2TB ตอคนหนงคน” – IDC

“มขอมลเพยง 3% เทานนทพรอมถกน าไปใชงาน และมเพยง 1 ใน 6 ของขอมลทพรอมถกน าไปใชงาน หรอ 0.5% ของขอมลทงหมด ทสามารถน าไปวเคราะหได” – IDC

B | KB | MB | GB | TB | PB | EB | ZB

ลกษณะของ BIG DATA

Source: IBM

ตวอยางเลกๆ BIG DATA ของมหาวทยาลย

ขนาดการจดเกบส าหรบ 30 วน = 13,000,000 events (2.1TB)

MOBILE & DEVICES - COMPUTING EVERYWHERE

Thailand’s rate is 147% (smartphone = 49%)

Wearable devices’ shipment will be doubled in 4 years (from 72m in 2015 to 155m in 2019)

20% will be healthcare related devices

Source: http://www.wareable.com/wearable-watchlist/50-best-wearable-tech

Whistle

INTRODUCING FDA-APPROVED INGESTIBLE SENSORS IN PILLS

http://www.forbes.com/sites/singularity/2012/08/09/no-more-skipping-your-medicine-fda-approves-first-digital-pill/

Behavioral trend tracking – customize fitness program setupFood intake tracking - visual recognize food intakeEnvironment factor tracking – modify fitness program recommendation

Under Armour | Connected Life

แนวทางการใชงาน BIG DATA

Bigger / Faster / More Up-to-Date Data Warehouse

Product Recommendation

Social Listening

Fraud Detection and Risk Management

Micro Customer Segmentation

Demand Sensing for Supply Chain

Precision Medicine

แนวทางการใชงานในมหาวทยาลย

Storage ส าหรบการเกบขอมลขนาดใหญราคาถกจดเกบและการวเคราะห Log

Smart IDS

การวเคราะห User Experiences ของ Web Site / Mobile Site

การท า Crowdsourcing เกยวกบปญหาของ Wifi

การวเคราะหพฤตกรรมของการใช LMS และสอ Online ของนสตPrecision Education

Source: collegestats.org

Data Storage

(Primitive) Big Data Architecture

Data Ingestion NoSQL

MapReduce

Data Visualization

VolumeVelocityVariety

Data Source

GatherFilterDeliver

Data Processing

Opensource software framework โดยมแนวความคดจาก Google Search

Engine Architecture

เนนการใช Commodity Hardware

Map-Reduced ท าใหงายตอการเขยนโปรแกรมท างานบน Cluster โดยไมจ าเปนตองช านาญดาน Parallel Processing

ม Hadoop File System (HDFS) ในการจดเกบขอมลท reliable ในราคาไมแพง

ผใช: Yahoo!, Facebook, Amazon, eBay, American Airline, Apple, Google,

HP, IBM, Microsoft, Netflix, New York Times, ฯลฯ

ตวอยางจากของจรง

500,000 บาท

Intel NUCintel Core i5 (4cores)RAM 16 Gb

24,500 บาท x 20 เครอง80 cores

RAM 320 Gb

World-Class Brand Serverintel XEON (Up to 18 cores)RAM 512Gb

HARDWARE VS. SOFTWARE

Hardware: Reliable Software: easy

Hardware: VulnerableSoftware : ????

ประเดนของ BIG DATA อยท I/OA B C

Config Single RAID-10 Parallel

จ านวน HD 1 8 16

ความเรว 100 MB/sec 800 MB/sec 1600 MB/sec

เวลาในการอาน 200GB 30 นาท 4 นาท 2 นาท

หลกการท างานของ MAPREDUCE

1. ขอมลกระจายในเครองตาง2. MAP – ท าการประมวลผลในแตละเครองพรอมๆกน3. REDUCE - สรปผลกลบมาทเครองหลก

ตวอยาง – WORD COUNT

นบความถของค าในหนงสอ

WORD FREQ.: MAPREDUCE

With your data, please count.

Store a part of data. MapMap Map

Map Map

Reduce

DISKS

อายการใชงานเฉลย 1,200,00

ชม.

ส าหรบ Disk 10,000 ลก จะมลกทเสย 1 ลกทกๆ 5 วน

Source: google

HADOOP HDFS

Rackaware

3 copy

การท างานของ HADOOP

HADOOP ARCHITECTURE

ระบบงานประมวลผลโดยใชหนวยความจ าเปนหลก (In-Memory Data

Processing) ของ UC Berkeley

ขยาย MapReduce ใหรองรบ batch executions, interactive queries, และstream processing

รองรบหลายภาษา ทง Java, Python, Scala, และ R และม analytic libraries

(machine learning, graph processing)

ไดรบความรวมมอในการพฒนา และการสนบสนนจากคนทวโลกเรวกวา Hadoop 10-100 เทา

ประสทธภาพของ SPARK

NOSQL – NOT ONLY SQL

เปนทางเลอกในการเกบขอมลขนาดใหญ โครงสรางซบซอน โดยเปนระบบกระจาย ทท างานแบบ Non-relational

และรองรบการ Scale-Out

• Column: Accumulo, Cassandra, HBase

• Document: Apache CouchDB, Couchbase, MongoDB

• Search Engine: ElasticSearch, Solr

• Key-value: CouchDB, Dynamo, MemcacheDB, Redis

• Graph: Allegro, Neo4J, InfiniteGraph, OrientDB

SELECT array_agg(players), player_teamsFROM (SELECT DISTINCT t1.t1player AS players, t1.player_teamsFROM (

SELECTp.playerid AS t1id,concat(p.playerid,':', p.playername, ' ') AS t1player,array_agg(pl.teamid ORDER BY pl.teamid) AS player_teams

FROM player pLEFT JOIN plays pl ON p.playerid = pl.playeridGROUP BY p.playerid, p.playername

) t1INNER JOIN (SELECT

p.playerid AS t2id,array_agg(pl.teamid ORDER BY pl.teamid) AS player_teams

FROM player pLEFT JOIN plays pl ON p.playerid = pl.playeridGROUP BY p.playerid, p.playername

) t2 ON t1.player_teams=t2.player_teams AND t1.t1id <> t2.t2id) innerQueryGROUP BY player_teams

CAP THEOREM (BREWER’S THEOREM)

โดย Eric Brewer (University of California, Berkeley)

ระบบกระจายใดๆ ทม server หลายเครอง จะไมสามารถมคณสมบตตอไปนทง 3 อยางพรอมกน

• Consistency: ทกเครองมขอมลเหมอนกนตลอดเวลา• Availability: ทกการรองขอในการจดการขอมลจาก Client จะไดรบการตอบกลบ ไมวาจะส าเรจหรอไม

• Partition tolerance: ระบบสามารถท างานตอไปได แมเครอง server ไมสามารถสงขอมลระหวางกนได

CAP - NORMAL OPERATION – C+A

Source: http://www.julianbrowne.com/article/viewer/brewers-cap-theorem

CAP - NETWORK PARTITION – ไดแค A เทานน

Source: http://www.julianbrowne.com/article/viewer/brewers-cap-theorem

CAP THEOREM AND NOSQL

Source: http://blog.flux7.com/blogs/nosql/cap-theorem-why-does-it-matter

Source: http://db-engines.com/en/ranking

ตวอยาง NOSQL - MONGODB

Document-Oriented NoSQL database

BSON store (binary-format JSON)

Databases – Collections - Documents

รองรบหลาย Schema ในเวลาเดยวกน = Document ใน Collection เดยวกนสามารถมโครงสราง (ฟลด) ตางกนไดใช JavaScript เปนภาษาหลกในการเขาถงขอมล และม Driver ส าหรบภาษาอนๆเชน Java และ Python

รองรบ load-balancing และ replication

{"firstName": "John","lastName": "Smith","isAlive": true,"age": 25,"height_cm": 167.6,"address": {

"streetAddress": "21 2nd Street","city": "New York","state": "NY","postalCode": "10021-3100"

},"phoneNumbers": [

{ "type": "home","number": "212 555-1234"

},{ "type": "office","number": "646 555-4567"

}],

}

PREDICTIVE ANALYTICSเปนเครองมอใหกบ Data Scientist ในการวเคราะหหารปแบบของขอมลในอดต เพอใชท านายอนาคตมเทคนคหลายรปแบบทง statistics,

modeling, machine learning, data

mining, time series analysis, deep

learning, text analytics, image

processing, location analytics,

ฯลฯ

ประเภทของ DATA ANALYTICS

BIG DATA ARCHITECTURE ในการท างานจรง

Data Source

Data Source

Data Source

Data Source

Data Ingestion

Fast Data Path

Big Data Path

Data Stream Processors

Data Lake (Landing Zone)

Data Refinery / Data Analytics

Data Visualization

Traditional Data Warehouse / Reporting tools

เทยบ BIG DATA ARCHITECTURE ในการกบระบบ LOG

(GRAYLOG)

Data Source

Data Source

Data Source

Data Source

Data Ingestion

Fast Data Path

Big Data Path

Data Stream Processors

Data Lake (Landing Zone)

Data Refinery / Data Analytics

Data Visualization

KafkaElasticSearch

Graylog-WebGraylog-Event