introduction to big data for (university) … data for system... · •graph: allegro, neo4j,...
TRANSCRIPT
INTRODUCTION TO BIG DATA FOR (UNIVERSITY) SYSTEM ADMINISTRATOR
Asst. Prof. Natawut Nupairoj, Ph.D.Mobile Application and System Services Research GroupHead of DepartmentDepartment of Computing EngineeringChulalongkorn [email protected]
“ขอมลจะมความส าคญทางเศรษฐกจ เหมอนกบเงนและทอง” - World
Economic Forum
“ในป 2020, ขอมลในโลกทงหมดจะมขนาด 40ZB หรอ 5.2TB ตอคนหนงคน” – IDC
“มขอมลเพยง 3% เทานนทพรอมถกน าไปใชงาน และมเพยง 1 ใน 6 ของขอมลทพรอมถกน าไปใชงาน หรอ 0.5% ของขอมลทงหมด ทสามารถน าไปวเคราะหได” – IDC
B | KB | MB | GB | TB | PB | EB | ZB
ลกษณะของ BIG DATA
Source: IBM
ตวอยางเลกๆ BIG DATA ของมหาวทยาลย
ขนาดการจดเกบส าหรบ 30 วน = 13,000,000 events (2.1TB)
MOBILE & DEVICES - COMPUTING EVERYWHERE
Thailand’s rate is 147% (smartphone = 49%)
Wearable devices’ shipment will be doubled in 4 years (from 72m in 2015 to 155m in 2019)
20% will be healthcare related devices
Source: http://www.wareable.com/wearable-watchlist/50-best-wearable-tech
Whistle
INTRODUCING FDA-APPROVED INGESTIBLE SENSORS IN PILLS
http://www.forbes.com/sites/singularity/2012/08/09/no-more-skipping-your-medicine-fda-approves-first-digital-pill/
Behavioral trend tracking – customize fitness program setupFood intake tracking - visual recognize food intakeEnvironment factor tracking – modify fitness program recommendation
Under Armour | Connected Life
แนวทางการใชงาน BIG DATA
Bigger / Faster / More Up-to-Date Data Warehouse
Product Recommendation
Social Listening
Fraud Detection and Risk Management
Micro Customer Segmentation
Demand Sensing for Supply Chain
Precision Medicine
แนวทางการใชงานในมหาวทยาลย
Storage ส าหรบการเกบขอมลขนาดใหญราคาถกจดเกบและการวเคราะห Log
Smart IDS
การวเคราะห User Experiences ของ Web Site / Mobile Site
การท า Crowdsourcing เกยวกบปญหาของ Wifi
การวเคราะหพฤตกรรมของการใช LMS และสอ Online ของนสตPrecision Education
Source: collegestats.org
Source: collegestats.org
Data Storage
(Primitive) Big Data Architecture
Data Ingestion NoSQL
MapReduce
Data Visualization
VolumeVelocityVariety
Data Source
GatherFilterDeliver
Data Processing
Opensource software framework โดยมแนวความคดจาก Google Search
Engine Architecture
เนนการใช Commodity Hardware
Map-Reduced ท าใหงายตอการเขยนโปรแกรมท างานบน Cluster โดยไมจ าเปนตองช านาญดาน Parallel Processing
ม Hadoop File System (HDFS) ในการจดเกบขอมลท reliable ในราคาไมแพง
ผใช: Yahoo!, Facebook, Amazon, eBay, American Airline, Apple, Google,
HP, IBM, Microsoft, Netflix, New York Times, ฯลฯ
ตวอยางจากของจรง
500,000 บาท
Intel NUCintel Core i5 (4cores)RAM 16 Gb
24,500 บาท x 20 เครอง80 cores
RAM 320 Gb
World-Class Brand Serverintel XEON (Up to 18 cores)RAM 512Gb
HARDWARE VS. SOFTWARE
Hardware: Reliable Software: easy
Hardware: VulnerableSoftware : ????
ประเดนของ BIG DATA อยท I/OA B C
Config Single RAID-10 Parallel
จ านวน HD 1 8 16
ความเรว 100 MB/sec 800 MB/sec 1600 MB/sec
เวลาในการอาน 200GB 30 นาท 4 นาท 2 นาท
หลกการท างานของ MAPREDUCE
1. ขอมลกระจายในเครองตาง2. MAP – ท าการประมวลผลในแตละเครองพรอมๆกน3. REDUCE - สรปผลกลบมาทเครองหลก
ตวอยาง – WORD COUNT
นบความถของค าในหนงสอ
WORD FREQ.: MAPREDUCE
With your data, please count.
Store a part of data. MapMap Map
Map Map
Reduce
DISKS
อายการใชงานเฉลย 1,200,00
ชม.
ส าหรบ Disk 10,000 ลก จะมลกทเสย 1 ลกทกๆ 5 วน
Source: google
HADOOP HDFS
Rackaware
3 copy
การท างานของ HADOOP
HADOOP ARCHITECTURE
ระบบงานประมวลผลโดยใชหนวยความจ าเปนหลก (In-Memory Data
Processing) ของ UC Berkeley
ขยาย MapReduce ใหรองรบ batch executions, interactive queries, และstream processing
รองรบหลายภาษา ทง Java, Python, Scala, และ R และม analytic libraries
(machine learning, graph processing)
ไดรบความรวมมอในการพฒนา และการสนบสนนจากคนทวโลกเรวกวา Hadoop 10-100 เทา
ประสทธภาพของ SPARK
NOSQL – NOT ONLY SQL
เปนทางเลอกในการเกบขอมลขนาดใหญ โครงสรางซบซอน โดยเปนระบบกระจาย ทท างานแบบ Non-relational
และรองรบการ Scale-Out
• Column: Accumulo, Cassandra, HBase
• Document: Apache CouchDB, Couchbase, MongoDB
• Search Engine: ElasticSearch, Solr
• Key-value: CouchDB, Dynamo, MemcacheDB, Redis
• Graph: Allegro, Neo4J, InfiniteGraph, OrientDB
SELECT array_agg(players), player_teamsFROM (SELECT DISTINCT t1.t1player AS players, t1.player_teamsFROM (
SELECTp.playerid AS t1id,concat(p.playerid,':', p.playername, ' ') AS t1player,array_agg(pl.teamid ORDER BY pl.teamid) AS player_teams
FROM player pLEFT JOIN plays pl ON p.playerid = pl.playeridGROUP BY p.playerid, p.playername
) t1INNER JOIN (SELECT
p.playerid AS t2id,array_agg(pl.teamid ORDER BY pl.teamid) AS player_teams
FROM player pLEFT JOIN plays pl ON p.playerid = pl.playeridGROUP BY p.playerid, p.playername
) t2 ON t1.player_teams=t2.player_teams AND t1.t1id <> t2.t2id) innerQueryGROUP BY player_teams
CAP THEOREM (BREWER’S THEOREM)
โดย Eric Brewer (University of California, Berkeley)
ระบบกระจายใดๆ ทม server หลายเครอง จะไมสามารถมคณสมบตตอไปนทง 3 อยางพรอมกน
• Consistency: ทกเครองมขอมลเหมอนกนตลอดเวลา• Availability: ทกการรองขอในการจดการขอมลจาก Client จะไดรบการตอบกลบ ไมวาจะส าเรจหรอไม
• Partition tolerance: ระบบสามารถท างานตอไปได แมเครอง server ไมสามารถสงขอมลระหวางกนได
CAP - NORMAL OPERATION – C+A
Source: http://www.julianbrowne.com/article/viewer/brewers-cap-theorem
CAP - NETWORK PARTITION – ไดแค A เทานน
Source: http://www.julianbrowne.com/article/viewer/brewers-cap-theorem
CAP THEOREM AND NOSQL
Source: http://blog.flux7.com/blogs/nosql/cap-theorem-why-does-it-matter
Source: http://db-engines.com/en/ranking
ตวอยาง NOSQL - MONGODB
Document-Oriented NoSQL database
BSON store (binary-format JSON)
Databases – Collections - Documents
รองรบหลาย Schema ในเวลาเดยวกน = Document ใน Collection เดยวกนสามารถมโครงสราง (ฟลด) ตางกนไดใช JavaScript เปนภาษาหลกในการเขาถงขอมล และม Driver ส าหรบภาษาอนๆเชน Java และ Python
รองรบ load-balancing และ replication
{"firstName": "John","lastName": "Smith","isAlive": true,"age": 25,"height_cm": 167.6,"address": {
"streetAddress": "21 2nd Street","city": "New York","state": "NY","postalCode": "10021-3100"
},"phoneNumbers": [
{ "type": "home","number": "212 555-1234"
},{ "type": "office","number": "646 555-4567"
}],
}
PREDICTIVE ANALYTICSเปนเครองมอใหกบ Data Scientist ในการวเคราะหหารปแบบของขอมลในอดต เพอใชท านายอนาคตมเทคนคหลายรปแบบทง statistics,
modeling, machine learning, data
mining, time series analysis, deep
learning, text analytics, image
processing, location analytics,
ฯลฯ
ประเภทของ DATA ANALYTICS
BIG DATA ARCHITECTURE ในการท างานจรง
Data Source
Data Source
Data Source
Data Source
Data Ingestion
Fast Data Path
Big Data Path
Data Stream Processors
Data Lake (Landing Zone)
Data Refinery / Data Analytics
Data Visualization
Traditional Data Warehouse / Reporting tools
เทยบ BIG DATA ARCHITECTURE ในการกบระบบ LOG
(GRAYLOG)
Data Source
Data Source
Data Source
Data Source
Data Ingestion
Fast Data Path
Big Data Path
Data Stream Processors
Data Lake (Landing Zone)
Data Refinery / Data Analytics
Data Visualization
KafkaElasticSearch
Graylog-WebGraylog-Event