introducing mapreduce programming framework

11

Introducing MapReduce Programming Model Samuel Yee

Upload: samuel-yee

Post on 15-Apr-2017

128 views

Category:

Data & Analytics

2 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Introducing MapReduce Programming Framework

Introducing MapReduce

Programming ModelSamuel Yee

Page 2: Introducing MapReduce Programming Framework

*Multi-threaded Programming

Page 3: Introducing MapReduce Programming Framework

MapReduce Programming Model

For parallelization & distributed computing, programmers don’t have to worry about multi-threading, system failure, file I/O, networking, data loss etc. All these complex low-level activities are taken care of by Hadoop.

Focus on 2 key functions instead: Mapper and Reducer Mapper function

Ingest from large input files Split up into many smaller blocks (default 64MB per block size) Transform inputs into key-value pairs, shuffle and map them to Reduce function

Reducer function Reduce outputs by aggregating, summing, eliminating etc. Write to output files

Key-Value pairs must match between Mapper and Reducer functions

Page 4: Introducing MapReduce Programming Framework

Data Processing (MapReduce)

Input Data

Map()

Map()

Map()

Reduce()

Reduce()

Output Data

Split[k1, v1]

Sort byk1

Merge[k1, [v1, v2, v3…]]

Page 5: Introducing MapReduce Programming Framework

Hadoop’s Approach

Big Data

Block

Block

Block

Block

Block

Block

Split into smaller data blocks

Page 6: Introducing MapReduce Programming Framework

Hadoop’s Approach

Block

Block

Block

Block

Block

Block

Computing

Computing

Computing

Computing

Computing

Computing

Map Computing Process to Data Blocks

Reduce outputs by aggregating into a result

Output

Output

Output

Output

Output

Output

Page 7: Introducing MapReduce Programming Framework

Consider Two Input Files

File01.txt: Hello World Bye World File02.txt: Hello Hadoop Goodbye Hadoop

Page 8: Introducing MapReduce Programming Framework

Outputs of Mappers

Process 1 [Hello, 1] [Hadoop, 1] [Goodbye, 1] [Hadoop, 1]

Process 2 [Hello, 1] [World, 1] [Bye, 1] [World, 1]

Page 9: Introducing MapReduce Programming Framework

Consolidated Result of Reducers

[Bye, 1] [Goodbye, 1] [Hadoop, 2] [Hello, 2] [World, 2]

Page 10: Introducing MapReduce Programming Framework

MapReduce Template in Java

Page 11: Introducing MapReduce Programming Framework

Demo

MapReduce programming using IntelliJ IDEA and Java Read my LinkedIn articles on how to setup development environment

for MapReduce and Spark on Windows http://tinyurl.com/px9rwwk

http://tinyurl.com/px9rwwk

http://tinyurl.com/px9rwwk

Hadoop Programming. Overview MapReduce Types Input Formats Output Formats Serialization Job g/apache/hadoop/mapreduce/package-

MR A MapReduce Programming Languagesedwards/classes/2011/w4115-fall/reports/MR… · MR A MapReduce Programming Language W4115 Programming Language and Translator Prof. Stephen A

Introducing to Asynchronous Programming

MapReduce Programming

SIGMETRICS Tutorial: MapReduce · Introduction to MapReduce Programming Model Hadoop Map/Reduce Programming Tutorial and more. What makes this one different: Some complex "realistic"

TITLE PAGE Data Analysis Using MapReduce Programming …aghenai/assets/publications/... · 2016-11-29 · employing the MapReduce programming model on a large virtual cluster provisioned

Introducing Object oriented programming

Google's MapReduce Programming Model - Revisited (by Ralf

Introducing Android Programming

MapReduce: A Programming Model for Large-Scale …kshen/csc258-spring...MapReduce: Overview A programming model for large-scale data-parallel applications introduced by Google Aimed

MapReduce and Hadoop File Systemnsrit.edu.in/admin/img/cms/10096mapreduce.pdf · The Outline Introduction to MapReduce From CS Foundation to MapReduce MapReduce programming model

MR A MapReduce Programming Language - Columbia University

MapReduce: Parallel Programming in the Cloud - … · MapReduce: Parallel Programming in the Cloud Brad Karp ... file to final output file after writes finish; ... • Partitioning

MapReduce & Cloud PengBo Dec 6, 2010. MapReduce Imperative Programming In computer science, imperative programming is a programming paradigm that describes

Introducing to AS3.0 programming

Improving the MapReduce Big Data Processing …Improving the MapReduce Big Data Processing Framework Miguel Liroz 4 MapReduce Overview Programming model and framework • Developed

A UNIFIED MAPREDUCE PROGRAMMING INTERFACE FOR MULTI … › files › publications › articles › ... · A UNIFIED MAPREDUCE PROGRAMMING INTERFACE FOR MULTI-CORE AND DISTRIBUTED

C# Programming Fundamentals of Object-Oriented Programming Fundamentals of Object-Oriented Programming Introducing Microsoft.NET Introducing Microsoft.NET

Airavat: Security and Privacy for MapReduce - USENIX · Programming model in year 201X 3 Frameworks available to ease cloud programming MapReduce: Parallel processing on clusters

A UNIFIED MAPREDUCE PROGRAMMING INTERFACE FOR MULTI … · 2016-07-27 · A UNIFIED MAPREDUCE PROGRAMMING INTERFACE FOR MULTI-CORE AND DISTRIBUTED ARCHITECTURES ABSTRACT In order

MapReduce Programming Oct 30, 2012

MapReduce Programming Oct 25, 2011

MapReduce - Functional Programming

Hadoop/MapReduce - 123seminarsonly.comHadoop MapReduce • MapReduce is a programming model and software framework first developed by Google (Google’s MapReduce paper submitted in

Tutorial: High-Level Programming Languages - MapReduce Simplified

A Homomorphism-based MapReduce Framework for Systematic Parallel Programming

L22: Parallel Programming Language Features (Chapel and MapReduce)

MapReduce: Programming in the Very Large

Experiments with MapReduce in Erlangsoft.vub.ac.be/.../tvcutsem_MapReduce_ErlangFactory.pdf• MapReduce: programming model that separates application-speciﬁc map and reduce computations

MapReduce: A Programming Model for Large-Scale Distributed … · 2011-04-18 · MapReduce: Overview A programming model for large-scale data-parallel applications introduced by Google

13-the mapreduce programming model and implementations slides.pdf

MapReduce Programming with Apache Hadoop - DSTdst.lbl.gov/ACSDownloads/kjackson/downloads/Hadoop-HDFS8-12pm.… · MapReduce Programming with Apache Hadoop Viraj Bhat ... (hadoop,

Introducing Elastic MapReduce

Google’s MapReduce Programming Model — …web.cs.wpi.edu/~cs4513/d10/Papers/Lammel, Google's...Google’s MapReduce Programming Model — Revisited Ralf Lammel¨ Data Programmability

Google’s MapReduce programming model — …€™s MapReduce programming model — Revisited Ralf L¨ammel ∗ Data Programmability Team, Microsoft Corp., Redmond, WA, USA Received