inside hdfs append

22
Inside HDFS APPEND Yue Chen http://linkedin.com/in/yuechen2 http://dataera.wordpress.com

Upload: yue-chen

Post on 25-May-2015

716 views

Category:

Software


0 download

DESCRIPTION

How the new operation of Hadoop Distributed FIle System (HDFS) -- Append works. The internals of the processing. The new states that are more than the write operation.

TRANSCRIPT

Page 1: Inside HDFS Append

英文标题:40-47pt

副标题:26-30pt

字体颜色:反白

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:35-47pt

字体:黑体

副标题:24-28pt

字体颜色:反白

字体:细黑体

Inside HDFS APPEND Yue Chen

http://linkedin.com/in/yuechen2

http://dataera.wordpress.com

Page 2: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

HDFS Background

HDFS: Hadoop Distributed File System

Good for:

Large Files

Streaming Data Access

Bad for:

Lots of Small Files

Random Access

Page 3: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

HDFS Architecture

Page 4: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

HDFS Write

Page 5: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Before the birth of append, once a file is closed, it is

immutable.

For database operations, it is expensive.

Solution:

Append Background

Page 6: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Before the birth of append, once a file is closed, it is

immutable.

For database operations, it is expensive.

Solution:

Append Background

APPEND

Page 7: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Key for Designing Append

How to guarantee the consistency when something

is wrong?

Page 8: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Key for Designing Append

How to guarantee the consistency when something

is wrong?

Use more states!

Page 9: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

States

Finalized:

Everything is done!

Page 10: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

States

RBW (ReplicaBeingWritten):

In write’s pipeline, visible to read

Page 11: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

States

RUR (ReplicaUnderRecovery):

Lease is expired, replica is under recovery

Page 12: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

States

RWR (ReplicaWaitingToBeRecovered):

If one DN is down, all RBW becomes RWR

Page 13: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

States

Temporary:

Replicas are transmitted between DN’s

Page 14: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Lease

What is a lease?

Write lock for file modification, Avoids

concurrent write on the same file

No lease for reading files

Page 15: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Lease Expiration

Soft Limit

No renewing for 1 minute

Other client compete for the lease

Hard Limit

No renewing for 60 minutes

No competition for the lease

Page 16: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

State

Name Node (NN) block, 4 types of states:

complete

under_construction

under_recovery

committed

Data Node (DN) replica, 5 types of states:

Finalized

RBW (ReplicaBeingWritten, in write’s pipeline, visible to read)

RUR (ReplicaUnderRecovery, lease is expired)

RWR (ReplicaWaitingToBeRecovered, if one DN is down, all RBW becomes

RWR)

Temporary (being transmitted between DN’s)

Page 17: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Overview (Hadoop 1.0.0)

Page 18: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Overall Procedure

From the perspective of Client, append operation firstly

calls append of DistributedFileSystem, this operation

would return a stream object FSDataOutputStream out. If

Client needs to append data to this file, it could calls

out.write to write, and calls out.close to close.

Page 19: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

write/append

1) Normal close

DFSOutputStream.close()->FSNamesystem.completeFile()-

>commitOrCompleteLastBlock()

State of file in NN (Name Node) is INode, not

INodeUnderConstruction.

2) Abnormal close

The state is INodeUnderConstruction. The lease (write lock)

on the file is not released.

Lease recovery

Block recovery

Page 20: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Lease Recovery

When file is not normally closed, the last block’s 3

replicas may be in different states (size and generation

stamp (version of the block)).

The recovery procedure includes checking if the previous

lease holder renews the lease, and if the lease exceeds the

softLimit (exceeds the time limit); if so, calls

internalReleaseLease().

Page 21: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Block Recovery

Sent with DN’s heartbeat to NN.

Find the best state of all replicas, and recover the

remaining to this state.

State Ranking: Finalized > RBW > RWR > RUR > Temporary

When finishing recovery, continues executing (append,

write, etc.)

Page 22: Inside HDFS Append

http://dataera.wordpress.com http://linkedin.com/in/yuechen2

英文标题:32-35pt

颜色: R153 G0 B0

内部使用字体 :

FrutigerNext LT Medium

外部使用字体 : Arial

中文标题:30-32pt

颜色: R153 G0 B0

字体:黑体

英文正文:20-22pt

子目录 (2-5级) :18pt

颜色:黑色

内部使用字体 :

FrutigerNext LT Regular

外部使用字体 : Arial

中文正文:18-20pt

子目录(2-5级):18pt

颜色:黑色

字体:细黑体

配色参考方案:

建议同一页面

内不超过四种

颜色,以下是

13组配色方案,

同一页面内只

选择一组使用。

(仅供参考)

客户或者合作

伙伴的标志放

在右上角.

Reference

http://yanbohappy.sinaapp.com/?p=175

http://blog.csdn.net/chenpingbupt/article/details/7972589

http://hdfs-hadoop.blogspot.com/

http://blog.csdn.net/nexus/article/details/7321150