超低電力アクセラレータ sld(silent large datapath) の実機評価hunga/reconfsld2.pdf ·...

6
THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. SLD(Silent Large Datapath) †† ††† †††† ††††† 223-8522 3-14-1 †† 113-8656 7-3-1 ††† 135-8548 3-7-5 †††† 184-8588 2-24-16 ††††† 182-8585 1-5-1 E-mail: [email protected] MuCCRA-3 20% 25% 15% Silent Large Datapath(SLD) SLD-1 SLD-1 2.1mm×4.2mm 65nmCMOS 24 PE 8×8 64 PE DVFS 1.356GOPS/11mW , 65nmCMOS, Real Chip evaluation of Silent Large Datapath : A Ultra Low Power Accelarator Nobuaki OZAKI , Yoshihiro YASUDA , Yoshiki SAITOU , Daisuke IKEBUCHI , Masayuki KIMURA , Hideharu AMANO , Hiroshi NAKAMURA †† , Kimiyoshi USAMI ††† , Mitaro NAMIKI †††† , and Masaaki KONDO ††††† Faculty of science and Technology, Keio University 3-14-1, Hiyoshi, Kohokuku, Yokohama, 223-8522,Japan †† Faculty of Engineering, University of Tokyo 7-3-1, Hongo, Bunkyo, Tokyo, 113-8656,Japan ††† Shibaura Institute of Technology 3-7-5, Toyosu, Koutou, Tokyo, 135-8548, Japan †††† Tokyo Univ. of Agriculture and Technology 2-24-16, Naka-cho, Koganei-shi, Tokyo, 184-8588, Japan ††††† The University of Electro-Communications 1-5-1, Chofugaoka, Chofu-shi, Tokyo, 182-8585, Japan E-mail: [email protected] Abstract Battery driven multi-media applications require both high performance and energy efficiency. Recon- figurable accelerators with a lot of processing elements are hopeful approach. SLD(Silent Large Datapath)-1 is a prototype media accelerator consisting of a large PE array which includes 24bit 8 × 8 PEs without registers and a small micro-controller for data memory access. It was fabricated in 2.1mm × 4.2mm 65 nm CMOS, and achieves 1.356GOPS/11mW sustained performance by reducing overhead of clock tree and the benefit of voltage scaling. Key words Reconfigurable System, Low Power Design, 65nmCMOS, Real Chip Evaluation —1—

Upload: others

Post on 18-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

社団法人 電子情報通信学会THE INSTITUTE OF ELECTRONICS,

INFORMATION AND COMMUNICATION ENGINEERS

信学技報TECHNICAL REPORT OF IEICE.

超低電力アクセラレータSLD(Silent Large Datapath)の実機評価

小崎 信明† 安田 好宏† 斉藤 貴樹† 池淵 大輔†

木村 優之† 天野 英晴† 中村 宏†† 宇佐美公良†††

並木美太郎†††† 近藤 正章†††††

† 慶應義塾大学理工学部 〒 223-8522 神奈川県横浜市港北区日吉 3-14-1

†† 東京大学工学部 〒 113-8656 東京都文京区本郷 7-3-1

††† 芝浦工業大学工学部 〒 135-8548 東京都江東区豊洲 3-7-5

†††† 東京農工大学 〒 184-8588 東京都小金井市中町 2-24-16

††††† 電気通信大学 〒 182-8585 東京都調布市調布が丘 1-5-1

E-mail: †[email protected]

あらまし 近年,モバイル機器の高機能化に伴い,高性能かつ低電力なアクセラレータに対する要求が高まっている.

これを達成するための手段の一つに動的リコンフィギャラブルプロセッサアレイが注目されている.我々は,その試

作としてMuCCRA-3を開発し,電力を分析した結果,消費電力のうち動的再構成に 20% から 25% を,クロックツ

リーによるスタンバイ電力に 15% 程度消費していることが分かった.我々はこれらの問題を解消すべく Silent Large

Datapath(SLD)という新たなアーキテクチャを考案し,その試作として SLD-1を開発した.SLD-1はチップサイズ

2.1mm×4.2mmで 65nmCMOSプロセスで製造され,レジスタを持たないデータ幅 24ビットの PEを 8×8の 64個も

つ組合せ回路で構成される PEアレイと,データアクセスを制御する小規模なコントローラを持つ.これに大域的ク

ロックゲーティングや DVFSを適応することで 1.356GOPS/11mWの電力性能を達成した.

キーワード リコンフィギャラブルシステム,低電力デザイン, 65nmCMOS, 実チップ評価

Real Chip evaluation of Silent Large Datapath :

A Ultra Low Power Accelarator

Nobuaki OZAKI†, Yoshihiro YASUDA†, Yoshiki SAITOU†, Daisuke IKEBUCHI†,

Masayuki KIMURA†, Hideharu AMANO†, Hiroshi NAKAMURA††, Kimiyoshi USAMI†††,

Mitaro NAMIKI††††, and Masaaki KONDO†††††

† Faculty of science and Technology, Keio University 3-14-1, Hiyoshi, Kohokuku, Yokohama, 223-8522, Japan

†† Faculty of Engineering, University of Tokyo 7-3-1, Hongo, Bunkyo, Tokyo, 113-8656, Japan

††† Shibaura Institute of Technology 3-7-5, Toyosu, Koutou, Tokyo, 135-8548, Japan

†††† Tokyo Univ. of Agriculture and Technology 2-24-16, Naka-cho, Koganei-shi, Tokyo, 184-8588, Japan

††††† The University of Electro-Communications 1-5-1, Chofugaoka, Chofu-shi, Tokyo, 182-8585, Japan

E-mail: †[email protected]

Abstract Battery driven multi-media applications require both high performance and energy efficiency. Recon-

figurable accelerators with a lot of processing elements are hopeful approach. SLD(Silent Large Datapath)-1 is a

prototype media accelerator consisting of a large PE array which includes 24bit 8 × 8 PEs without registers and a

small micro-controller for data memory access. It was fabricated in 2.1mm × 4.2mm 65 nm CMOS, and achieves

1.356GOPS/11mW sustained performance by reducing overhead of clock tree and the benefit of voltage scaling.

Key words Reconfigurable System, Low Power Design, 65nmCMOS, Real Chip Evaluation

— 1 —

Page 2: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

1. は じ め に

近年のモバイル機器の普及に伴い,組込みデバイスには性

能向上,低消費電力化,開発期間の短縮などがますます要求

されるようになっている.これらの要求を満足するために,専

用ハードウェアに代わるオフロードエンジンとして,動的リ

コンフィギャラブルプロセッサ (Dynamically Reconfigurable

Processor Array, DRPA)が注目されている.DRPAは,対象

アプリケーションを直接的な形で PE アレイ上にマッピング

可能であり,命令フェッチ等の余分な電力が少なく,低い動作

周波数で高い性能を得る事ができる事から,従来の DSP や

SIMD 型のアクセラレータの数倍のエネルギー効率を実現する.

すでに商用化もされており,その例として SONYの VME [1],

NECの STPエンジン [2],PanasonicのD-Fabrix [3]などが挙

げられる.我々も独自に動的再構成プロセッサMuCCRA-3 [4]

を開発し性能を測定した.その結果、従来の動的リコンフィギャ

ラブルプロセッサはデータパスの再構成やクロック分散に要す

る電力にまだ節約の余地があり,またコンテキスト毎に再構成

されるデータパスの最大遅延の違いもエネルギー効率の改善に

利用可能であることが判明した.

SLD(Silent Large Datapath)は,DRPAの消費電力をさら

に数倍改善するため,以下の概念を導入した.

• PE アレイを組合せ回路形成にし,他の部分は電源を分

離して制御可能とする.

アレイを組み合わせ回路にすることで,アレイから記憶素子を

排除し,アレイ内のレジスタへの格納のタイミングを気にする

ことなく電圧を下げることができる.また,演算時にアレイに

対してクロックを供給する必要がなくなる。PE アレイの動作

がマイクロコントローラ (図中 µ コントローラ)がデータの分

散,集約する時間よりも速ければ,その分電源電圧を下げて,

全体の電力を節約する.電圧は,搭載されるアプリケーション

が複雑で多くの PEを経由する場合高めに設定し,簡単で遅延

時間が少ない場合は低く設定する.

• 動的な再構成をしない.

PE アレイ上のデータパスを変更するには,大きな電力を必要と

する.そこで大きな PEアレイを設け,この上のデータパスを

固定し,変更の為の電力を節約する.しかし,データパスが固

定されれば柔軟性に乏しくなり,アプリケーション搭載の制約

が大きくなる.そこで,共有メモリに軽量で高速動作するマイ

クロコントローラを設け,このプログラムによって,入力デー

タの分散と,出力データの集約に柔軟性を持たせて,様々なア

ルゴリズムを搭載可能とする.マイクロコントローラは高速動

作するが,大きな電力を消費しない程度の簡単なものとする.

• クロックツリーは,マイクロコントローラ内部のみに設

ける.PE アレイの構成情報は,動的には変更しない為,実行

中はアレイへのクロックを基から遮断する.

• 対象のデータパスが搭載できない位大きければ,複数の

PE アレイのセットを使う.対象アルゴリズムが小さければ,利

用しない PE はパワーゲーティングによりスリープさせてリー

ク電力を節約する.

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_70

00

0

0

0

0

0

00

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

COL_0 COL_1 COL_2 COL_3 COL_4 COL_5 COL_6 COL_7

PE_ARRAY

DATA_ACCESS_CTRLCONST_CTRL CONF_CTRL

SLD_CTRL

DMEMSLD

17bit Constant Value Data25bit Data Channel

Passing Links

Feedback Lines

図 1 SLD-1 の PE Array と µ コントローラ

本報告では,SLDの最初のプロトタイプチップである SLD-1

の構成を紹介し、この上で様々なアプリケーションを実行した

時の評価結果を報告する.

2. アーキテクチャ

本章では SLDのアーキテクチャについて説明する.始めに

2. 1 節で SLD の概要について述べる.次に,2. 2 節で今回設

計した SLD-1 本体のアーキテクチャについて述べる.

2. 1 SLDの概要

SLD は,大規模な組合せ回路である PE アレイと,小規模

な µコントローラ,データメモリの 3つのモジュールで構成さ

れるアーキテクチャに対し,大域的クロック制御,電圧制御を

施すことで演算以外で消費される電力を最小限に押さえ込むこ

とを目的としている.図 1に示す通り,SLDは低電圧でも動作

する PE アレイ部分と通常電圧で動作するデータメモリとコン

トローラの部分に分けられる.

SLDでは,PEアレイを大規模な組合せ回路にし,マイクロ

コントローラでメモリとのやりとりに柔軟性を持たせることで,

アプリケーション全体を動作中再構成することなしにアレイ上

に実装することを可能にする.このことにより,PEアレイは

中間結果を記憶する必要がなくなり, 直接メモリに結果を格納

するだけで良い. 以上により SLDは再構成にかかる消費電力

を削減し,PEアレイから記憶素子を排除した.さらに,PEア

レイに対するクロックの供給の必要がなくなるので,チップの

面積の多くを占める PEアレイのクロックツリーを根元から遮

断し,大域的なクロックゲーティングを実現している.

大規模な PEアレイを用いる事で,並列性の大きなアプリケー

ションでは高い性能を発揮することが可能であり,アプリケー

ションが小規模で, 必要とされる時間よりも早く処理が終了す

— 2 —

Page 3: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

SE_B

SE_Ato/from East PEthrough Channel A

to/from East PEthrough Channel B

to West PEDirectory

to North West PEDirectory

to/from West PEthrough Channel A

to/from West PEthrough Channel B

to/from South PEthrough Channel A

from South PEthrough Channel B

from North PEthrough Channel B

to/from North PEthrough Channel A

ALU

Direct Linkto East PE

Direct Linkto North East PE

ALU_SEL_A ALU_SEL_B

PE

図 2 PE の構造

る場合, PEアレイ部全体の電圧を下げることにより,消費電圧

を削減することが可能である.

2. 2 SLD-1 のアーキテクチャ

SLDは,組みあわせ回路でのみ構成された大規模な PEアレ

イを,場合によっては電圧を下げて稼働させる.このような場

合,各部の信号遅延がグリッジを発生し,消費電力を増加させ

てしまう危険性が指摘されている [5].ペランドアイソレーショ

ンを各 PEで行い,結合網の構成情報を細かく制御することで

信号の伝搬を極力抑えることが期待されているが,この効果を

シミュレーションで評価するのは難しい.また,クロックツリー

の電力削減効果なども,実際のチップを稼働させて測定するの

がもっとも効果的である.このため,e-shuttle 65nm CMOS

プロセスを利用してプロトタイプ SLD-1を開発した.

2. 2. 1 PEアレイと PE間ネットワーク

SLD-1 はチップ面積の制約上,小型の 8 × 8 の PE による

アレイ構造を持つ.アレイは図 1 に示すように配置され,全

体として大きな組み合わせ回路となっている.アレイは横に連

なった 8つの列 (COL)の集まりとみなすことができ,この単位

で制御出来る.また、COL は縦に連なった 8つの PE の集ま

りである.PE 間を接続する結合網は,スイッチによるアイラ

ンドスタイルと隣接 PE 間を繋ぐ直結型の.ハイブリッド型に

よって構成される.アイランドスタイルによる縦横の接続は双

方向であり,直結型の接続は,東北方向と東方向の PEにつな

がっている.基本的にデータは PEアレイ内で,フィードバッ

クループが発生しないよう,Southから Northの一方向へ流れ

る.例外として PEアレイでの演算結果を DMEMに格納する

時,Northから Southへ向かうチャネル (フィードバックライ

ン)を通して,PEアレイから SLDコントローラ内の DMEM

アクセスコントローラに転送される.各 SEにおいて,North,

East,Westに転送する為のチャネルの数はCh.A及びCh.B

の 2つが用意されているが,フィードバックラインは,1チャ

ネルのみ用意されている.フィードバックラインからのデータ

は演算に用いたりする事はできない.

他にも PEの有効性を高めるため,パッシングリンクを設け

てある.パッシングリンクは最西側に位置するフィードバック

ラインの使用率を高めるための配線資源であり,図 1 の通り,

表 1 µ コントローラの命令セットNOPBEQZ 相対分岐BNEZ 相対分岐MV 値のコピーADD レジスタ同士の加算LDLI 下位ビットにロードLDHI 上位ビットにロードADDI 即値を加算LDSQ 順番にロード

LD ADD ロード後に番地を加算LD ADDI ロード後に番地を加算SCATTER PE アレイにデータ転送GATHER PE アレイからデータ回収

DONE アプリ終了

COL 4から COL 0 へ,COL 5 から COL 1 へ,以下同様に,

各 COLの最上部に位置する PEが一方通行にデータ転送でき

るようになっている.

2. 2. 2 PE モジュール

PEは.24bit幅のデータを扱い,演算を行う為のALU,ALU

の演算対象データを選択するALU SEL,SEの 3つのモジュー

ルから構成され,図 2に示すように接続されている.各モジュー

ルについては,以下の節で説明していく.構成情報は,SLDコ

ントローラ内の構成情報コントローラが管理し,アプリケー

ション実行前に外部よりセットされ,実行中は基本的には変更

されない.

2. 2. 3 ALU

ALUは 2入力 1出力で,加算,減算,乗算のほかにシフト

などの論理演算などの,16命令を持っている.

2. 2. 4 オペランドアイソレーション

ALUには複数の演算器が用意されているが,各演算器の入

力ポートにはオペランドアイソレーションが施されている.但

し,加算や減算等,同一回路で異なる演算が行われる場合はア

イソレーションされていない.

2. 2. 5 Direct Link

Direct Linkは ALUの出力結果をスイッチを介さずに他の

PEに入力するネットワークで,SLD-1では North East 及び

East側の PEへ転送できるようになっている.

2. 3 SLDのコントローラ

SLDコントローラは,定数値コントローラ,構成情報コント

ローラ,DMEMアクセスコントローラより構成される.

2. 3. 1 定数値コントローラ

PEアレイに供給される定数を集中管理するモジュール.16

ビット 16エントリのレジスタファイルを所持する.16ビットの

全定数は,図 1に示す通り,PEアレイの South,East,West

へ接続される.

2. 3. 2 構成情報コントローラと RoMultiC

構成情報コントローラは 64 個の PE の構成情報を集中管理

するモジュールである.外部から供給される構成情報を保持す

る為に,16 ビット幅 64 エントリのレジスタファイル及び 23

ビット幅 64エントリのレジスタファイルを持つ.

SLD-1では,RoMultiCを採用している.図 3のように,PE

アレイの各行及び列に 1ビットのフラグを用意する.このフラ

— 3 —

Page 4: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

PE_0

PE_1

PE_2

PE_3

PE_4

PE_5

PE_6

PE_7

COL_0 COL_1 COL_2 COL_3 COL_4 COL_5 COL_6 COL_7

0 0 0 0 0

0

0

0

0

0

0

RoMultiC Bits for ColumnRoMultiC Bits for Row

11 1

1

1

PE_ARRAY

IJKLMNOP

A

B

C

D

E

F

G

H

015 78A~H I~J

(Lower Bits)

(Low

er B

its)

図 3 RoMultiC による構成情報の配送と,対応ビット

グを RoMultiCビットと呼ぶ.任意の PEにおいて,もしその

PE の行及び列の両方の RoMultiC ビットが “1” だった場合,

その PEは外部からの構成情報を取得する.例えば,図 3にお

いて,COL 1,COL 2,COL 4の PE 0と PE 3のRoMultiC

ビットは,行と列の両方が “1”となっている為,6つの PEは

同時に同じ構成情報を取得する事ができる.これにより,同じ

構成情報を要求する複数の PEに対してのマルチキャストが可

能となり,SLDの構成情報の転送時間の短縮,構成情報データ

サイズの縮小,エネルギー効率を改善している.RoMultiCの

各ビットは図 3に示すように対等している.

2. 3. 3 DMEMアクセスコントローラ

DMEM アクアセスコントローラは,DMEM の適切なアド

レスにあるデータを PEアレイに転送し,また PEアレイから

の演算結果を DMEM に格納する.内部には µCTRL を所持

し,外部より与えられた簡単なプログラムによって,制御を行

う.表 reftable::iset に命令セットを示す.

2. 3. 4 クロックゲーティングを目的としたコントローラ内

部の階層構造

SLDコントローラは,上記 3 つのコントローラから制御さ

れるが,定数や構成情報はアプリケーション実行中は変更され

ない.故に,これらのコントローラに入るクロックによって消

費される電力は無駄となる.故に外部からの書き込みがない場

合は,クロックツリーの根から,クロックゲーティングを施す

事が可能となる.しかしながら,実際に配置配線を行うと,定

数や構成情報を保持するレジスタは,分散される事が予想され,

ツリーの根を特定する事は困難となる.

故に,定数値コントローラと構成情報コントローラは 1つの

モジュールとしてまとめ,配置配線時はマクロ化し,クロック

の入り口に外部からのWrite Enable 線との ANDをとるよう

にする.

図 4 SLD-1 のチップ写真表 2 SLD-1 の各要素の面積

名称 面積 [µ2m] 個数 総面積 [µ2m]PE 14426.28 64 1004848.2DMEMアクセスコントローラ 48557.8 1 48557.8構成及び定数コントローラ 39116 1 39116

2. 4 データメモリ

データメモリは 12KByte の容量をもつ.DMEM は 2 つの

バンクより構成され,各バンクは,25ビット ×1024 エントリ

の記憶素子となっている.

2 つのバンクのうち,一方は PE アレイと接続されており,

もう一方は外部と接続される.

これにより,SLD-1がアプリケーションを実行している間,

外部と接続された方のバンクのデータの入出力が可能であり,

データ転送時間の隠蔽ができる構造になっている.

3. SLD-1の実装

SLD-1 は,Fujitsu e-shuttle 65nm 12 層 CMOS プロセス

の半区画 (4.2mm × 2.1mm) に実装された.ライブラリは

CS202SZを利用し,動作合成には Synopsys社の Design Com-

piler 2007.12-SP3 を,配置配線には同社の Astro 2007.03-SP3

を利用した.今回は,PE アレイ部に関してはパワーゲーティ

ングを施していない.これは,MuCCRA-3 の実装結果と事前

のシミュレーションによる見積りから漏れ電流が 1mW から

2mW 程度で十分小さい事,パワーゲーティングを行った場合,

PE アレイの面積が増大し,レイアウトが困難になる事が分かっ

た為である.代わりに乗算部のみをパワーゲーティングしたテ

スト用の回路を搭載した.

実チップの写真を図 4 に示す.また,各部の面積を表 2 に

示す.チップ全体の面積のうち PE アレイが約 60 %を占め,

DMEM アクセスコントローラ,構成情報コントローラ及び定

数コントローラは PE アレイの 9% 程度である.PE アレイ部

のみの電圧を下げる為,I/O フィラーのうち 4 ヶ所にデバイダ

を利用して,電源ドメインを分割している.また、PEアレイ

部からコントローラに結果を返す信号線についてのみレベルシ

フタを挿入し,アレイ部の電圧を低くした際に,この信号を受

信する部分の貫通電流が増えないようにしてある.

— 4 —

Page 5: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

図 5 評価ボード

図 6 評 価 環 境

4. 環 境

この章では SLD-1のアプリケーションの実装に用いた環境

と,実機評価に用いた環境を紹介する.アプリケーションの実

装には独自に開発したグラフィカルなリターゲッタブルコン

パイラである Black Diamondコンパイラ [6]を用いた.Black

Diamondコンパイラ は C ライクな言語で記述されたコードを

読込みアプリケーションの構成情報を生成する.コンパイルに

成功すると図 7 のようなWindow が現れ,どの演算がどこに

マッピングされたかをグラフィックで確認することができる.ま

た,マッピングが気に入らない場合は別の配置方法でマッピン

グされた構成情報も生成できるようになっている.ただし,こ

の Black Diamondコンパイラはまだ開発が完全ではなく,大

規模なアプリケーションになると自動ではマッピング出来なく

なるので手動でのチューニングが必要となる.

SLD-1の実機評価には独自に開発した評価用ボード上で行っ

た.評価ボードは制御用の Xillinx FPGA Virtex4 や周辺機器

の載ったマザーボードと SLD-1チップが搭載されたドータボー

ドに分けられる.Agilent Technologies DC Power Analizerと

Puls Pattern Generator を図 6のようにボードと接続しクロッ

クと電圧を供給した.実行結果はロジックアナライザを用いて

測定した.

図 7 Black Diamond

図 8 電力内訳と性能

5. 評 価

5. 1 評 価 環 境

評価には α ブレンダ,セピアフィルタ,離散コサイン変換,

グレイスケールフィルタ,エッジ検出フィルタ,H264 のコア関

数である差分絶対和,差分2乗和,差分アダマール変換和など

のアプリケーションを用いた.

各アプリケーションでの性能は,アレイへの供給電圧を変化

させながらその時の µ コントローラの最大動作周波数を計測

し,アレイとコントローラに流れる電流を計測することで計測

した.また,どのアプリケーションでもアレイへの供給電圧を

1.2Vから 0.5Vまで下げても動作することが確認できた.

アレイへの供給電圧を下げることで µコントローラでの貫通

電流が増加することが考えられたが,レベルシフタを用いてい

るのでこの問題は起こらなかった.

セピアフィルタと αブレンダを同時に実行したときの電力内

訳と性能を示したグラフを図 8に示す.

このグラフは横軸がアレイへの供給電圧,右側の縦軸が線グ

ラフの縦軸にあたり性能を示しており,左側の縦軸が棒グラフ

の縦軸であり消費電力を示している.

まず性能から説明する.性能はアレイへの供給電圧が 0.5V

から 0.9V の範囲では最大動作周波数が計測できている.その

— 5 —

Page 6: 超低電力アクセラレータ SLD(Silent Large Datapath) の実機評価hunga/reconfSLD2.pdf · yyyyy 電気通信大学〒182-8585 東京都調布市調布が丘1-5-1 E-mail:

図 9 様々なアプリケーションを実行したときの電力性能

ため供給電圧に比例して動作周波数が変化しているため一様の

変化が見て取れる.この最大動作周波数はアレイ上にどのよう

に演算がマッピングされるかに比例し,もともとの演算の複雑

さだけでなくコンパイラのマッピングアルゴリズムの影響も大

きく受ける.

アレイへの供給電圧が 0.9Vから 1.2Vの範囲では,測定器の

限界で 210MHz以上の周波数を供給できず,最大動作周波数は

計測できていない.なのでこの範囲では常に µコントローラへ

210MHzの周波数を供給し,アレイへの電圧のみを変化させた

ときの数値である.

次に電力の内訳について説明する.アレイで動的に消費され

る電力は 1.2V で動作させたとき,各アプリケーションで平均

をとる約 8mW であり,さほど大きくないことが確認できた.

アレイで動的に消費される電力はさらに供給電圧や動作周波数

を下げることで大きく削減させることが出来る.また,アレイ

のリーク電力は 1.2V 供給時に 1.25mW から 0.45V 供給時に

0.2mW とシミュレーションで予想される通り小さく,今のア

レイの規模では PEアレイに細粒度パワーゲティングを施す必

要もないぐらいに小さいことが確認できた.

µコントローラで動的に消費される電力は 1.2Vで動作させ

たとき,各アプリケーションで平均をとると約 10.5mWであっ

た.これは動作周波数を下げることで徐々に削減することは出

来るが,アレイで消費される電力のおよそ 1.3 倍であり,コン

トローラで消費される電力の削減が必要であることがわかる.

実装したすべてのアプリケーションの電力性能をまとめたも

のを図 9 に示す.

このグラフも横軸がアレイへの供給電圧で,縦軸が消費電力

あたりの性能を示している.

データ幅 24-bit の α ブレンダを実行したときに,最大

で 1.36GOPS / 11.3mW の電力性能を達成した.他のデバ

イスとの最大性能を比較すると,F.Clermidy らの研究 [7]

によると 64MOPS/mW,Y.Tuyama らの研究 [8] によると

52MOPS/mW であった.これらと比較し,我々の SLDでは

およそ 2倍の 120MOPS/mW の性能を達成している.これは

SLDが組込みシステムのアクセラレータの次世代アーキテク

チャとしての有用性を示しているといえる.

6. 結 論

本稿では動的再構成プロセッサの問題点であった,動的再構

成にかかる消費電力と,スタンバイ時でも消費してしまうク

ロックツリーでの消費電力に着目した,次世代の組込みシステ

ム向け低消費電力アクセラレータとして,SLDというアーキ

テクチャを紹介し,その試作である SLD-1の性能を報告した.

アレイへの供給電圧が 0.85V で 24 ビット幅の α ブレンダを

190MHzの動作周波数で実行したときに 1.365GOPS / 11mW

の電力性能を達成した.我々が開発した動的再構成プロセッサ

である MuCCRA-3 と SLD-1を比較するとアーキテクチャの

改善により 3倍から 5倍の電力性能をだすことに成功した.

今回の評価で判明した SLD-1の課題である µコントローラ

での消費電力を削減し,さらにコントローラとアレイサイズの

バランスを検討することで更なる電力性能の改善を行い面積当

たりの性能の向上に勤めるとともに,また PEアレイのネット

ワークを改善し搭載可能なアプリケーションを増やし,アプリ

ケーション実装で用いた Black Diamondコンパイラの改善な

ど,実用化に向けた検討もしていきたい.

謝 辞

本研究は, 科学技術振興機構「JST」の戦略的創造研究推進

事業「CREST」における研究領域「情報システムの超低消費

電力化を目指した技術革新と統合化技術」の研究課題「革新的

電源制御による次世代超低電力高性能システム LSI の研究」に

よる.

また,本チップ試作は東京大学大規模集積システム設計教育

研究センターを通し,株式会社半導体理工学研究センター, (株)

イー・シャトルおよび富士通株式会社の協力で行われたもので

ある.

文 献

[1] Y.Kurose, and et.al.: “A 90nm embedded DRAM single

chip LSI with a 3D graphics, H.264 c odec engine, and a

reconfigurable processor”, Hot Chips 16 (2004).

[2] M. Motomura: “STP Engine, a C-based Programmable

HW Core featuring Massively Parallel and Reconfigurable

PE Array:its Architecture, Tool, and System Implications”,

Prof. of CoolChips XII. (2009).

[3] Panasonic ideas for life: “Panasonic D-Fabrix”, www.panasonic-

europe.com (July 2008).

[4] Y.Saito, et. al.: “Leakage Power Reduction for Coarse

Grain Dynamically Reconfigura ble Processor Arrays With

Fine-Grained Power Gating Technique”, International Con-

ference on Field Programmable Technology, pp. 329–332

(2008).

[5] L.Cheng, et.al: “Glitch Map: An FPGA Technology Map-

per for Low Power Considering Glitches”, Proc. of DAC

2007, pp. 318–323 (2007).

[6] V. Tunbunheng and H. Amano: “Black-Diamond: a Retar-

getable Compiler Using Graph with Configuration Bits for

Dynamically Reconfigurable Architectures”, Proc. of The

14th SASIMI, pp. 412–419 (2007).

[7] e. F.Clermidy: “A 477mw noc-based digital baseband for

mimo 4g sdr”, ISSCC Dig. Tech. Papers, pp. 278–279

(2010).

[8] e. Y.Tuyama: “A 45nm 37.3gops/w heterogeneous multi-

core soc,”, ISSCC Dig. Tech. Papers, pp. 100–101 (2010).

— 6 —