20
Network Performance of Multifunction On-chip Router Architectures 高前田(山崎) 伸也 †‡ ,藤枝 直輝 ,吉瀬 謙二 東京工業大学 大学院情報理工学研究科 日本学術振興会 特別研究員 (DC1) 2012年11月27日 CPSY研究会(デザインガイア)@福岡

Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

Embed Size (px)

DESCRIPTION

2012-11-27 IEICE CPSY @Fukuoka

Citation preview

Page 1: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

Network Performance of Multifunction On-chip Router Architectures

高前田(山崎) 伸也†‡,藤枝 直輝†,吉瀬 謙二† †東京工業大学 大学院情報理工学研究科

‡日本学術振興会 特別研究員 (DC1)

2012年11月27日 CPSY研究会(デザインガイア)@福岡

Page 2: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

マルチコアからメニーコアへ

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 2

Intel Corei7 3770K (4-core, x86)

ARM Cortex-A15 (4-core, ARM)

TILERA TILE-Gx100

(100-core, MIPS) Intel Xeon Phi (54-core, x86)

現在の主流: 1チップに2コア~8コア (マルチコア)

将来: 1チップに多数(16~)のコア (メニーコア)

Page 3: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

ネットワーク・オン・チップ (NoC)

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 3

メニーコアで高性能・低消費電力化を達成するには 低レイテンシ・高スループットな要素間の接続が必要

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

Network on Chip (NoC) PE 計算コア R オンチップルータ

オンチップルータがPE間の パケット(データの塊)を宛先へ 順々に転送 ü  通信の衝突の軽減 →低レイテンシ →高スループット

ü  高いスケーラビリティ →多くのコアを接続して高性能

Page 4: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

メニーコアへの課題:信頼性

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 4

トランジスタの微細化により より多くのトランジスタが集積される 信頼性への懸念 ü  ソフトエラーへの耐性の低下 宇宙線がトランジスタに当たり 値が変化(ビット反転)

ü  タイミングエラーへの耐性の低下 トランジスタのばらつきの増加による 信号伝搬のタイミング違反

高い信頼性を実現する技術が必要

Page 5: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

SmartCoreシステム: NoCベースの二重実行手法

Nov 27 2012 Normal Communication (VC0) Merge Communication (VC1) Copy Communication (VC2)

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

Master A

Slave A

Slave B

R

PE

R

PE

R

PE

Master B

待ち合わせ 比較

複製

2つのコアのペア(Master/Slave)が同じスレッドを実行 Slaveが出力するパケット列は Master側のルータへ転送 出力されるパケット列を 高機能ルータで待ち合わせ, 比較し,エラーを検出 エラーを検出したら再実行 Masterへのパケットは Slaveへと複製される ペアは同一のパケット列を 受信して実行を継続

Shinya Takamaeda-Y. Tokyo Tech 5

高機能ルータの支援によりプログラムの実行を二重化 (DMR)

Page 6: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

SmartCoreシステムのメリット n チップ中の任意のコアで冗長実行のペアを形成

l  Nonstop[DSN’05]などのLockstep系ではペアの配置に制限

n コア数に対してスケーラブル l  Configurable Isolation[ISCA’07]ではバスをぶった切る

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 6

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

R

PE

Master A

Slave A

Slave B

R

PE

R

PE

R

PE

Master B

待ち合わせ 比較

複製

Configurable Isolation SmartCore System

Page 7: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

本発表の目標

n 高機能ルータにどのようなマイクロアーキテクチャを 採用すれば良いのだろうか? l パケット待ち合わせ・比較のオーバーヘッドは小さくしたい l 回路面積の増加も小さく抑えたい l 高機能ルータの機能要件

ü パケットの待ち合わせ ü パケットの比較 ü パケットのコピー

n 本発表では2つのマイクロアーキテクチャを比較・評価 l  (a) Minimal Multifunction Router l  (b) Advanced Multifunction Router

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 7

Page 8: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

(a) Minimal Multifunction Router

Nov 27 2012

XBAR

Arbiter

N

E

S

W

PE

N

E

S

W

PE ID ID ID

ID

CMP Error? Compare Buffer

ID Translator

Comparator

Node Type Pair ID VC0 VC1 VC2 VC0 VC1 VC2 VC0 VC1 VC2 VC0 VC1 VC2

VC0 VC1 VC2

(Copy Buffer)

Shinya Takamaeda-Y. Tokyo Tech 8

Page 9: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

(b) Advanced Multifunction Router

Nov 27 2012

XBAR

Arbiter

N

E

S

W

PE

N

E

S

W

PE ID ID ID

ID

CMP Error? Compare Buffer

ID Translator Comparator

Node Type Pair ID

Copy Buffer

VC0 VC1 VC2

Shinya Takamaeda-Y. Tokyo Tech 9

Page 10: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

共通する特徴

n いくつかの追加ハードウェア l  ID translator

•  パケットの宛先を変更する:宛先ビットベクターを書き換え l  Compare buffer

•  Slaveからのパケットと比較用にMaster PEからのパケットを保存 l  Comparator

•  2つのフリットの内容を比較

n  Copy bufferによるパケットのコピー l Masterへ届いたパケットはそのSlaveへもコピー l 実際のCopy bufferのインスタンスの形は マイクロアーキテクチャに依存

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 10

Page 11: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

Advanced Routerの差異

n 独立したCopy Buffer l Minimal Routerでは入力チャネル・バッファを共有 l 入力ラインの競合は少ない

n 拡張したクロスバー l Minimal: 5-入力/出力の一般的なクロスバー l  Advanced: 6-入力/5-出力の拡張されたクロスバー

n マルチプレクサの追加 l 各入力をCompare bufferに接続するためのマルチプレクサ l クロスバーの競合は少ないので性能面では

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 11

Page 12: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

評価 n 項目

l レイテンシ-スループット l 面積

n セットアップ

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 12

To avoid deadlocks, Compare Buffer Size >= Packet Length

Page 13: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

評価の構成 n  4つの構成

l  (1) 5-port (Minimal Router), No DMR l  (2) 5-port, DMR l  (3) 6-port (Advanced Router), No DMR l  (4) 6-port, DMR l 注意: 構成1と構成3のグラフは同じ

•  ベースのルータが同じであるため

n ベンチマーク: 4つのトラフィックパターン l  Uniform: ランダム通信 l  Complement: l  Tornado: l  Neighbor: X軸で右隣の人に通信

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 13

Page 14: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

Master/Slaveの配置

Nov 27 2012

M (1,1)

M (1,2)

M (1,3)

M (1,4)

M (1,5)

M (1,6)

M (1,7)

M (1,8)

M (2,1)

M (2,2)

M (2,3)

M (2,4)

M (2,5)

M (2,6)

M (2,7)

M (2,8)

M (3,1)

M (3,2)

M (3,3)

M (3,4)

M (3,5)

M (3,6)

M (3,7)

M (3,8)

M (4,1)

M (4,2)

M (4,3)

M (4,4)

M (4,5)

M (4,6)

M (4,7)

M (4,8)

S (1,1)

S (1,2)

S (1,3)

S (1,4)

S (1,5)

S (1,6)

S (1,7)

S (1,8)

S (2,1)

S (2,2)

S (2,3)

S (2,4)

S (2,5)

S (2,6)

S (2,7)

S (2,8)

S (3,1)

S (3,2)

S (3,3)

S (3,4)

S (3,5)

S (3,6)

S (3,7)

S (3,8)

S (4,1)

S (4,2)

S (4,3)

S (4,4)

S (4,5)

S (4,6)

S (4,7)

S (4,8)

M (1,1)

M (2,1)

M (3,1)

M (4,1)

M (1,2)

M (2,2)

M (3,2)

M (4,2)

M (1,3)

M (2,3)

M (3,3)

M (4,3)

M (1,4)

M (2,4)

M (3,4)

M (4,4)

M (1,5)

M (2,5)

M (3,5)

M (4,5)

M (1,6)

M (2,6)

M (3,6)

M (4,6)

M (1,7)

M (2,7)

M (3,7)

M (4,7)

M (1,8)

M (2,8)

M (3,8)

M (4,8)

S (1,1)

S (2,1)

S (3,1)

S (4,1)

S (1,2)

S (2,2)

S (3,2)

S (4,2)

S (1,3)

S (2,3)

S (3,3)

S (4,3)

S (1,4)

S (2,4)

S (3,4)

S (4,4)

S (1,5)

S (2,5)

S (3,5)

S (4,5)

S (1,6)

S (2,6)

S (3,6)

S (4,6)

S (1,7)

S (2,7)

S (3,7)

S (4,7)

S (1,8)

S (2,8)

S (3,8)

S (4,8)

(a) Interleave (b) Block

M (x,y)

Master Node S (x,y)

Slave Node

Shinya Takamaeda-Y. Tokyo Tech 14

Page 15: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

レイテンシ-スループット (Interleave)

Nov 27 2012

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

Uniform Complement

Tornado Neighbor

Shinya Takamaeda-Y. Tokyo Tech 15

Page 16: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

レイテンシ-スループット (Block)

Nov 27 2012

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

0

20

40

60

80

100

120

140

160

180

200

0 0.05 0.1 0.15 0.2 0.25 0.3

Late

ncy

[cyc

le]�

Injection Rate [flit/node/cycle]�

No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)

Uniform Complement

Tornado Neighbor

Shinya Takamaeda-Y. Tokyo Tech 16

Page 17: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

レイテンシ (Injection Rate=0.02)

Nov 27 2012

0

0.2

0.4

0.6

0.8

1

1.2

1.4

Unifor

m

Comple

ment

Torn

ado

Neighb

or

Unifor

m

Comple

ment

Torn

ado

Neighb

or

Geometr

ic Mea

n

Late

ncy

Ove

rhea

d ((D

MR

-NoD

MR

)/NoD

MR

)�

5-port

6-port

Interleave� Block�

38.2% 25.8%

12.4%

Shinya Takamaeda-Y. Tokyo Tech 17

Page 18: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

面積 n デザインツール: Xilinx ISE 14.2 n ターゲットデバイス: Xilinx Virtex-6 XC6VLX240T

Nov 27 2012

0

500

1000

1500

2000

2500

3000

Slice Slice Reg LUT LUT RAM

# en

trie

s�

5-port

6-port

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Slice Slice Reg LUT LUT RAM

Are

a O

verh

ead

((6-p

ort-5

port

)/5-p

ort)�

Advanced Router (6-port)は 62.9%大きなハードウェアを必要とする

Shinya Takamaeda-Y. Tokyo Tech 18

Page 19: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

議論

n  AdvancedがMinimalに対して62.9%のハードウェア量が増加する理由? l クロスバーの拡張

•  おおよそ20%大きな面積 •  加えてより複雑な仮想チャネルアロケータとスイッチアロケータ

l 追加のマルチプレクサ •  入力ポートから比較器までを接続

l 独立したCopy buffer •  入力ポートの競合は減るけど・・・

n これって12.4%のレイテンシ削減にペイしている? l  No.

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 19

Page 20: Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

まとめ

n  2つの高機能ルータマイクロアーキテクチャを比較 l Minimal Router: 5-入力/出力のクロスバー l  Advanced Router: 6-入力/5-出力クロスバー

n  Advanced Routerで12.4%のレイテンシ削減を達成可能

n しかし62.9%より大きなハードウェアが必要となる l これって12.4%のレイテンシ削減にペイしていないですね・・・ l 複数の選択肢があるのは良いこと!

Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 20