1
Andrew Putnam: Large-Scale Reconfigurable Computing in a Microsoft Datacenter, HotChips 2014 やわらかいハードウエアの可能性を探る 再構成可能デバイスを使いやすくする研究 再構成可能デバイスとしてFPGA(Field Programmable Gate Array)の利⽤が広まっていますが、実際に⼤きな回路を実装 しようとするとクロック分配にまつわる様々なタイミング制約 問題が⽣じ設計を難しくしてしまいます。そこでグローバルク ロックを使わない⾮同期式回路技術を組み合わせることで、⼤ 規模FPGAの設計を⽤意化する研究を進めています。 どんな研究︖ 何がわかる︖ 再構成可能デバイス、FPGAとは︖ 最近では何に使われる︖ 何が優れている︖ 問題点は︖ 解決のアプローチは︖︖ ⾮同期式回路とは︖ FPGAとその応⽤ 研究内容 w FPGAとは? “Directional and Single-Driver Wires in FPGA Interconnect” ICFPT2004, pp.41-48 から引用 Xilinx UG872 w FPGAの普及 n 大規模回路の実現(e.g. Vertex7:200万ロジックセル) n さまざまな用途に利用 l Microsoft Catapult プロジェクト w データセンタのサーバにFPGA § ノード間通信 § Deep Learning アクセラレータ w 何が優れている? n アクセラレータ l ソフトウェアのボトルネックをFPGA化することで大幅な 高速化 l CPU/GPUによる処理よりも電力効率が高いこともある n 専用LSI製造よりも安価,かつ,修正・更新がいつ でも可能 w 問題点は? n 大規模化における問題点 l クロック周りのタイミング制約が厳しくなる w クロックの分配や専用素子の使用が難しい w 再合成すると動かなくなることもある l 複数のクロックリージョンを導入する必要性増大 w GALS (Globally Asynchronous Locally Synchronous) w クロックリージョン間のインタフェースが面倒 w 解決のアプローチ n 小から中規模の多数の同期式コア・FPGA n まわりを再構成可能な非同期式回路で埋める SB SB SB SB SB SB SB SB SB Normal FPGA Normal FPGA Normal FPGA Normal FPGA CLB: Configurable Logic Block PSB: Pipeline Stage Block SB: Switch Box CLB PSB PSB CLB PSB PSB CLB PSB PSB CLB PSB PSB w 非同期式回路とは n 大域クロック信号を用いない n 非同期式パイプラインの例 transparent D-latch comb. circuit delay element reqin ackin stage N transparent D-latch transparent D-latch delay element delay element comb. circuit comb. circuit ackout reqout w CLBの構成 SBC_00 SBC_01 40 128 SBC_10 PSB_0_0_X CCB DPB0 DPB1 PSB_0_0_Y CLB0 ... ... ... ... ...... SBD_00 SBD_01 SBD_10 CCB DPB1 DPB0 w 粗粒度と細粒度の比較 粗粒度(提案手法) 細粒度(従来手法) 詳しくは,下記論文を参照のこと T.Yoneda, M.Imai: Coarse Grained Versus Fine Grained Architectures for Asynchronous Reconfigurable Devices, Proceedings of 2020 IEEE International Symposium on Asynchronous Circuits and Systems, pp.102-110, 2020. 配置配線のようす 2.85x 2.93x 3.38x 2.89x 3.25x データ転送速度の比較

やわらかいハードウェアの可能性を探 …やわらかいハードウェアの可能性を探る|Challenges to "soft" hardware Author 米田友洋|Tomohiro Yoneda

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: やわらかいハードウェアの可能性を探 …やわらかいハードウェアの可能性を探る|Challenges to "soft" hardware Author 米田友洋|Tomohiro Yoneda

Andrew Putnam: Large-Scale Reconfigurable Computing in a M icrosoft Datacenter, HotChips 2014

やわらかいハードウエアの可能性を探る再構成可能デバイスを使いやすくする研究

再構成可能デバイスとしてFPGA(Field Programmable GateArray)の利⽤が広まっていますが、実際に⼤きな回路を実装しようとするとクロック分配にまつわる様々なタイミング制約問題が⽣じ設計を難しくしてしまいます。そこでグローバルクロックを使わない⾮同期式回路技術を組み合わせることで、⼤規模FPGAの設計を⽤意化する研究を進めています。

どんな研究︖ 何がわかる︖再構成可能デバイス、FPGAとは︖最近では何に使われる︖何が優れている︖問題点は︖解決のアプローチは︖︖⾮同期式回路とは︖

FPGAとその応⽤ 研究内容w FPGAとは?

“Directional and Single-Driver W ires in FPGA Interconnect”ICFPT2004, pp.41-48 から引用 Xilinx UG872

w FPGAの普及n大規模回路の実現(e.g. Vertex7:200万ロジックセル)n さまざまな用途に利用

l Microsoft Catapult プロジェクトw データセンタのサーバにFPGA

§ ノード間通信

§ Deep Learning アクセラレータ

w何が優れている?n アクセラレータ

l ソフトウェアのボトルネックをFPGA化することで大幅な高速化

l CPU/GPUによる処理よりも電力効率が高いこともあるn専用LSI製造よりも安価,かつ,修正・更新がいつでも可能

w問題点は?n大規模化における問題点

l クロック周りのタイミング制約が厳しくなる

w クロックの分配や専用素子の使用が難しい

w再合成すると動かなくなることもある

l複数のクロックリージョンを導入する必要性増大

w GALS (Globally Asynchronous Locally Synchronous)w クロックリージョン間のインタフェースが面倒

w解決のアプローチn小から中規模の多数の同期式コア・FPGAn まわりを再構成可能な非同期式回路で埋める

SB

SB

SB

SB

SB

SB

SBSBSBNormalFPGA

NormalFPGA

NormalFPGA

NormalFPGA

CLB: Configurable Logic BlockPSB: Pipeline Stage BlockSB: Switch Box

CLB

PSB

PSB CLB

PSB

PSB

CLB

PSB

PSBCLB

PSB

PSB

w非同期式回路とはn大域クロック信号を用いない

n非同期式パイプラインの例

transparentD-latch

comb.circuit

delay elementreqin

ackin

stage N

transparentD-latch

transparentD-latch

delay element delay element

comb.circuit

comb.circuit

ackout

reqout

w CLBの構成

SBC_00

SBC_01

40

128 SBC_10

PSB_0_0_X

CCB DPB0 DPB1

PSB_0_0_Y

CLB0

...

...

...

...

......

SBD_00

SBD_01

SBD_10

CCB

DPB

1DPB

0

w粗粒度と細粒度の比較

粗粒度(提案手法)

細粒度(従来手法)

詳しくは,下記論文を参照のことT.Yoneda, M.Imai: Coarse Grained Versus Fine Grained Architectures for Asynchronous Reconfigurable Devices, Proceedings of 2020 IEEE International Symposium on Asynchronous Circuits and Systems, pp.102-110, 2020.

配置配線のようす

��

��

��

��

���

���

���

����������� ������� ����������� ������� ����������� ������� ����������� ������� ����������� �������

�� �������� �������� ������� �������

�� �������������� ������������� �������

2.85x

2.93x 3.38x 2.89x 3.25x���

���

データ転送速度の比較