FPGA ハードウェアソーティング...

ハードウェアソーティングアルゴリズムのFPGA実装

広島大学松本直之

FPGAとは

• FPGA：Field Programmable Gate Array

• ユーザが任意に回路を書き換えることのできるLSI

RAM CLB

CLB CLB

RAM CLB

CLB CLB

RAM CLB CLB CLB

I/OI/OI/OI/OI/O

I/OI/O

FPGAの構成図

ユーザが書き換え可能な論理ブロック小規模な組み合わせ回路や順序回路を構成

CLB (Configurable Logic Block)

ブロックRAM

CLBのメモリ能力を補う専用回路

これらの素子を接続することで任意の回路を実現

研究概要

• 2種類のソーティングアルゴリズムをFPGAに実装

バイトニックソート

• ソーティングネットワークに基づいた回路

• 任意のデータ幅のデータをソート可能

マージソート• FIFOを用いた回路

• 最大で524288要素のデータをソート可能

ソーティングネットワークとは• 入力データをソートして出力するネットワーク

• 複数のコンパレータから構成

2つの値を入力し、小さい値を一方に、大きい値を他方に出力（比較交換）

ソーティングネットワークの例

maxmin

𝑎 𝑏

4 3 7 1

入力

出力

入力

出力

コンパレータ

バイトニックソートのソーティングネットワーク

• 要素数8の場合

maxmin

𝑎 𝑏

minmax

𝑎 𝑏

昇順に比較交換を行うコンパレータ

降順に比較交換を行うコンパレータ

7 3 8 4 1 5 2 6

1 2 3 4 5 6 7 8

K.E.Batcher. Sorting networks and their applications. AFIPS Spring Joint Computer

Conference, pp307-314, 1968

ソーティングネットワークの段数

7 3 8 4 1 5 2 6

1 2 3 4 5 6 7 8

要素数𝑛のバイトニックソートのソーティングネットワークの段数は

log𝑛 log 𝑛 + 1

2= 𝑂 log2 𝑛

要素数8の場合、段数は6

バイトニックソート回路

• ビットシリアルを用いた回路を設計

100001011111

00011101011101001100

ビットシリアル

データを上位ビットから1ビットずつ入力

最上位ビットから順にソーティングネットワークに入力する

ソートされたデータが最上位ビットから順に出力される

1ビットずつ入力するため、任意のデータ幅のソートを行うことができる

データ列1

データ列2

ビットシリアルを用いたコンパレータの動作

• 最上位ビットから順に入力し、比較を行う異なるビットが入力されると、その時点で大小が確定する

𝑎 𝑏

maxmin

101010 100111入力された2つのビットを比較

同じビットであれば、交換せず出力

異なるビットであれば、1をmaxに、0をminに出力この時点で2つのデータの大小が確定

以降のビットは比較せず、決められた通りに出力

ビットシリアルを用いたコンパレータの動作

• コンパレータの動作を3つに分けるステートマシンを用いて制御

初期状態は𝑎 = 𝑏

異なるビットが入力されると状態を遷移

比較交換

maxmin

𝑎 𝑏

maxmin

𝑎 𝑏

maxmin

𝑎 𝑏

𝑎 > 𝑏 𝑎 < 𝑏𝑎 = 𝑏

𝑎 = 1,𝑏 = 0

𝑎 = 0,𝑏 = 1

各状態でのコンパレータの動作

状態𝑎 = 𝑏• 比較交換を行う

状態𝑎 > 𝑏• 交換を行う

状態𝑎 < 𝑏• 交換を行わない

コンパレータのステートマシン

reset = 0reset = 0

バイトニックソート回路の構成

maxmin

𝑏𝑎

maxmin

𝑏𝑎

maxmin

𝑏𝑎

maxmin

𝑏𝑎

minmax

𝑏𝑎

maxmin

𝑏𝑎

• ビットシリアルを用いたコンパレータでソーティングネットワークを構成

実装結果• ターゲットFPGA：Xilinx Virtex-7 XC7VX485T

• ソート可能な最大要素数：1024

• 動作周波数：1030.822[MHz]

• 処理時間(32ビット)：84.40 [ns]

• CPU：Intel Xeon X7460 2.66GHz

• C言語の標準関数qsort()と比較

• 要素数：1024

• データ幅：32ビット

リソース使用数

Slice Registers 140863 (23%)

Slice LUTs 141570 (46%)

CPUとの比較

実行回数処理時間[μs]

高速化率CPU FPGA

1 97 0.084 1154.762

10 966 0.364 2653.846

100 9657 3.158 3057.948

1000 96574 31.097 3105.573

10000 965743 310.485 3110.434

パイプライン化により、実行回数が多くなると高速化率が上がる

研究概要

• 2種類のソーティングアルゴリズムをFPGAに実装

バイトニックソート

• ソーティングネットワークに基づいた回路

• 任意のデータ幅のデータをソート可能

マージソート• FIFOを用いた回路

• 最大で524288要素のデータをソート可能

マージソート

• 2つのソート済みのデータ列をマージして、1つのソート済みデータ列を作る動作を繰り返しソートを行う

65418732

• 2つのソート済みデータ列の先頭要素を比較し小さい方から順に取り出す

マージ操作

7 8 1 43 2 5 6

3 7 2 8 1 5 4 6

2 3 7 8 1 4 5 6

1 2 3 4 5 6 7 8

マージ

マージソート回路

比較選択回路

・・・

FIFO(深さn/2+1)

比較選択回路

• 小さい要素数からマージを行い、大きなソート済み列を作る

• データはパイプライン的に処理される

S.Todd. Algorithm and hardware for a merge sort using multiple processors. IBM Journal of

Research and Development, pp509-517, 1978

要素数nのソート済み列にマージ

要素数8のソート済み列にマージ

マージの実装

• 2つのFIFOと比較選択回路から構成

FIFO(First-In First-Out)

• 先に入れたデータが先に取り出されるデータ構造

比較選択回路

• 2つの入力のうち小さい方を出力

比較選択回路

ソート済みデータ列(長さn/2)

ソート済みデータ列(長さn)

FIFO内の先頭のデータが比較選択回路に入力される

小さい方のデータをFIFOから取り出す

比較選択回路

マージの動作

• n/2要素のソート済みデータを逐次的に入力する

• n要素のソート済みデータが逐次的に出力される

3111416

791012

実装結果要素数

Slice Register Slice LUT Block RAM 動作周波数

[MHz]使用数 % 使用数 % 使用数 %

2 136 0 351 0 0 0 414.834

4 220 0 679 0 0 0 370.739

8 325 0 1040 0 0 0 372.731

16 423 0 1471 0 0 0 366.447

32 524 0 1391 0 0 0 326.813

64 643 0 1769 0 0 0 326.179

128 770 0 2249 0 0 0 324.160

256 908 0 2976 0 0 0 314.891

512 1122 0 3450 1 2 0 312.710

1K 1345 0 4006 1 4 0 300.801

2K 1577 0 4146 1 6 0 298.485

4K 1818 0 4610 1 10 0 270.464

8K 2068 0 5110 1 18 1 288.806

16K 2327 0 5765 1 34 3 284.823

32K 2595 0 6412 2 66 6 285.792

64K 2872 0 7101 2 130 12 280.006

128K 3158 0 7648 2 258 25 269.535

256K 3455 0 8412 2 514 49 269.906

512K 3763 0 8729 2 1026 99 278.339

• ターゲットFPGA：

Xilinx Virtex-7 XC7VX485T

• ソート可能な最大要素数：524288

• 動作周波数：278.339[MHz]

• 処理時間(524288要素)：3.767[ms]

512要素以上のマージ回路でブロックRAMを使用することで、動作周波数の低下を防ぎ、リソースを節約

性能比較

• CPU：Intel Xeon X7460 2.66GHz

• C言語の標準関数qsort()と比較

要素数処理時間

高速化率CPU FPGA

2 109.321[ns] 9.642[ns] 11.338

4 197.351[ns] 24.276[ns] 8.129

8 398.072[ns] 48.292[ns] 8.243

16 868.191[ns] 95.512[ns] 9.090

32 1.961[μs] 0.208[μs] 9.428

64 4.361[μs] 0.408[μs] 10.689

128 9.692[μs] 0.808[μs] 11.995

256 21.148[μs] 1.648[μs] 12.833

512 45.958[μs] 3.300[μs] 13.927

1K 99.786[μs] 6.838[μs] 14.593

2K 215.658[μs] 13.756[μs] 15.677

4K 464.747[μs] 30.329[μs] 15.324

8K 993.881[μs] 56.772[μs] 17.507

16K 2116.377[μs] 115.093[μs] 18.388

32K 4502.533[μs] 229.363[μs] 19.631

64K 9553.16[μs] 468.158[μs] 20.406

128K 20157.653[μs] 972.638[μs] 20.725

256K 43593.288[μs] 1942.547[μs] 22.441

512K 94205.103[μs] 3767.327[μs] 25.006

524288要素のソートのとき、約25倍の高速化

まとめ

• 本研究ではバイトニックソートとマージソートを実行する回路をFPGAに実装した

• バイトニックソート回路では、ビットシリアルを用いることで任意のデータ幅のデータを最大1024要素ソート可能となった

• マージソート回路では、ブロックRAMを用いることで32ビットのデータで最大524288要素をソート可能となった

FPGA ハードウェアソーティング...

Documents

コンピュータサイエンス第2 アルゴリズム：ソート（整列） · 2020. 12. 10. · 指数関数：二つのアルゴリズム単純なアルゴリズム nk = n

最短経路探査アルゴリズムの実装 - 東京工業大学最短経路探査アルゴリズムの実装朝倉研修士1年劉彬 2017/06/06 基礎ゼミ第11回 OUTLINE

FPGA Implementation of Metastability-based True …...メタスタビリティを利用した真性乱数生成回路のFPGAによる実装 FPGA Implementation of Metastability-based

FPGAを⽤いた光計測装置の開発 - ils.uec.ac.jp · 計測装置もfpgaで動作させられると思われる.fpgaは別々にピン配置を⾏えばパラレルで複数の機器を動作させること

4.3 FPGAへの実装（順序回路） - KEKatlaspc5.kek.jp/pub/Main/RD53ADAQdevelopment/OFTC_4_3.pdf4.3 FPGAへの実装（順序回路）第3.3版 2016年06月22日 Open-It FPGAトレーニングコース（入門編）

アルゴリズムI - cs.gunma-u.ac.jp

Dialアルゴリズムの実装 -Python 基礎編...基礎ゼミ第 15回 Dialアルゴリズムの実装 -Python 基礎編- • 土木学会(1998) 交通ネットワークの均衡分析

暗号アルゴリズム実装試験仕様書共通鍵 - IPA...2 本書で対象とするセキュリティ機能本書が試験対象とする暗号アルゴリズムを次に示す

探索アルゴリズム (1)

FPGA Implementation of RLS Adaptive Array with …修士論文リアルタイム同期処理器を含めた RLSアダプティブアレーのFPGA実装 FPGA Implementation of RLS

アルゴリズムとデータ構造 - 北海道大学arim/pub/algo/algo10_addon.pdfアルゴリズムとデータ構造第10回整列のアルゴリズム(2) 1 アルゴリズムとデータ構造#10

データ構造とアルゴリズム - Shizuoka Universitycoconut.sys.eng.shizuoka.ac.jp/algo/06/slides2.pdfアルゴリズム1.2 入力: n個のテニスボール{b1, b2,…, bn}アルゴリズム:

先端医化学実験 - 関西学院大学sci-tech.ksc.kwansei.ac.jp/~tohhiro/data/file.pdf · 遺伝的アルゴリズム遺伝的アルゴリズムは一般に以下の流れで実装される。なお、下記では個

をディープ・ラーニング・フレームワークChainerとXilinx社SDSoCを連携ディープ … · ディープ・ラーニングをfpgaに実装するには，ディープ・ニューラル・ネットワークの学習とfpga実装の両方が必要であり，敷居が高い状

SWEST21 セッションs5b 組込みAI技術の最前線 …...SWEST21 セッションs5b 組込みAI技術の最前線〜AISingのEdge向けAIアルゴリズムの紹介と、 FPGAによるAI実装

Synthesijer を使った JavaによるFPGA開発のはじめ方 · 2 Synthesijer とは JavaプログラムをFPGA上のハードウェアに変換複雑なアルゴリズムのハードウェア実装を楽に

アルゴリズムとデータ構造

第12回グラフとネットワークのアルゴリズム(1)kida/lecture/alg2019-12.pdf講義「アルゴリズムとデータ構造」第12回グラフとネットワークのアルゴリズム(1)

探索アルゴリズム (2)

FPGA based system design Programmable logic. FPGA Introduction FPGA Architecture Advantages & History of FPGA FPGA-Based System Design Goals