ザイリンクスの AI そのアプリケーション - Xilinx...WP506 (v1.0.2) 2018 年 10 月 3 日 japan.xilinx.com 3 ザイリンクスの AI エンジンとそのアプリケーション

WP506 (v1.0.2) 2018 年 10 月 3 日 japan.xilinx.com 1

© Copyright 2018 Xilinx, Inc. Xilinx、 Xilinx のロゴ、 Artix、 ISE、 Kintex、 Spartan、 Virtex、 Vivado、 Zynq、およびこの文書に含まれるその他の指定されたブランドは、米国およびその他各国のザイリンクス社の商標です。 AMBA、 AMBA Designer、 Arm、 ARM1176JZ-S、 CoreSight、 Cortex、 PrimeCell、 Mali、および MPCore は、 EU およびその他各国の Arm 社の商標です。 MATLAB および Simulink は、 MathWorks, Inc. の登録商標です。すべてのその他の商標は、それぞれの保有者に帰属します。

この資料は表記のバージョンの英語版を翻訳したもので、内容に相違が生じる場合には原文を優先します。資料によっては英語版の更新に対応していないものがあります。日本語版は参考用としてご使用の上、最新情報につきましては、必ず最新英語版をご参照ください。

AI エンジンは、 5G セルラーや機械学習の DNN/CNN など演算負荷の高いアプリケーションに向けたザイリンクスの新しいベクタープロセッサで、高性能な VLIW SIMD プロセッサをアレイ状に配置することにより、従来のプログラマブルロジックソリューションに比べ消費電力を 50% 削減しながらシリコン面積あたりの演算密度を最大 8 倍に高めます。

ホワイトペーパー : AI エンジン

WP506 (v1.0.2) 2018 年 10 月 3 日

ザイリンクスの AI エンジンとそのアプリケーション

概要

このホワイトペーパーでは、 5G セルラーや機械学習の DNN/CNN といった演算負荷の高いアプリケーションに向けたザイリンクスの新しい AI エンジンのアーキテクチャ、アプリケーション、および利点について説明します。

5G では、従来世代に比べ 5 ～ 10 倍の演算密度が要求されます。 AI エンジンは DSP に最適化されており、無線接続に必要な広い帯域幅と高い速度をサポートできるだけのスループットと演算性能を発揮します。

また、 DNN/CNN ネットワークに代表される機械学習を採用した製品が増えていることも、演算密度の飛躍的な向上が求められる要因となっています。 AI エンジンは線形代数に最適化されており、こうした要求に応える演算密度を提供すると同時に、同じ機能をプログラマブルロジックで実行した場合に比べ、消費電力も最大 50% 低減します。

AI エンジンは、多くの設計者が習熟している C/C++ でプログラムできます。 AI エンジンをザイリンクスの適応型エンジンおよびスカラーエンジンと組み合わせることで、全体として非常に柔軟かつ強力なソリューションが実現します。

https://japan.xilinx.com

https://japan.xilinx.com/about/feedback.html?docType=White_Papers&docId=WP506&Title=%26%2312470%3B%26%2312452%3B%26%2312522%3B%26%2312531%3B%26%2312463%3B%26%2312473%3B%26%2312398%3B%20AI%20%26%2312456%3B%26%2312531%3B%26%2312472%3B%26%2312531%3B%26%2312392%3B%26%2312381%3B%26%2312398%3B%26%2312450%3B%26%2312503%3B%26%2312522%3B%26%2312465%3B%26%2312540%3B%26%2312471%3B%26%2312519%3B%26%2312531%3B&releaseVersion=1.0.2&docPage=1



演算性能の向上とザイリンクスの歩みザイリンクス製品は、 1990 年代初めに高性能計算 (HPC) やデジタル信号処理 (DSP) に用いられるようになってから、数十年にわたって演算負荷の高いアプリケーションに採用されてきました。ザイリンクス XC4000 FPGA シリーズにより、商用および航空宇宙/防衛分野の無線通信システムにデジタルフロントエンド (DFE) ソリューションを実装できるようになりました。当時の設計者は、 LUT と加算器を使用して乗算器などの演算エレメントを実装し、 DSP 機能、 FIR フィルター、および FFT を構築していました。

演算負荷の高い新しいアプリケーションへのザイリンクスデバイスの採用が進む中、ザイリンクスは 2001 年の Virtex®-II FPGA シリーズに初めて DSP スライスを内蔵するなど、演算負荷の高い処理向けのエレメントを開発してきました。 XC4000 FPGA に内蔵されていた LUT はわずか 400 個に過ぎませんでしたが、その後ムーアの法則に従って LUT の数を着実に増やし、現在のデバイスは 370 万個を超える LUT と 12,200 個を超える DSP スライスを内蔵するなど、利用可能なリソースは 9,500 倍以上に増大しています。このように演算リソースを加速度的に増量することで、ザイリンクス製品は急成長を遂げる信号処理市場における演算密度とロジックリソースの要求に応えてきました。

テクノロジの進歩が促す演算密度の向上

さまざまなテクノロジの進歩によって、演算密度の非線形的な向上が求められるようになっています。たとえば GSPS サンプルレートのデータコンバーターは RF 信号のダイレクトサンプリングが可能で、これによってアナログシステムは簡略化されますが、そのためには DSP の演算密度も同じだけ高める必要があります。ダイレクト RF サンプリングは、何万本ものアンテナで構成される先進レーダーシステムなど、アンテナの数が多い場合に使用されます。

5G 無線は何年も前から大きな話題となっています。環境に存在するあらゆるものをセルラー接続に比べ 100 倍、現在最高速の家庭用ブロードバンドサービスと比べても 10 倍高速なネットワークに接続することにより、私たちの生活が大きく変わることが期待されています。超高速 5G ネットワークを実現する代表的なテクノロジとしては、ミリ波、 Massive MIMO、全二重、ビームフォーミング、スモールセルなどがあります。 5G の大きな利点として高速と低レイテンシの 2 つが挙げられ、これによって自動運転車から仮想現実 (VR) まで多くの新しいアプリケーションが実現に向かうと期待されています。これらのテクノロジでは、演算密度およびメモリに対する要求が 4G よりも 1 桁厳しくなります。

5G では、 Massive MIMO、マルチアンテナ、周波数帯などの新しいテクノロジにより、その複雑さは 4G の 100 倍にも達します。こうした複雑化に伴い、演算密度、メモリ、および RF データコンバーター性能に対する要求が厳しくなっています (図 1 参照)。

X-Ref Target - Figure 1

図 1: 4G と比較した 5G の複雑さ1

1. ETRI RWS-150029 「5G Vision and Enabling Technologies: ETRI Perspective」 (3GPP RAN Workshop Phoenix、 2015 年 12 月): http://www.3gpp.org/ftp/tsg_ran/TSG_RAN/TSGR_70/Docs

WP506_01_092818

PeakData Rate

User ExperiencedData Rate

SpectrumEfficiency

Mobility

Latency

Area TrafficCapacity

NetworkEnergy Efficiency

ConnectionDensity

20Gb/s

100Mb/s

10Mb/s/m2

106

per km2

(1 per m2)

100Times

500km/h

3Times

1msec(Radio

Interface)

MassiveIoT

Ultra-reliable& Low

Latency

EnhancedMobile Broadband

8 KPIs

http://www.3gpp.org/ftp/tsg_ran/TSG_RAN/TSGR_70/Docs





ムーアの法則の終焉1965 年、後に Intel 社の共同設立者となった Gordon Moore 氏は、 IC に集積されるコンポーネントの数が 1 年で 2 倍になるという法則を唱えました。つまり、 1965 年当時は 1 個のチップに 50 個のトランジスタを集積した場合に、トランジスタ 1 個あたりのコストが最小となっていました。それが 1970 年には 1 個のチップに 1,000 個のトランジスタを集積した場合にコストが最小になり、トランジスタ 1 個あたりのコストは 1965 年に比べ 90% 以上低下するであろうと Moore 氏は予測したのです。その後、同氏はリソースの増加ペースを「2 年ごとに 2 倍」に訂正し、その予測は 1975 年から 2012 年までの間、おおむね的中してきました。(1) Moore 氏が予測したのは、プロセスノードが 1 世代進むごとに密度と性能が向上し、消費電力とコストが削減されるということです。この観察は「ムーアの法則」と命名され、約 50 年にわたって健在でした。ムーアの法則が IC の高密度化と高性能化、そして低コスト化を進める原動力となり、ザイリンクスもこの原理を利用して、より高機能なデバイスをより低コストで市場に投入してきました。

しかし IC のプロセスノードが 28nm に達した頃からムーアの法則は破綻し、プロセスノードの微細化だけでは消費電力、コスト、および性能面でのメリットを享受できなくなりました。こうして、第 5 世代 (5G) セルラーシステムで要求される演算性能とプログラマブルロジックで達成可能な演算密度に乖離が生じ、プログラマブルロジックだけでは 5G セルラーのコスト、消費電力、および性能の要件をシステムレベルで満たすことができなくなっています。

AI エンジンの登場次世代無線や機械学習アプリケーションでは、非線形的な演算密度の向上と消費電力の削減が求められています。これに応える形で、ザイリンクスは革新的アーキテクチャの調査を開始し、これが AI エンジンの開発へとつながっていきました。 AI エンジンは、適応型エンジン (プログラマブルロジック ) およびスカラーエンジン (プロセッササブシステム) と密結合することによってヘテロジニアス演算プラットフォームを形成します。 AI エンジンは、ベクターベースのアルゴリズムで最大 5 倍の演算密度を実現します。適応型エンジンは、柔軟なカスタム演算およびデータ移動をサポートします。スカラーエンジンは、複雑なソフトウェアをサポートします (図 2 参照)。

1. Wikipedia.org 「Moore's law」 https://en.wikipedia.org/wiki/Moore%27s_law (2018 年 8 月に取得)


図 2: ヘテロジニアス演算

WP506_02_100218

ScalarEngines

AI Engine Array

Adaptable Engines

ApplicationProcessor

AIEngine Tile

AIEngine Tile

AIEngine Tile

AIEngine Tile

AIEngine Tile

AIEngine Tile

LUT

DSP Engine

Block RAMPCIe

DDRUltraRAM

Real-timeProcessor

I/O(GT, AMS)

FoundationalEngines





図 3 に示すように、 AI エンジンタイルは 2 次元アレイとして構成されます。

各 AI エンジンタイルには、固定小数点および浮動小数点演算用のベクタープロセッサ、スカラープロセッサ、専用のプログラムおよびデータメモリ、専用の AXI データ移動チャネル、および DMA とロックのサポートが含まれます。 AI エンジンは SIMD (Single Instruction Multiple Data)/VLIW (Very Long Instruction Word) プロセッサで、1 クロックで 2 個または 3 個のスカラー命令、 2 個のベクター読み出しおよび 1 個のベクター書き込み命令、および 1 個の固定小数点または浮動小数点ベクター命令が実行される最大 6 ウェイの命令並列処理性能を備えま。

リアルタイム DSP および AI/ML 演算に最適化された AI エンジンアレイは、専用のデータおよび命令メモリ、 DMA、ロック、およびソフトウェアツールの組み合わせによって確定的タイミングを実現します。データメモリと命令メモリはスタティックであり、キャッシュミスやそれに伴うキャッシュフィルといった不確実要素を取り除いています。

AI エンジンの目標AI エンジンの目標は、 DSP および AL/ML を使用した演算負荷の高いアプリケーションを想定して設定しています。また、開発者の生産性向上およびより高い抽象度のサポートを求める市場のニーズに応えるために、開発ツールの改良も進めています。 AI エンジンは、主に次の 4 つの利点をもたらすように開発されています。

演算負荷の高いアプリケーションを PL にインプリメントした場合に比べ、シリコン面積あたりの演算容量が 3 ～ 8 倍に向上

演算負荷の高いアプリケーションの同じ機能を PL にインプリメントした場合に比べ、消費電力が 50% 低減

確定的で高性能なリアルタイム DSP 性能を発揮

開発環境の飛躍的な改善により、設計者の生産性を向上


図 3: AI エンジンアレイ

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

MECore

MECore

ProgramMemory

ProgramMemory

MECore

MECore

ProgramMemory

ProgramMemory

WP506_03_092818

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory


https://en.wikipedia.org/wiki/SIMD

https://en.wikipedia.org/wiki/Very_long_instruction_word




AI エンジンタイルのアーキテクチャ詳細AI エンジンの圧倒的な性能を十分に理解するには、その全体的なアーキテクチャと機能を押さえておく必要があります。図 4 に、 AI エンジンの各タイルのリソース詳細を示します。

専用の 16KB 命令メモリと 32KB データ RAM

32b RISC スカラープロセッサ

512b 固定小数点および 512b 浮動小数点ベクタープロセッサと関連ベクターレジスタ

同期ハンドラー

トレースとデバッグ

AI エンジンタイルは命令用とデータ用にそれぞれ専用のメモリを備え、専用の AXI バス配線および隣接する AI エンジンタイルとの直接接続によって、ほかの AI エンジンタイルと相互に接続されます。データ移動に関しては、専用の DMA エンジンおよびブロックが専用の AXI バスコネクティビティに直接接続し、データ移動や同期を実現します。


図 4: AI エンジンタイルの詳細

WP506_04_092818

Load & StoreAddress

GenerationUnits

InstructionFetch &Decode

Unit

ProgramMemory(16KB)

AccumulatorStream FIFO

Control,Debug& Trace

Floating Point512b SIMDVector Unit

Fixed Point512b SIMDVector Unit

StallHandler

ScalarRegister Files

32b ScalarRISC Unit

Vector Register Files

ME

M I/

FAX

IM S

witc

h

AX

IS N

orth

MEM I/F

ME

M I/

FDataMemory(32KB)

S2MMDMA

S2MMDMA

S2MMDMA

AXIS West AXIS East

AI Engine Array Core Mem AccessAXI StreamAXI MMCascade Stream

AX

IS S

outh





サポートされるオペランド精度

ベクタープロセッサは、整数演算ユニットと浮動小数点演算ユニットで構成されます。 8 ビット、 16 ビット、 32 ビット、および単精度浮動小数点 (SPFP) のオペランドがサポートされます。 1 クロックサイクルで処理されるオペランドの数は、オペランドの種類によって異なります (表 1 参照)。

命令とデータの並列性

命令レベル並列性とデータレベル並列性により、複数レベルの並列性を達成しています。

図 5 に、命令レベル並列性を示します。 1 クロックサイクルごとに、 2 個のスカラー命令、 2 個のベクター読み出しおよび 1 個のベクター書き込み命令、および 1 つのベクター命令が実行されます (6 ウェイ VLIW)。

データレベル並列性は、表 1 に示したように 1 クロックサイクルで複数のデータセットに対してベクターレベル命令を実行することによって達成します。

表 1: AI エンジンのベクタープロセッサでサポートされるオペランド

オペランド A オペランド B 出力1 クロックあたりの

MAC 演算回数

8b 実数 8b 実数 16b 実数 128


16b 実数 16b 実数 48b 実数 32

16b 実数 16b 複素数 48b 複素数 16

16b 複素数 16b 複素数 48b 複素数 8

16b 実数 32b 実数 48/80b 実数 16

16b 実数 32b 複素数 48/80b 複素数 8

16b 複素数 32b 実数 48/80b 複素数 8

16b 複素数 32b 複素数 48/80b 複素数 4

32b 実数 16b 実数 48/80b 複素数 16

32b 実数 16b 複素数 48/80b 複素数 8

32b 複素数 16b 実数 48/80b 複素数 8

32b 複素数 16b 複素数 48/80b 複素数 4


32b 実数 32b 複素数 80b 複素数 4

32b 複素数 32b 実数 80b 複素数 4

32b 複素数 32b 複素数 80b 複素数 2

32b 単精度浮動小数点 32b 単精度浮動小数点 32b 単精度浮動小数点 8


図 5: AI エンジンの命令レベル並列性

WP506_05_092818

2x Scalar Ops Two Loads

VLIW Instruction (6-way VLIW)

One VectorMultiplication

One Store

Scalar 1d ad1 , av0 1d ad2 , av1 mu1 v2 , v0 , v1 st ad3 , v2





確定的な性能およびコネクティビティ

AI エンジンのアーキテクチャは、確定的性能を必要とするリアルタイム処理アプリケーションを想定して開発されました。次の 2 つの重要なアーキテクチャ機能によって確定的タイミングを実現しています。

命令用とデータ用にそれぞれ専用のメモリ

DMA エンジンを組み合わせた専用のコネクティビティにより、 AI エンジンタイル間のコネクティビティを使用してスケジュールに基づくデータ移動が可能

AI エンジンタイルは、ダイレクトメモリ (DM) インターフェイスを使用して隣接するタイル (ノース、サウス、イースト、ウエスト ) のデータメモリに直接アクセスします。通常、これは全体的な処理チェーンがデータを生成/消費している間にベクタープロセッサとの間で結果をやりとりするために使用します。データメモリは「ピンポン」バッファリングが可能なように実装されており、メモリ競合が性能に与える影響は最小限に抑えられます。

AI エンジンタイル間の AXI‐Stream および AXI‐MM (Memory Mapped) コネクティビティ

AI エンジン間のデータ移動は、 AI エンジンタイルどうしが隣接している場合はタイル間の共有メモリを利用できるため、簡単に行えます。 AI エンジンタイルどうしが離れている場合は、 AXI-Stream データフローを使用する必要があります。AXI-Stream コネクティビティは、データフローグラフに基づいて AI エンジンコンパイラツールによって事前に定義およびプログラムされます。これらのストリーミングインターフェイスを使用して、 PL および NoC に直接接続することもできます (図 6 参照)。


図 6: Al エンジンアレイの AXI‐MM および AXI‐Stream インターコネクト

WP506_06_092718

West In/OutStreams

East In/OutStreams

North In/OutStreams

South In/OutStreams

Axis West Axis East

Axi

s N

orth

Axi

s S

outh

AX

I-M

M S

witc

h

Axis Cross bar

AXI Stream

AXI MM

AXI-Stream Interconnect Statically configured by AXI-MM- Master and slave ports- Each port handler selects route for input/output stream- Each switch has FIFO buffers for inserting delays - Port can be circuit or packet switched





AI エンジンと PL の接続

Versal ポートフォリオの最大の特長の 1 つは、 AI エンジンアレイを適応型エンジン内のプログラマブルロジックと組み合わせて使用できることにあります。これらリソースの組み合わせにより、 AI エンジン、適応型エンジン、スカラーエンジンの中から最適なリソースに機能をインプリメントでき、柔軟が大幅に向上します。図 7 に、 AI エンジンアレイとプログラマブルロジックの接続 (AI エンジンアレイインターフェイス) を示します。AXI-Streaming コネクティビティは AI エンジンアレイインターフェイスの各サイドに存在し、プログラマブルロジックとネットワークオンチップ (NoC) にそれぞれ別々に接続されます。

AI エンジンの制御、デバッグ、およびトレース

すべての AI エンジンタイルには制御、デバッグ、およびトレース機能が統合されており、デバッグ、パフォーマンスモニター、および最適化に必要な可視性が得られます。デバッグ機能へは、 Versal ポートフォリオで導入された高速デバッグポートを介してアクセスできます。

AI エンジンとプログラマブルロジックの比較

アプリケーションおよび市場の要求が満たされているかどうかは、「AI エンジンの目標」のセクションで示したメトリクスで評価します。このアーキテクチャの効果は、 PL と AI エンジンの両方に 4G および 5G セルラーをインプリメントすることで計測できます。この計測結果から、 AI エンジンベースのソリューションには次の利点があることがわかります。

同じ機能を同じプロセスノードの PL にインプリメントした場合に比べ、シリコン面積が 1/3 ～ 1/8 に縮小

消費電力は PL にインプリメントした場合の約 50%

ベクターへのインプリメントに適合しない機能の場合、 AI エンジンの効率は大きく低下します。このため、 AI エンジンよりも PL にインプリメントした方がよい結果が得られます。 AI エンジンと PL は、対等な立場で動作しながらそれぞれの強みを活かして演算処理を実行することを想定しています。 PL はデータ移動、ビット単位の処理、およびベクターベース以外の演算に適しているほか、 AI エンジンでサポートされない処理のカスタムアクセラレータもインプリメントできます。 PL と AI エンジンが相互に補完することで、より強力なシステムレベルソリューションを実現します。きわめて演算負荷の高いアプリケーションでは、プログラマブルロジックが非常に重要なリソースであることに変わりありません。 AI エンジンと PL を組み合わせることで、柔軟で高い演算性能、および広帯域のデータ移動/ストレージが可能になります。


図 7: AI エンジンアレイインターフェイス

WP506_07_092718

PL / NoC

AXI-SSwitch

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

MECore

MECore

ProgramMemory

ProgramMemory

MECore

MECore

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AI Engine

AI Engine

ProgramMemory

ProgramMemory

AXI-SSwitch

AXI-SSwitch

AXI-SSwitch

NoC Interface

PL Interface

NoCInterface

PL Interface





AI エンジンを内蔵した Versal ポートフォリオのアーキテクチャ概要

Versal デバイスは 3 種類のプログラマブルプロセッサ、すなわち Arm® プロセッササブシステム (PS)、プログラマブルロジック (PL)、および AI エンジンで構成されています。各エンジンはそれぞれ異なる演算能力を備え、システム内のさまざまな要求に適材適所で応えます。通常、 Arm プロセッサは制御プレーンアプリケーション、オペレーティングシステム、通信インターフェイス、および低レベルまたは複雑な演算に使用します。 PL はデータ操作および移動、ベクターベース以外の演算、およびインターフェイスに使用します。 AI エンジンは、一般にベクターへのインプリメントで演算負荷の高い機能に使用します。

図 8 に、デバイス最上位に AI エンジンアレイを配置した Versal デバイスの概略を示します。 AI エンジンアレイと PL は直接または NoC を介して接続されます。

AI エンジンの開発環境近年、ザイリンクスは高級言語 (HLL) の使用に重点を置き、ザイリンクスデバイスを使用した開発をより高い抽象度で実行できるようにしてきました。 Versal アーキテクチャは、まったく種類の異なる 3 つのプログラマブルエレメント、すなわち PL、 PS、および AI エンジンで構成されています。これらはいずれも C/C++ を使用してプログラム可能です。

AI エンジンの論理シミュレーションまたはサイクル精度シミュレーションは、 x86 ベースのシミュレーション環境で実行できます。システムレベルシミュレーション用に、これら 3 つのプロセッシングドメインをすべてサポートした System-C バーチャルプラットフォームが提供されます。

開発環境の中で特に重要な要素として、 DSP および無線機能、 ML/AI、線形代数、および行列計算をサポートした AI エンジンライブラリがあります。これらのライブラリは効率と性能が最適となるように設計されており、開発者は AI エンジンの機能を最大限に引き出すことができます。


図 8: AI エンジンを内蔵した Versal ACAP のアーキテクチャ概要

WP506_08_092818

Logic

PC

Ie &

CC

IX

Tra

nsce

iver

s

Inte

grat

ed IP

Inte

grat

ed I

P

AM

S/T

rans

ceiv

ers

ProcessingSystem& PMC

DDR Controller DDR ControllerDDR Controller

XPIO

AI Engine Array

Network on Chip

Network on Chip





AI エンジンのアプリケーションAI エンジンは演算負荷の高いアプリケーション、その中でも特に 5G 無線や機械学習 (ML) アプリケーションなどのデジタル信号処理 (DSP) と人口知能 (AI) テクノロジに最適化されています。

AI エンジンを使用したデジタル信号処理

無線ソリューションのバリデーションスイート

無線通信では、リアルタイム DSP が広範に利用されます。 AI エンジンアーキテクチャが無線ソリューションの構築に適していることを確認するため、ザイリンクスは古典的なナローバンドおよびワイドバンド無線デザインの原理、 Massive MIMO、およびベースバンドとデジタルフロントエンドのコンセプトをそれぞれインプリメントして比較しました。

例: 100MHz 5 チャネル LTE20 無線ソリューション

100MHz 5 チャネル LTE20 無線を Versal デバイスの一部にインプリメントしました。 5 チャネルの 16b 入力データを 30.72MSPS でストリーム入力し、 89 タップチャネルフィルターで処理します。次に、 2 段のハーフバンドフィルター (23 および 11 タップ) を使用してこの信号を 4 倍にアップサンプルし、サンプルレートを 122.88MSPS とします。

次に、アップサンプルしたストリームを DDS (direct-digital synthesizer) で生成した正弦波/余弦波と混合し、総和をとります。さらに 2 つのハーフバンドフィルター (47 および 27 タップ) で合計 4 倍にアップサンプルして得た 491.52MSPS ストリームを CFR (Crest-Factor Reduction) ファンクションに入力します。 41 タップフィルターで 5/4 倍してフラクショナルレートを変更し、サンプルレート 614.4MSPS を DPD (Digital Pre-Distortion) ファンクションに入力します。

PD/SF (ピーク検出/スケール検出) 回路は PL にインプリメントしています。 491.52MSPS DUC およびミキサー段の出力を 1 つの入力に接続し、 CFR の第 2 段をもう 1 つの入力に接続しています。 PD/SF 回路は、 PL にインプリメントすることでリソース効率を高めています。この回路を AI エンジンにインプリメントすると、リソース効率は低下します。このアーキテクチャは、デザインのファンクションブロックごとに適材適所でリソースを上手に使い分けた例といえます (図 9 参照)。

DPD ファンクションの係数は周期的に再計算する必要があります。送信 DAC の出力からのフィードバックパスを ADC を使用してサンプルし、バッファーに格納します。バッファーに格納したサンプルデータセットを PS に渡し、 1 秒間に 10 回、新しい DPD 係数セットを計算します。新しい係数セットは、 NoC と AXI バスインターコネクトを使用して DPD に書き戻します。


図 9: ブロック図: DSP を使用した 100MHz 5 チャネル LTE20 無線ソリューション

WP506_09_092818

ChannelFilter

HB1 2LTE20 HB2 2

ChannelFilter

HB1 2LTE20 HB2 2

ChannelFilter

HB1 2LTE20 HB2 2 HB3 2 HB4 2

ChannelFilter

HB1 2LTE20 HB2 2

ChannelFilter

HB1 2LTE20 HB2 2

Mixing

DDS

Programmable Logic (PL)

AI Engine Array

Crest Factor Reduction Digital Pre-distortionShaping Up-sample Heterodyne

Processing Sub-system : A72 CPUfor DPD Parameter Estimation

NC=89

30.72MHz 30.72MHz 61.44MHz

122.

88M

Hz

491.

52M

Hz

614.

4MH

z

614.4MHz

VA1

NHB1=23 NHB2=11

NHB3=43 NHB4=27

NHB5=41

MemoryActive/Shadow

9x9 DPDKernel

Coefficients

Delay

CABS

Delta

AI Engine IF

PC-CFR

AI EngineIF

AI EngineIF

Delay

Peak Detectand Scale

Find

PC-CFR

AI EngineIF

AI EngineIF

AI EngineIF

AI Engine IF

AI EngineIF

DPDFilter 1/4

DPDFilter 2/4

DPDFilter 3/4

Peak Detectand Scale

Find

FrequencyDomain

Measurements

DPDFilter 4/4

DPDOutput

AI Engine IF

Coefficientto LUT

Conversion

GainPower

Spectrum Estimate

DPDLUTs

F1 5/4





機械学習と AI エンジン

機械学習を利用した画像分析には、たたみ込みニューラルネットワーク (CNN) と呼ばれるフィードフォワード型のディープニューラルネットワークが最もよく使用されます。自動運転車からビデオ監視、データセンターでの画像/動画分析などあらゆる用途にコンピューターが利用されるようになった現在、 CNN は欠かせない技術となっています。 CNN によってビジョン/イメージの認識精度が飛躍的に向上した結果、高い信頼性が要求される安全系の運転支援システムへの採用が可能となりました。

CNN の手法はまだ登場したばかりで、今も毎週のように画期的な成果が発表されています。この分野の技術革新のペースは驚くほど速く、これまで不可能とされていたアプリケーションも今後数年のうちに実現する可能性があります。

ただし CNN の課題として、一般に数 TOPS (Tera Operations per Second) という膨大な演算量が必要となります。AI エンジンは、この演算密度を少ないコストと消費電力で効率よく実現できるように最適化されています。

AI エンジンによる CNN/DNN オーバーレイ

ザイリンクスは現在、 AI エンジンをベースにした機械学習推論エンジンの開発を進めており、これをアプリケーションオーバーレイとして適用する予定にしています。プログラマブルロジックは、データの効率的な移動および管理に使用します。AI エンジンは、 ResNet、 GoogLeNet、 AlexNet など多くの一般的な CNN/DNN ネットワークを実装するのに必要な演算およびその他の処理を実行するための定義済み構造を提供します。

ユーザーの立場から見ると、新しいネットワークアーキテクチャが登場したらそれに合わせて修正できるなど、オーバーレイアプローチには多くの利点があります。 AI エンジンと PL のプログラマブルな組み合わせは、 ML アプリケーション分野の進歩に合わせて成長、拡張できる効率的で非常に柔軟なプラットフォームを実現します。

AI エンジンによる CNN/DNN オーバーレイは、データセンターアプリケーションで ML ネットワークの推論を高速化する用途にも、エンベデッドシステムでの用途にも使用できます。統合は、このソリューションをユーザーの全体的なデザインにインスタンシエートするだけで簡単に行えます。その後、 TensorFlow または Caffe を使用して CNN/DNN ネットワークを開発し、 AI エンジンによる CNN/DNN オーバーレイ上で動作する実行可能プログラムにコンパイルします。

まとめAI エンジンは、まったく新しいタイプの高性能演算エレメントです。 Versal クラスのデバイスに統合された AI エンジンを PL および PS と最適な形で組み合わせることで、 1 個のザイリンクス ACAP デバイスに複雑なシステムを実装できます。 AI エンジンは、専用のデータおよびプログラムメモリ、 DMA などのアーキテクチャ機能とコンパイラツールを組み合わせることにより、リアルタイムシステムで必要とされる確定的動作を実現します。

特に DSP および ML の場合、従来のプログラマブルロジックへインプリメントする場合に比べ、 AI エンジンは消費電力を公称 50% 削減しながらシリコン面積あたりの演算密度を 3 ～ 8 倍に高めます。また、高い抽象度の C/C++ でプログラミングできるため、開発者の生産性も飛躍的に向上します。

このデバイスファミリには、 30 個の AI エンジンと 8 万個の LUT を内蔵した小規模のデバイスから、 400 個の AI エンジンと 100 万個近くの LUT を内蔵したデバイスまで幅広い製品がラインナップされており、システム性能を容易に拡張できます。これらのデバイスはパッケージのフットプリントに互換性があるため、性能や価格面での要求が変化した場合は製品ファミリ内での移行が容易です。

詳細は、次の資料を参照してください。

『Versal: 初の ACAP (Adaptive Compute Acceleration Platform)』 (WP504: 英語版、日本語)

『ザイリンクス Alveo™ アクセラレータカードによる DNN の高速化』 (WP505: 英語版、日本語版)


https://japan.xilinx.com/support/documentation/white_papers/wp505-versal-acap.pdf

https://japan.xilinx.com/support/documentation/white_papers/j_wp505-versal-acap.pdf

https://japan.xilinx.com/support/documentation/white_papers/wp504-accel-dnns.pdf

https://japan.xilinx.com/support/documentation/white_papers/j_wp504-accel-dnns.pdf




改訂履歴次の表に、この文書の改訂履歴を示します。

免責事項本通知に基づいて貴殿または貴社 (本通知の被通知者が個人の場合には「貴殿」、法人その他の団体の場合には「貴社」。以下同じ ) に開示され

る情報 (以下「本情報」といいます) は、ザイリンクスの製品を選択および使用することのためにのみ提供されます。適用される法律が許容す

る最大限の範囲で、 (1) 本情報は「現状有姿」、およびすべて受領者の責任で (with all faults) という状態で提供され、ザイリンクスは、本通知

をもって、明示、黙示、法定を問わず (商品性、非侵害、特定目的適合性の保証を含みますがこれらに限られません)、すべての保証および条

件を負わない (否認する ) ものとします。また、 (2) ザイリンクスは、本情報 (貴殿または貴社による本情報の使用を含む) に関係し、起因し、関

連する、いかなる種類・性質の損失または損害についても、責任を負わない (契約上、不法行為上 (過失の場合を含む)、その他のいかなる責任

の法理によるかを問わない) ものとし、当該損失または損害には、直接、間接、特別、付随的、結果的な損失または損害 (第三者が起こした行

為の結果被った、データ、利益、業務上の信用の損失、その他あらゆる種類の損失や損害を含みます) が含まれるものとし、それは、たとえ

当該損害や損失が合理的に予見可能であったり、ザイリンクスがそれらの可能性について助言を受けていた場合であったとしても同様です。

ザイリンクスは、本情報に含まれるいかなる誤りも訂正する義務を負わず、本情報または製品仕様のアップデートを貴殿または貴社に知らせ

る義務も負いません。事前の書面による同意のない限り、貴殿または貴社は本情報を再生産、変更、頒布、または公に展示してはなりません。

一定の製品は、ザイリンクスの限定的保証の諸条件に従うこととなるので、https://japan.xilinx.com/legal.htm#tos で見られるザイリンクスの販売

条件を参照してください。 IP コアは、ザイリンクスが貴殿または貴社に付与したライセンスに含まれる保証と補助的条件に従うことになりま

す。ザイリンクスの製品は、フェイルセーフとして、または、フェイルセーフの動作を要求するアプリケーションに使用するために、設計さ

れたり意図されたりしていません。そのような重大なアプリケーションにザイリンクスの製品を使用する場合のリスクと責任は、貴殿または

貴社が単独で負うものです。 https://japan.xilinx.com/legal.htm#tos で見られるザイリンクスの販売条件を参照してください。

自動車用のアプリケーションの免責条項オートモーティブ製品 (製品番号に「XA」が含まれる ) は、 ISO 26262 自動車用機能安全規格に従った安全コンセプトまたは余剰性の機能 ( 「セーフティ設計」 ) がない限り、エアバッグの展開における使用または車両の制御に影響するアプリケーション ( 「セーフティアプリケー

ション」 ) における使用は保証されていません。顧客は、製品を組み込むすべてのシステムについて、その使用前または提供前に安全を目的

として十分なテストを行うものとします。セーフティ設計なしにセーフティアプリケーションで製品を使用するリスクはすべて顧客が負い、

製品の責任の制限を規定する適用法令および規則にのみ従うものとします。

この資料に関するフィードバックおよびリンクなどの問題につきましては、 [email protected] まで、または各ページの右下にある

[フィードバック送信] ボタンをクリックすると表示されるフォームからお知らせください。いただきましたご意見を参考に早急に対応させて

いただきます。なお、このメールアドレスへのお問い合わせは受け付けておりません。あらかじめご了承ください。

日付バージョン内容

2018 年 10 月 3 日 1.0.2 編集上の更新のみ。

2018 年 10 月 2 日 1.0.1 編集上の更新のみ。

2018 年 10 月 2 日 1.0 初版


https://japan.xilinx.com/legal.htm#tos

https://japan.xilinx.com/legal.htm#tos

mailto:[email protected]


Documents

ザイリンクスの AI そのアプリケーション - Xilinx...WP506 (v1.0.2) 2018 年 10 月 3 日 japan.xilinx.com 3 ザイリンクスの AI エンジンとそのアプリケーション