View
197
Download
3
Embed Size (px)
DESCRIPTION
下記のしすなま!録画と併せてご覧ください。資料・録画の内容は生放送時点のものです。 第11回「GPGPUによるコンピューティング・パワー」(2011/11/24) 林 憲一 様 エヌビディアジャパン Tesla Quadro 事業部 マーケティングマネージャー 柴田 直樹 日本アイ・ビー・エム(株) システムx事業部 事業開発 STGエバンジェリスト http://www.ustream.tv/recorded/18714586
Citation preview
ビジュアル コンピューティング
テクノロジの世界的リーダー 本社所在地 カリフォルニア州サンタクララ
創業年 1993年
創業者 Jen-Hsun Huang
販売商品 グラフィックスソリューション
社員数 約5,700人
売上高 40 億ドル
GeForce Quadro
Tegra Tesla
NVIDIAスーパーフォンからスーパーコンピュータまで
4 cores
CPU48 GFlops
GPU665 Gflops
Bill Dally et al., the Last Classical Computer, ISAT Study, 2001
CPU
GPU
これにより年率74%で性能向上を維持できる(単位時間実行命令数)
倍精度浮動小数点演算実行: FMA
893,500.288914668
43.90230564772498
= 39,226,722.78026233027699
+ 2.02789331400154
= 39,226,724.80815564
64ビットの3つのオペランドがダイ上で18ミリ移動
データの移動が4.2倍エネルギーを消費 (40nm)!
倍精度浮動小数点演算実行: FMA
893,500.288914668
43.90230564772498
= 39,226,722.78026233027699
+ 2.02789331400154
= 39,226,724.80815564
64ビットの3つのオペランドがダイ上で18ミリ移動
オフチップからのデータロードは100倍以上のエネルギー消費
将来10nmのテクノロジになると、さらに悪く、15倍のエネルギーを消費!
演算は安い! データの移動は高い!
スループットに最適化
オンチップメモリの
陽なメモリ管理
レイテンシに最適化
キャッシュコヒーレンス
のためのデータ移動
Westmere
32nm
Fermi
40nm
Top5 のうち3システム、Top500 のうち35システム
10
#2 : Tianhe-1A7,168 Tesla GPU
2.6 PFLOPS
#4 : Nebulae4,650 Tesla GPU
1.3 PFLOPS
#5 : Tsubame 2.04,224 Tesla GPU
1.2 PFLOPS
#3 : Jaguar36K AMD Opteron
CPU
1.8 PFLOPS
#1 : K Computer88K Fujitsu SPARC
CPU
10.5 PFLOPS
Top5 のうち3システム、Top500 のうち35システム
11
#2 : Tianhe-1A7,168 Tesla GPU
2.6 PFLOPS
#4 : Nebulae4,650 Tesla GPU
1.3 PFLOPS
#5 : Tsubame 2.04,224 Tesla GPU
1.2 PFLOPS
#3 : Jaguar36K AMD Opteron
CPU
1.8 PFLOPS
#1 : K Computer88K Fujitsu SPARC
CPU
10.5 PFLOPS
Titan18,000 Tesla
GPU
>20 PFLOPS
NVIDIA 共同創業者、CEO
Jen-Hsun Huang
Top500: 35システムがランクイン
昨年の10システムから大幅増加
NVIDIA パートナーブース: 60以上
シアターセッション: 3日間で40以上のセッション
アーカイブでもご覧いただけます。
キーメッセージ:
研究者の方へ – Accelerate Your Science.
開発者の方へ – 2x in 4 Weeks. Guaranteed.
NVIDIA、Cray、PGI、CAPS、並列コンピューティングの「OpenACC」プログラミング規格を発表
ディレクティブ・ベースのプログラミングにより、CPUとGPUを使用したアプリケーションのアクセラレーションが基本コードを修正する場合と比べて大幅に簡単に
2011年11月14日 - NVIDIA、Cray Inc.、Portland Group(PGI)、CAPS enterpriseは本日、
プログラマーが並列コンピューティングをより簡単に活用できるようにする取り組みの一環として、新たな並列プログラミング規格「OpenACC™」を発表しました。
CAPSの支援の下、PGI、Cray、NVIDIAが初期の開発を担当したOpenACCは、最新のオープ
ンな並列プログラミング規格として科学技術系の多数のプログラマーを対象としており、ヘテロジニアスなCPU/GPUコンピューティング・システムの変革的な処理能力を容易に活用できるよう設計されています。
並列プログラマーはOpenACCを使用し、シンプルなヒント(=「ディレクティブ」)をコンパイラに
送り、基本コード自体を修正・調整する必要なしにコード内のアクセラレーションの対象領域を特定できます。並列処理をコンパイラにエクスポーズすることで、ディレクティブは演算のマッピングという詳細な作業をアクセラレータに担当させることが可能です。
バルセロナ・スーパーコンピューティング・センター、世界初のARMベースCPU/GPUハイブリッド・スーパーコンピューターを構築
電力効率の高いTegra ARM CPUとCUDA GPUを搭載
したプロトタイプ・システムにより、エクサスケールのスーパーコンピューティングへと欧州を推進
2011年11月14日 - NVIDIAは本日、バルセロナ・スーパーコンピューティング・センター(BSC)が新しいハイブリッド型スー
パーコンピューターを開発することになったと発表しました。世界で初めて、エネルギー効率の高い低消費電力のNVIDIA® Tegra™ ARM CPUを高性能なNVIDIA® CUDA®
GPUと組み合わせた形のスーパーコンピューターです。
製造業
バイオインフォマティクス
マシンビジョン
金融
医療画像処理
気候シミュレーション
2010
Fermi3 Billion
Transistors
GPU 統合シェーダ + CUDA
並列コンピューティングのための統合開発環境
OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.
C OpenCLtm Direct
ComputeFortran
Java and Python
C++
Libraries and Middleware
cuFFT cuBLASCULA
LAPACK
NPP &
cuDPPVideo
PhysX
Physics
OptiX
Ray
Tracing
mental
ray
irayRendering
Reality
Server
3D Web
Services
NVIDIA GPU
CUDA Parallel Computing Architecture
GPU Computing Applications
GPU プログラミングがさらに容易に
マルチ GPU プログラミングを容易にするGPU Direct 2.0
並列アプリケーションの移植を容易にするUnified Virtual Addressing
C++ での並列プログラミングを容易にするThrust
Visual StudioでCUDA開発を容易にする Parallel Nsight 2.0
Tesla M-series GPUsM2090 | M2075 | M2070Q | M2050
Tesla C-series GPUsC2075 | C2050
ベイヤー変換
縮小画像の作成
回転角度算出
画像の回転
HSVカラー変換
欠陥検出
縮小画像A
画像A
5120pixel3840
pixel
CPUのみ:862.9msec
GPU活用時:37.4msec
CPU:Xeon W3860 3.33GHz
(12core中2core使用)
GPU:Tesla C2050
GPUにより
23倍
高速化巨大画像のカラー欠陥検出
HALCON
GPU
CT や MRI から画像を受信して三次元画像の構築をするシステム 2次元スキャンデータから3次元、4次元イメージの高速生成
CUDA 化により画像処理速度を約20倍に高速化
Amazon Web Services で Tesla M2050 を提供
数分のセットアップで GPU 利用可能
イベント名: NVIDIA Manufacturing Day 2011
主催: エヌビディア ジャパン
協賛: エルザジャパン、デル、日本SGI、日本HP
特別協賛: G-DEP、HPCテック
日時: 2011年12月9日(金)9:00 – 19:30
会場: 品川インターシティーホール
参加費: 無料
定員: 300人
イベントサイト:
http://www.nv-jp-event.jp/mfg-day2011/