5
62 基盤技術 新技術特集 1. ま え が き 製品には高性能低環境負荷両面められ るため,多岐にわたるこれらの課題開発時分考慮する必要がある。このため,開発上流段 において解析シミュレーション技術駆使して, 設計最適化めている。これらの実現には, 3次元CADデータをいて形状正確模擬した 大規模モデルや非線形問題複数検討課題適化などに対応する必要があるため,計算量となっている。 一方計算うソフトウェアとハードウェア についても,オペレーティングシステム(OS)が 32bitから64bit化したことや,演算装置CPU)の マルチやマルチコア(計算ユニットであるコア 複数持つ)CPU普及により進歩している。 本稿では計算を複数のCPUやコアに分散・並列 化して,高速・大規模化を実現するHPC(High Performance Computing)技術とその効果につい て紹介する。 2. 解析の大規模化・高速化手法 HPC技術とは,1 すように解析モデル 複数さなモデルに分割し,マルチコアCPU 複数CPU搭載した1台計算機,あるいは ネットワークに接続された複数台計算機分散したモデルを並列計算する技術である。 これにより高速且大容量という高性能計算うことができる。この代表的方式2 すようなSMPSymmetric Multi ProcessingMPIMessage Passing Interface)がある。 SMPはメモリを共有し,すべてのコアにして 対称的・均一的処理けられる並列処理 方式である。一般的2~4コアで最大効率となる 解析におけるHPC (ハイパフォーマンスコンピューティング)技術 解析,並列計算,計算機,ネットワーク,有限要素法 江尻光良 Mitsuyoshi Ejiri 佐々木聖夏 Kiyoka Sasaki 構造・流体解析により仮想的検証い,試作回数らすみがみ,解析計算高性能化高速化・大 容量化)がめられている。 HPC High Performance Computing技術とは解析対象 問題複数さな問題分割し, 複数計算機いて 並列計算技術であり,高性能計算可能となる。 効率的高性能化うためには分散構成解析問題じてえる必要がある。問題のタイプやサイズや分散構 えて計算時間計測した。 HPC効果があるが, 計算時間がおおよそ数分短縮されることが確認され た。 概  要 12 10 8 6 コア数 計算機3台(11コア)で計算時間を25%に短縮 4 2 0 (h) 16 12 8 4 0 HPC技術による計算時間短縮 基盤技術開発部

明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

Embed Size (px)

Citation preview

Page 1: 明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

( 62 )

基盤技術新技術特集

1. ま え が き

製品には高性能と低環境負荷の両面が求められ

るため,多岐にわたるこれらの課題を開発時に十

分考慮する必要がある。このため,開発の上流段

階において解析シミュレーション技術を駆使して,

設計の最適化を進めている。これらの実現には,

3次元CADデータを用いて形状を正確に模擬した

大規模モデルや非線形問題,複数の検討課題の最

適化などに対応する必要があるため,計算量が膨

大となっている。

一方,計算を行うソフトウェアとハードウェア

についても,オペレーティングシステム(OS)が

32bitから64bit化したことや,演算装置(CPU)の

マルチ化やマルチコア(計算ユニットであるコア

を複数持つ)CPUの普及により進歩している。

本稿では計算を複数のCPUやコアに分散・並列

化して,高速・大規模化を実現するHPC(High

Performance Computing)技術とその効果につい

て紹介する。

2. 解析の大規模化・高速化手法

HPC技術とは,第 1 図に示すように解析モデル

を複数の小さなモデルに分割し,マルチコアCPU

や複数のCPUを搭載した1台の計算機,あるいは

ネットワークに接続された複数台の計算機を用い

て分散したモデルを並列に計算する技術である。

これにより高速且つ大容量という高性能な計算を

行うことができる。この代表的な方式は第 2 図に

示すようなSMP(Symmetric Multi Processing)

とMPI(Message Passing Interface)がある。

SMPはメモリを共有し,すべてのコアに対して

対称的・均一的に処理が割り付けられる並列処理

方式である。一般的に2~4コアで最大効率となる

解析におけるHPC(ハイパフォーマンスコンピューティング)技術

解析,並列計算,計算機,ネットワーク,有限要素法

* 江尻光良 Mitsuyoshi Ejiri * 佐々木聖夏 Kiyoka Sasaki

構造・流体解析により仮想的に検証を行い,試作回数を

減らす取り組みが進み,解析計算の高性能化(高速化・大

容量化)が求められている。

HPC(High Performance Computing)技術とは解析対象

の問題を複数の小さな問題に分割し,複数の計算機を用いて

並列に計算を行う技術であり,高性能な計算が可能となる。

効率的に高性能化を行うためには分散構成を解析問題に

応じて変える必要がある。問題のタイプやサイズや分散構

成を変えて計算時間を計測した。HPCの効果に差があるが,

計算時間がおおよそ数分の一に短縮されることが確認され

た。

概  要

121086コア数

計算機3台(11コア)で計算時間を25%に短縮

420

(h)

16

12

8

4

0

計算時間

HPC技術による計算時間短縮

*基盤技術開発部

Page 2: 明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

と言われている(1)。

MPIは分散メモリ型の並列計算でデータを通信

するための仕様標準である。複数のコアがメッ

セージ通信を行うことにより協調して計算処理を

行うもので,MPICH2などのプログラムライブラ

リが提供されている。基本的にはイン

ターコネクトと呼ばれるネットワーク

を介してネットワーク分散MPIとして

動作するが,1台の計算機内の複数の

コアでローカルMPIとして動作させる

こともできる。ローカルMPIは同一計

算機のメモリを分割して使用するため

小規模な計算に適しており,メッセー

ジ通信が計算機内で行われるためデー

タ転送速度も速い。

一方,ネットワーク分散MPIは各計

算機のメモリを利用するため大規模な

モデルに適しているが,ネットワーク

を経由してデータ転送を行うため通信速度の影

響を大きく受ける。インターコネクトの代表的な

ものとしては,Myrinet(10Gbps)・Quadrics

(7.2Gbps)・InfiniBand(6.6Gbps)などが提供さ

れているが,低速ではあるがコストパフォーマン

スの良さからGigabit Ethernet(1Gbps)が使われ

ることも多い。

モデルを分割する方法は,モデル形状の部位に

よって分割する領域分割と,数値計算のマトリッ

クス(代数式)を分割するマトリクス分割がある。

構造解析では後者のマトリクス分割が使われるこ

とが多い。

3. 並列計算についての基礎検討

基礎検討は汎用有限要素法ソフト

ウェアのANSYSに並列計算機能を付

加するMechanicalHPCを追加して

行った。本ソフトウェアはSMP及び

MPIに対応している。

第 3 図に検討を行った解析モデル

を示す。通常の設計でよく用いられて

いる固有値解析と線形応力解析である

線形構造解析,及び大変形・弾塑性を

考慮した非線形構造解析を例題として

行った。また,同一形状でメッシュサ

イズを変えて,自由度で示すように4種類のモデル

サイズによる影響について比較した。第 1 表に主

要な並列化と計算機の使用コアパターンを示す。

表のパターン名は,先に示した並列化の方式と使

用した計算機の台数を示し,コア数は計算に用い

( 63 )

明電時報 通巻323号 2009 No.2

解析におけるHPC(ハイパフォーマンス

コンピューティング)技術

解析対象 のモデル

複数の小さな モデルに分割

小さなモデルを各コア で並列に計算

マルチ CPU

マルチコア CPU

LAN

第 1図 分散処理HPC技術における分散処理のイメージを示す。解析モデルを分割し各CPUコアに割り当て,並列に計算することにより計算時間を短縮する。

共有メモリ

SMP

分散メモリ

MPI

MPIライブラリ

第 2図 SMPとMPIHPCの2つの方式であるSMPとMPIの違いを示す。SMPはメモリを共有して計算処理を行うが,MPIはコアごとにメモリを独立して使用し,メッセージ通信でデータのやり取りを行う。

モデルサイズ

サイズS サイズX

S自由度 19万

モデルサイズ L自由度 73万

M38万

L67万

X

0.0000.013 0.038

0.025 0.050(m)

147万

(a) 固有値解析・線形応力解析用の例題 (b) 非線形構造解析用の例題

第 3図 検証用の例題検証に用いた解析例題のイメージと問題のサイズ(自由度)を示す。(a)の固有値解析(PCG LANCZOS法)及び線形応力解析のモデルはモータのフレームであり,サイズをS,M,L,Xで表記する。(b)の非線形構造解析のモデルは電極であり,大変形・弾塑性を解析する。

Page 3: 明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

たすべてのコア数を合計した値である。

第 2 表に使用した計算機の代表的な仕様を示す。

インターコネクトは,基本的に1Gbps Ethernetを

使用している。

比較する指標には,実行時間(Elapsed Time)

を計測し,1コアのみ使用した場合を基準とした計

算速度の比である性能比を採用した。

3.1 実行形態による比較

a コア数と分散方式  非線形構造解析につい

て,計算機Aにおいて使用コア数と分散方式を変え

て比較した結果を第 4 図に示す。ここで,MPI2

の記号例は第 1 表に示すように,並列化方式が

MPIで計算機が2台構成であることを示す。SMP

は4コアで性能向上が飽和することがわかる。一方,

MPI1~3はSMPに比べ性能比が高いが,コア数が

6個以上になると向上の割合が低下することが分か

る。これは分割したことによる分割境界の整合性

に関する処理,通信量のオーバヘッドの影響など

と考えられる。

また,インターコネクトの速度を変え100Mbps

Ethernetとした場合で,3台構成としたMPI3と2台

構成のMPI2を比較すると,MPI3の方が効果が低

い。この原因は,使用する計算機の増加により,

データ通信量が増えるためと考えられる。

s ネットワーク分散の効果  次に,2台の計算機

においてMPIの効果を検証した結果を第 5 図に示

す。ここで,横軸の項目はX(Y)として表し,X

は計算機名(第 2 表)を,Yは使用コア数を示して

いる。また,“+”記号はネットワーク分散で

2台の計算機を使用することを意味している。

1台で2コア使用したローカルMPI(第 5 図の

B s及びC s)に比べて2台で1コアずつネット

( 64 )

明電時報 通巻323号 2009 No.2

解析におけるHPC(ハイパフォーマンス

コンピューティング)技術

パターン名 コア数

6

8

2

8

2

4

6

3

6

9

計算機2 使用コア

計算機1使用コア 計算機3 使用コア

SMP

MPI1

MPI2

MPI3

第 1表 検証パターン計算時間の検証を行った分散構成と使用する計算機数とコア数の例を示す。検証結果ではパターン名とコア数の組み合わせで構成を表す。

計算機名 仕様(CPU, メモリ, OS)

A Xeon 2.67GHz (8コア×2CPU) 16GB, WindowsXP 64bit

B PentiumD 3.2GHz (2コア) 4GB, WindowsXP

C PentiumD 3.0GHz (2コア) 4GB, WindowsXP

D Xeon 3.06GHz (2CPU) 2GB, WindowsXP

E Athlon64 1GHz 1GB, WindowsXP

第 2表 計算機一覧検証で使用した計算機の仕様を示す。

5

4

3

2

1

0121086

コア数

MPI2(100Mbps Ethernet)

MPI3(100Mbps Ethernet)

SMP

MPI1MPI2

MPI3

420

性能比

第 4図 非線形構造解析の結果計算機Aを使用した非線形構造解析において,パターンごとに使用コア数を変えて性能を比較した。

3.0

2.5

2.0

1.5

1.0

0.5

0.0D(1) B(1) B(2)

D(2)+E(1) B(2)+C(2) E(1) D(2) C(1) C(2)

B(1)+C(1)

使用計算機とコア数(“+”はネットワーク分散を表す)

性能の近い2台の 組み合わせ

性能の低い計算機 を組み合わせる

基準 基準

性能比

第 5図 ネットワーク分散の効果非線形構造解析において,2台の計算機を使用したときのMPIの効果を示す。性能の近い2台を使用した場合と,性能の低い計算機を組み合わせた場合について基準と比較した。横軸の項目名は計算機名と使用コア数で表す。

Page 4: 明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

ワーク分散させた場合(第 5 図のBa+Ca)は

若干性能が向上している。更に4コア使用する

(第 5 図のBs+Cs)と2倍以上の性能向上が得

られる。比較的遅いインターコネクトを使用した

場合でもネットワーク分散による効果は大きい。

また,遅い計算機と組み合わせた場合(第 5 図の

Ds+Ea)も効果が認められる。

3.2 解析の種類と分散構成による検証

計算機Aを3台使用し,使用コア数の構成を変化

させ計測した。解析の種類は第 3 図の非線形構造

解析・固有値解析・線形構造解析で,固有値解析

と線形構造解析においてはモデルサイズも変化さ

せた。

a 解析の種類とサイズの比較  固有値解析と

線形構造解析に対して,検証パターン(第 1 表)

ごとにモデルサイズと性能比の関係を比較した結

果を第 6 図に示す。SMPはサイズによる性能の変

化はほとんどないが,MPIは大きな問題において

より性能比が大きくなることが分かった。

s ネットワーク分散MPIの効果  同じ使用コ

ア数で計算機の台数を1台(ローカルMPI)から

3台まで変えた場合のMPIの性能比を検討した結果

を第 7 図に示す。ここでは,4種類のモデルサイ

ズの性能比を平均化して示した。

線形構造解析では分散により性能比も向上する

が,固有値解析では分散により性能比が低くなる

逆の傾向となることが分かった。

d 性能向上の最大値の比較  問題の種類別,

サイズ別に性能向上の傾向をまとめて検討した結

果を第 8 図に示す。図中のX MPI3などの記号例

は第 3 図に示したサイズXのモデルを第 1 表の

MPI3の検証パターンで計算したことを示してい

る。モデルサイズ別に最大の性能向上が見られる

コア数を○印で囲んでいる。これから,サイズが

大きいほど,コア数を増やした効果が高くなる。

しかし,コア数を必要以上に増やすと性能が低下

する傾向が得られた。固有値解析ではサイズが大

きい場合はMPIの効果が高いが,線形構造解析に

比べて効果は低い。問題の種類によらずサイズが

小さいとコア数増加による効果は低い。

第 8 図の結果からモデルサイズに対して今回の

検証で最適であったコア数の関係を第 9 図に示す。

なお,これらの図では性能の良い代表的なパ

ターンのみ記載したが,他のパターンも同様の傾

向を示しているので割愛した。

( 65 )

明電時報 通巻323号 2009 No.2

解析におけるHPC(ハイパフォーマンス

コンピューティング)技術

3.0

2.5

2.0

1.5

1.015010050

自由度(万) (a) 線形構造解析におけるモデルサイズの影響

MPI3(6)

MPI2(4)

MPI1(8)

MPI1(2) SMP(4)

SMP(2) XS M L0

性能比

3.0

2.5

2.0

1.5

1.015010050

自由度(万) (b) 固有値解析におけるモデルサイズの影響

MPI3(6)

MPI2(4)

MPI1(8)

MPI1(2)

SMP(4)

SMP(2)

XS M L0

性能比

第 6図 モデルサイズの影響1台から3台の計算機を使用したときのモデルサイズによるMPIの効果への影響を示す。モデルサイズは自由度数で表す。検証パターンはパターン名(第 1表)と使用コア数で表し,代表的な例のみ記載した。

線形構造解析 固有値解析 2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0MPI1(6) MPI2(4) MPI1(4) MPI2(6) MPI3(6) 分散パターン(コア数)

性能比

第 7図 MPIの効果固有値解析及び線形構造解析において,使用コア数を4又は6に固定し計算機の台数を1台から3台まで変えた場合のMPIの性能を示す。モデルサイズの影響を除くためモデルサイズごとの結果を平均化した。右の項目ほどネットワーク分散の度合いは高くなる。

Page 5: 明電時報 2009 No.2 Vol½ž3はSMPに比べ性能比が高いが,コア数が 6個以上になると向上の割合が低下することが分か る。これは分割したことによる分割境界の整合性

4. ま  と  め

汎用有限要素法プログラムANSYSでHPC技術

を用いた場合の解析について,問題の種類,問題

の大きさ,更に使用する計算機の条件において効

率的な計算方法の検討を行い,以下の結果が得ら

れた。

a MPIの方がSMPよりも効果は大きい。

s 構造解析においては,ローカルMPIよりも

ネットワーク分散MPIの方が効果は大きい。

d 固有値解析ではモデルサイズに依存するが,

傾向としてはローカルMPIの方が効果は大きい。

f インターコネクトは1Gbps Ethernetでは十分

な性能が出ているが,100Mbps Ethernetでは性能

が低下する。

g 本検討の範囲では,最も効果が大きかった非

線形構造解析の場合,3台の計算機で最大約75%の

計算時間短縮(本例題では平均約16時間から約4時

間へ短縮)を実現できた。

5. む  す  び

ネットワーク分散により計算時間の大幅な短縮

を行うことができるが,解析のモデルにより効果

が相違することが分かった。今後,技術計算の効

率化並びにこれを用いた設計の最適化支援技術の

開発を進めていく所存である。

a ANSYS社製品リリース11.0アップデートセミ

ナー資料Vol.2

( 66 )

明電時報 通巻323号 2009 No.2

解析におけるHPC(ハイパフォーマンス

コンピューティング)技術

《参考文献》

江尻光良 Mitsuyoshi Ejiri

ソフトウェア技術及び解析技術の開

発に従事

佐々木聖夏 Kiyoka Sasaki

解析技術の開発に従事

《執筆者紹介》

12

10

8

6

4

2

0150XLMS

10050自由度(万)

線形構造解析

固有値解析

0

最適コア数

第 9図 モデルサイズと最適コア数固有値解析及び線形構造解析において,モデルサイズによる最適な使用コア数を示す。

3.0

2.5

2.0

1.5

1.0

0.512108642

コア数

○は各サイズ での最良値

X MPI3

X MPI1

M MPI2

S MPI2

L MPI1

L MPI3

M MPI3

S MPI3

(a) 線形構造解析における性能の傾向

0

性能比

3.0

2.5

2.0

1.5

1.0

0.512108642

○は各サイズ での最良値

0

性能比

コア数 (b) 固有値解析における性能の傾向

第 8図 性能向上の傾向計算機Aを使用した固有値解析及び線形構造解析において,モデルサイズ別に,パターンごとに使用コア数を変えて性能を比較した。検証パターンはサイズとパターン名(第 1 表)で表し,代表的な例のみ記載した。