Upload
buithuy
View
228
Download
8
Embed Size (px)
Citation preview
大規模連携実証実験報告大学・研究機関6機関をつないだ現実の運用を考えた実証評価
Manabu [email protected]
2008/06/06
動き出したサイエンスグリッドNAREGI
―研究リソース共有の世界を広げるミドルウェアを公開―平成20年5月9日付けプレスリリースより抜粋
NAREGIミドルウェアで100TFLOPS級のグ
リッド環境を構築できるか!?
内部利用 portal /…/cdas
RENKEI-OsakaRENKEI-Osaka
GridVM Engines
GridVM SchGridVM Sch GridVM SchGridVM Sch
GridVM Engines
GridVM SchGridVM Sch
SS連携
GridVM Engines
png1054png1054
User cert
Host cert
GridVM GridVM
sng0001(sx)
sng0001(sx)
RENKEI-NaregiRENKEI-Naregi
(Linux)(Linux)
GridVM Schdpc.kyushu
GridVM Schdpc.kyushu
VO1VO1GSIC-VOSGSIC-VOS
GridVM SchGridVM Sch
(Solaris)(Solaris)
GridVM SchGridVM Sch
GridVM pbg2043GridVM pbg2043
GridVM png1051GridVM png1051
GridVM pfg1005GridVM pfg1005
GridVM Schdpca064
GridVM Schdpca064
GridVM Schdpca128
GridVM Schdpca128
GridVM Schdpcb064
GridVM Schdpcb064
GridVM Schdpcb128
GridVM Schdpcb128
GridVM Schdpcc128
GridVM Schdpcc128
GridVM Schdpcd048
GridVM Schdpcd048
GridVM Schdpcd049
GridVM Schdpcd049
GridVM Schdpcd057
GridVM Schdpcd057
GridVM Schsr11k
GridVM Schsr11k
松岡研内
vo1利用
GridVM S&EGridVM S&EGridVM SchGridVM Sch
遊休遊休 (Linux)(Linux)
NAREGI CAOsaka Univ. Grid CA
SSSS
PortalPortal
IS‐CDASIS‐CDAS
IS‐NASIS‐NAS
大阪大学 東京工業大学 NII 分子科学研究所
九州大学
名古屋大学
UMSUMS
VOMSVOMS
UMS/VOMSUMS/VOMS UMS/VOMSUMS/VOMS UMS/VOMSUMS/VOMS
CDAS/GVM‐SCDAS/GVM‐S
PortalPortal
SSSS SSSS
PortalPortal
SSSS
CA/RACA/RA
IS‐CDASIS‐CDAS
PortalPortal
IS‐CDASIS‐CDAS
CA/RACA/RA
IS‐CDASIS‐CDAS
RARA
IS-NASIS-NASIS-NASIS-NAS
IS‐CDASIS‐CDAS
rcsrcs
“NAREGI 100T Project” Phase‐2: 3/27時点のノード構成
Fact Sheet 1: 管理ノード構成
Phase‐1/
Phase‐2
SINET3
接続グリッド認
証局ポータル SS
IS
NAS CDAS
大阪大学
2007年8月
10Gbps ○ ○ ○ ○ ○
東京工業大学 4Gbps - ○ ○ ○ ○
九州大学 - - - - - -
NII/NAREGI 1Gbps ○ ○ ◎※1 ○ ○
分子科学研究所 2008年1月 1Gbps - ○ ○ - ○
名古屋大学 2008年3月 1Gbps - △※2 △※2 △※2 ○
2ヶ所 4ヶ所 4ヶ所 3ヶ所 5ヶ所
※1 NII/NAREGIにSS/RCS (NAREGIv1の予約サービス機能) を設置
※2 名古屋大学の管理ノードは、学内サービス向けの設定のまま、IS‐CDAS以下を連携用に追加設定
Fact Sheet 2: 計算ノード構成アーキテクチャ OS スケジューラ ノード数 TFLOPS
大阪大学
gridvms1.hpc.cmc SX‐8R SUPER‐UX NEC NQS‐II 1 0.3
gridvms2.hpc.cmc x86 Linux NEC NQS‐II 8 0.4
gridvms3.hpc.cmc x86 Linux NEC NQS‐II 450 16.8
東京工業大学 tggn‐vms2.grp.gsic x86+ClearSpeed Linux Sun GridEngine 120 18.9
九州大学 dpc.kyushu.grid x86 Linux PBS Pro 0.1
NII/NAREGI
pbg2043 SX‐8 SUPER‐UX NEC NQS‐II 2 0.2
pfg1005, png1051, png1053, png3000
x86 Linux PBS Pro 14 0.1
分子科学研究所
dpca064.grid, dpca128.grid, dpcb064.grid, dpcb128.grid, dpcc128.grid, dpcd048.grid, dpcd049.grid, dpcd057.grid
x86 Linux PBS Pro 278 3.4
sr11k.grid POWER5 AIX LoadLeveler 32 3.5
名古屋大学naregi4.cc x86 Linux PBS Pro 6 0.2
ngrd1.cc SPARC Solaris Parallelnavi 2 0.3
44.1
各拠点の実情に合わせた
多様な計算機資源の提供を受けた連携
阪大CMCの大規模計算機システム構成
5.3 TFLOPS
3.0 TB
16.4 TFLOPS
10.0 TB
NEC SX‐8R
6.1 TFLOPS
2.0 TB
Total: 46.1 TFLOPS, 16.0 TB
遊休時利用PCクラスタ
NEC Express‐5800 56Xd
遊休時利用PCクラスタ
NEC Express‐5800 56Xd
18.3 TFLOPS
1.0 TB
10Gbps10Gbps
Not Yet Not Yet InstalledInstalled
11‐‐nodenode
88‐‐nodesnodes
450450‐‐nodesnodes
5.3 TFLOPS3.0 TB
16.4 TFLOPS10.0 TB
遊休時利用PCクラスタ
NEC Express‐5800 56Xd
遊休時利用PCクラスタ
NEC Express‐5800 56Xd
18.3 TFLOPS1.0 TB
NEC SX‐8R
6.1 TFLOPS2.0 TB
10Gbps10Gbps
useruser
Kerberos KDCKerberos KDC
NAREGI M/Wの各コンポーネントと阪大CMCの構成との位置関係
LocalAuthentication
Local Scheduler:NEC NQS‐IIw/JobManipulatorw/GridScheduleMaster
Grid PortalGrid Portal SSSS
MyProxy+MyProxy+MyProxyMyProxy
UMSUMS
CA/RACA/RA VOMSVOMS
Grid LDAP (CMC Proprietary)
Grid LDAP (CMC Proprietary)
IS‐CDASIS‐CDASIS‐NASIS‐NAS
GridVM Serverfor SX
GridVM Serverfor SX
GridVM Serverfor PC‐Cluster
GridVM Serverfor PC‐Cluster
GridVM Serverfor PC‐Cluster
GridVM Serverfor PC‐Cluster
NAREGI Grid Middleware β2
loginlogin
frontendfrontend
100TFLOPS集まらなかったのは・・・
6‐months6‐months
6‐months6‐months
今回の連携に参加し
たクラスタ群:
3/26 16:14:28 時点で
•17クラスタ
• 887ノード
上記のうち、阪大
CMCの遊休時利用型
クラスタ (449ノード)
の予約マップ
Webサービスのメッ
セージ (SOAP
Envelope) を解析す
るためのオプション
Webサービスのメッ
セージ交換による状
態推移をすべて記録
How SS Works:モニタツールによる監視
Wed Mar 26 21:54:00
Wed Mar 26 21:54:00
Wed Mar 27 09:00:00
Wed Mar 27 09:00:00
Out of Service
Out of Service
このテストジョブがわだかまっていて・・・
このテストジョブがわだかまっていて・・・
本当に動かしたいジョブが実行できない
本当に動かしたいジョブが実行できない
東工大TSUBAME 120ノードの予約マップ
How SS Works:モニタツールによる監視
ISによる利用統計情報
資料協力: 大阪大学レーザーエネルギー学研究センター (平成19年度CSI委託事業報告交流会発表予定資料より抜粋)
資料協力: 九州大学青柳研究室
6拠点6拠点
“RENKEI‐Osaka”“RENKEI‐Osaka”
“RENKEI‐Osaka”“RENKEI‐Osaka”
九州大学九州大学 大阪大学大阪大学 名古屋大学名古屋大学 分子科学研究所分子科学研究所 東京工業大学東京工業大学 NII/NAREGINII/NAREGI
NII/NAREGI
認証局
NII/NAREGI
認証局
阪大CMC
認証局
阪大CMC
認証局
PKIドメイン
PKIドメイン
RORO
VO: Virtual OrganizationRO: Real OrganizationPKI: Public Key Infrastructure
“RENKEI‐Osaka”
“RENKEI‐Osaka”
“vo1”“vo1”
VOドメイン
VOドメイン
グリッド認証局と仮想組織
“Registration Agency”構想に向けて
CSI‐GRID
SXSX
東大SR8K
SW
関大計算機
PGLab
ルータ
分子研計算機
Catalyst6506
情報研計算機
Catalyst6506
.201LXLX
CISCO2520
計算機北大
SXSX
Catalyst3750
計算機
東北大LXLX
Catalyst4006
計算機
京大LXLX
計算機
名大
Catalyst4506
SXSX
FoundryRX‐4
クラスタ×3阪大
LXLX
計算機
同志社(高野研)
LXLX
計算機
九大
計算機
九工大
CSIグリッド網 (各大学との接続)
SW
SW
計算機
????東工大
LXLX
同志社(知的SD)
計算機
SW
SINET3 L3‐VPN: “CSI‐GRID”
1GB
128KiB 遅延
7,630trans. 1ミリ秒 12ミリ秒 200ミリ秒
10Mbps 800秒 0.1秒 807秒 892秒 2,326秒
100Mbps 80秒 0.01秒 88秒 172秒 1,606秒
1,000Mbps 8秒 0.001秒 16秒 100秒 1,534秒
10,000Mbps 0.8秒 0.0001秒 8秒 92秒 1,527秒
1GB
16MiB 遅延
60trans. 1ミリ秒 12ミリ秒 200ミリ秒
10Mbps 800秒 13秒 800秒 801秒 812秒
100Mbps 80秒 1.3秒 80秒 81秒 91秒
1,000Mbps 8秒 0.13秒 8秒 8.7秒 20秒
10,000Mbps 0.8秒 0.013秒 0.9秒 1.5秒 13秒
Latency: 1‐byte MPI_Send+MPI_Recv
2‐processes
Intel MPI 3.0
Case‐1 0.94us
Case‐2 10.26us
Case‐3 63.32us
GridMPI 2.0rc1 (YAMPI 1.0)
Case‐1 2.95us
Case‐2 12.28us
Case‐3 68.24us
転送バッファサイズによる遅延の影響の比較
Collaboration Tools
「夢のグリッド」の実現に向けて