Computer Architecture 8．プロセッサと周辺装置の算機アーキテクチャーComputer Architecture 1 8．プロセッサと周辺装置のインターフェース・バス：プロセッサとメモリ

1計算機アーキテクチャー Computer Architecture

８．プロセッサと周辺装置のインターフェース

・バス：プロセッサとメモリ

への入出力装置の接続

　プロセッサ

出　力

入　力

記　憶

データパ　ス

制　御

コンピュータ

コンパイラ

インタフェース


代表的な入出力装置

主記憶入出力

コントローラ

ﾃﾞｨｽｸ装置

ﾃﾞｨｽｸ装置

入出力

コントローラ

入出力

コントローラ

グラフィク

出力ネットワーク

プロセッサ

キャッシュ

メモリｰ入出力間バス

割込み


プロセッサバス

バス

　・１組の制御線と１組のデータ線で構成される。

　　（制御線：入出力リクエストとそれに対する応答信号の送信）　・サブシステムが共有する通信リンク。　・メモリとプロセッサ間、プロセッサと入出力装置間等の通信は　　このバスを介して行われる。

　利点利点　・融通性が高い　・低コスト

　欠点欠点　・通信のボトルネックになって、入出力スループットの最大値が

　　制約される場合がある。　　（バスのバンド幅が入出力スループットの上限を決定）


バス・トランザクション

入力操作　（ディスクから主記憶へ）

バス・トランザクション　（bus transaction)　・バスを通じての一連の処理。　・アドレスの送出と、それに続くデータの送信または受信から成る。

主記憶

ディスク装置

（１）プロセッサは、制御線を介して書込みリクエストを主記憶へ送り、　　データ線を介して、アドレスを主記憶へ送る。

ディスク装置

制御線

データ線

（２）主記憶は準備が整うとディスク装置に信号を送り、ディスク装置がデータを　　主記憶に転送する。

制御線

データ線プロセッサ

プロセッサ主記憶


バス・トランザクション

出力操作　（主記憶からディスクへ）

主記憶

ディスク装置

（１）プロセッサは、制御線を介して読出しリクエストを主記憶へ送り、　　データ線を介して、アドレスを主記憶へ送る。

ディスク装置

制御線

データ線

（３）主記憶はデータ線を介してデータをディスク装置に送り、制御線を通して、　　データが利用可能であることをプロセッサに送る。

制御線


プロセッサ

主記憶

ディスク装置

（２）主記憶はデータを読み出す。制御線


主記憶


バスの種類

プロセッサ－主記憶間バス (processor-mimory bus)：　・短距離　・高速。　・マシンごとに固有設計

入出力バス (I/O bus)：　・長距離。　・接続される装置のバンド幅が広範囲にまたがることが多い。　・直接主記憶にインタフェースされることは稀。　・標準バスとして、さまざまなマシンで使用されることが多い。

バックプレーン・バス (backplane bus)：　・プロセッサ、主記憶、入出力装置が単一バス上で共存できるように考案。　・プロセッサ－主記憶間通信と入出力装置－主記憶間通信の要求の

　　バランスをとる働きをもつ。　・標準バスとして、さまざまなマシンで使用されることが多い。


バスの種類

（１）

（３）

バックプレーン・バス

（２）

プロセッサ主記憶

プロセッサ－主記憶間バスプロセッサ主記憶

ﾊﾞｽ･ｱﾀﾞﾌﾟﾀ

入出力

バス


入出力

バス

プロセッサ－主記憶間バスプロセッサ主記憶


バックプレーン・バス



入出バス


同期式バス

同期式 (synchronous)：　・制御線の中にクロック線が組込まれ、クロックを基準とした固定的な

　　通信プロトコルが使用される。　・プロセッサ－主記憶間バスに適用されることが多い。

　利点利点　・プロトコルがあらかじめ定められており、論理も簡単なので、

　　高速化可能。　欠点欠点

　・同じバスに接続される装置は同じクロック周波数で動作する必要有り　・高速な同期式バスでは、クロック・スキューの問題が発生するため、

　　バス長を長く出来ない。


非同期式バス

非同期式 (synchronous)：　・クロックが組込まれない。　・プロセッサ－主記憶間バスに適用されることが多い。　・ハンドシェーク型プロトコルを使用する。

　利点利点　・多種多様な装置に対応可能。　・クロック・スキューや同期を取る問題に煩わされる事なく、バス長を

　　を延ばすことができる。　欠点欠点

　・遅い。

ハンドシェーク型プロトコル　　データの送り手と受け手の間で一連の手順を踏んで連絡を行い、　両者が合意した時のみ次のステップに進む。


バスのバンド幅の拡大

１．データ・バスの幅　・複数語転送に必要なバスのサイクル数が少なくなる

２．アドレス線とデータ線の分離/多重化　・分離すれば、アドレスとデータを同じバス・サイクルで転送可能

３．ブロック転送　・１回のリクエストに応じて、アドレスの最送出やバスの解法をせずに、　　複数語を転送。　・大きなブロックの転送時間短縮

　コストコスト　・バス線の増加　・複雑化　・リクエストへの応答時間の増大（大きなブロック転送時の待ち）


バスへのアクセス権の獲得方法

通信を欲する入出力装置がどのようにバスを予約するのか

バス・マスター　・バスへのアクセス制御装置　・全てのバス・リクエストを起動および制御　　　　例：　プロセッサ＝バス・マスター、主記憶＝スレーブ　・バス・マスターが複数ある場合は調停が必要

バスの調停　(bus arbitration)　・どのバス・マスターが次にバスを使用するかを決定する操作　　（バスを使用したい装置が調停回路にリクエスト信号を出し、許可を得る。　　　許可を得たらバスを使用し、終わったら必要が無くなった旨を調停回路に送る）

　・各入出力装置にバス優先順位を付け、高い順にサービスを提供　・バスを使用したい装置に、最終的にはバスが割り当てられる様に保証（公平さ）


バスの調停機構デイジーチェイン方式：

　・ bus grant(許可)線が優先順位の高い装置から低い装置へ芋づる式に接続。　・バス権を要求した優先順位の高い装置は、下位の装置へのbus grant線を　　引き下げ、信号が中継されないようにする。　△ 公平さを保証できない。

集中並列方式：　PCI（標準規格のバックプレーン・バス）で採用　・複数のbus request線を使用して、各装置が独立にバスの使用権を要求　・調停回路は許可を与える装置を選択し、その装置にバス・マスターになった旨を通知　△ 調停回路がバス使用上のボトルネックとなる可能性がある。

分散型自己判定方式：　NuBus(Apple MacintoshⅡのバックプレーン・バス）で採用　・複数のbus request線を使用して、使用権を要求している各装置自らが次に使用する　　装置を決定する。　・バスを使用しようとする各装置は、バス上に自分の識別コードを送り、　　各装置はバス上の識別コードを調べて、優先順位の最も高い装置を判定。　△ 多くのbus request用の信号線が必要

分散型衝突検出方式：　Ethernet　・各装置が必要に応じて独自にバスの使用を開始。　・衝突が検出されると、その中からどれかを選択する機構が働く。


代表的なバス規格

ANSI X3.131PCI規格の名称

25メートル0.5メートルバスの最大長

7～31（バス幅－1）

1024（複数のﾊﾞｽ・ｾｸﾞﾒﾝﾄ

を使用、各ｾｸﾞﾒﾝﾄには

最大32装置）

装置の最大数

2.5～40Mバイト/秒（同期式）

1.5Mバイト/秒（非同期式）80Mバイト/秒

基本バスの達成可能な

バンド幅（推測値）

5～40Mバイト/秒133～512Mバイト/秒理論上のピーク・バンド幅

非同期式/同期式（5～10MHz)同期式（33～66MHｚ）クロック方式

自己判定集中並列方式調停方式

複数複数バス・マスター数

多重化多重化アドレス線とデータ線の多重化

8～3232～64基本データ・バス幅（信号）

入出力バックプレーンバスのタイプ

SCSIPCI特性


9．並列プロセッサ

　プロセッサ

出　力

入　力

記　憶

コンパイラ

インタフェース

データパ　ス

制　御

　プロセッサ

コンピュータ

単一チップのプロセッサ上で時分割の負荷

を処理しきれない場合、高性能な単一

チップの単体プロセッサを作成するよりも、

単一チップの単体プロセッサ多数で構成

されるマルチプロセッサの方が効率が良い


マルチプロセッサ設計の鍵

並列プロセッサ間でどのようにデータを共有するか。　－　単一アドレス空間（共有記憶型プロセッサ）　　　　　・均等型メモリ・アクセス（ＵＭＡ）マルチプロセッサ　　　　　　　または対称型マルチプロセッサ（ＳＭＰ）　　　　　・非均等型メモリ・アクセス（ＮＵＭＡ）マルチプロセッサ　－　メッセージ交換（私有記憶型プロセッサ）

並列動作しているプロセッサ間の調整はどのように行うか。

プロセッサをいくつ組み込むか。

ＵＭＡ：uniform memory accessＳＭＰ：symmetric multiprocessorＮＵＭＡ：non-uniform memory access


マルチプロセッサの物理的接続方式

主記憶

プロセッサ

キャッシュ

単一バス

入出力

・・・

・・・

プロセッサ

キャッシュ

プロセッサ

キャッシュ

単一バス方式のマルチプロセッサ

プロセッサ

キャッシュ

ネットワーク

・・・

・・・

プロセッサ

キャッシュ

プロセッサ

キャッシュ

主記憶・・・主記憶主記憶

ネットワーク結合のマルチプロセッサ


単一バス方式のマルチプロセッサ

主記憶

プロセッサ

キャッシュ

単一バス

入出力

プロセッサ

キャッシュ

プロセッサ

キャッシュ

・・・

・・・

個々のマイクロプロセッサは複数チップからなる１台のプロセッサよりはるかに小さいので、バスを短くできる。キャッシュの使用により、バス・トラヒックを軽減できる。キャッシュと主記憶との一貫性を保つ機構が考案されている。

同一データのコピーを複数のキャッシュに配置する必要あり


キャッシュ・コヒーレンシ

スヌープ方式

　・全てのキャッシュ・コントローラがバスを監視し、自分のキャッシュ

　　に保持されているデータが共有ブロックのコピーかどうかチェック。　・バス上にアクセス要求が流れるごとにアドレス・タグをチェック。

　　⇒　キャッシュのアドレス・タグ部を二重化し、スヌープ用の　　　　読出しポートを別に設ける。

主記憶

プロセッサ

単一バス

入出力

・・・

・・・ｽﾇｰﾌﾟ・

ﾀｸﾞ

ｷｬｯｼｭ・ﾀｸﾞ

およびﾃﾞｰﾀ

プロセッサ

ｽﾇｰﾌﾟ・

ﾀｸﾞ



プロセッサ

ｽﾇｰﾌﾟ・

ﾀｸﾞ




キャッシュ・コヒーレンシ

キャッシュ・コヒーレンシの維持には・・・　・書込み時、プロセッサは排他的にアクセスできなければならない。　・データ・オブジェクト読出し時、プロセッサが最新のコピーを得る必要有り。

⇒　書込みが行われた後、全てのプロセッサは該当データの新しい値を入手要。⇒　書込まれるデータ・オブジェクトを共有するのは、どのキャッシュか把握要。

キャッシュ・ブロック中の状態ビットをスヌープ方式用に拡張しバス上の動きを監視するために使用。読出しミス発生時　　全てのキャッシュは要求されたデータ・ブロックのコピーが自分の所に　　保持されているか否かをチエックし、保持されていれば適切は措置を行う。書込みミス発生時　　全てのキャッシュは要求されたデータ・ブロックのコピーが保持されているか　　否かをチエックし、無効あるいは新しい値への更新をいう措置をとる。


スヌープ方式のプロトコル（書込み対処法）

ライト・インバリデート　（該当データ以外のコピーを無効にする）　あるプロセッサがデータを書き込む場合、　①　自分の所のデータを更新前に、無効化要求信号をバスに流す。　②　他の全てのキャッシュは、自分の所に該当データのコピーを保持している　　　か否かをチェックし、保持している場合はそのブロックを無効にする。

ライト・アップデート／ライト・ブロードキャスト　　　（共有される全コピーを新しく書き込まれる値で更新する）　あるプロセッサがデータを書き込む場合、　①　書込みをい行ったプロセッサからバスを通して、新データを他のキャッシュ　　　にブロードキャスト。

　②　他の全てのキャッシュは、該当データの各コピーを新しい値で更新。

　利点利点　バスのバンド幅に対する需要削減

　　　　　　　（最初の書込み時に他のコピーを無効化する時のみバスを使用）

　利点利点　レイテンシ削減　（新しい値がキャッシュ中で直ちに利用可能）


コヒーレンシ制御を用いた同期

不可分なスワップ命令を実行できる構成の場合のロック機構

① 最初にロック変数を読出し状態を判定、ロックが解除されるまで、繰り返す。　　（スピン待機）② ロック変数値が０になったのを知ったプロセッサは１を書込み(スワップ命令）　　ロック以降のコード部分を実行。③ 抜け出る時にロックに０を書き込む。（ロック競合状態）

共通タスクに関与している複数プロセッサ間の協調動作＝同期

　・ロック変数（セマフォ）を使用　[０：ロック解除状態、１：ロック状態]課題：

　ロックを獲得するプロセッサの決定機構　変数をロックする命令の実現

ａ．１回のバス操作の中で、主記憶のあるアロケーションに対し、　　　読出しとロック値の書込みが同時に実行可能ｂ．この命令実行中は、他のプロセッサまたは入出力装置による　　　主記憶の読み書きはスワップ命令が完了するまで禁止

ライト・インバリデート方式


並列コンピュータの例(1)

科学技術計算向けサーバ SR8000


● 高性能RISCマイクロプロセッサ最先端のゲート長0.14μｍCMOSテクノロジーを採用。

1) ６４ビットアドレッシング2) 高演算性能、高メモリースループット3) 高信頼性

● 擬似ベクトル処理機構

後続命令を止めることなく、メモリーからデータをパイプライン的に取り込むこと機構。ベクトル型スーパーコンピュータと同様に、メモリー上の大規模データを演算器へ高速に供給。● 協調型マイクロプロセッサ機構

ノードを構成する複数のマイクロプロセッサを一斉にしかも高速に起動させる機構。要素並列処理においてベクトルプロセッサと同等の高速性を実現するとともに、より広範囲な並列処理による実効性能を向上。

並列コンピュータの例


分岐予測ユニット

ﾒﾓﾘｲﾝﾀｰﾌｪｲｽ

命令ユニット

浮動小数点演算器

整数演算器

ｱﾄﾞﾚｽ加算器

ﾃﾞｰﾀｷｬｯｼｭ



命令ｷｬｯｼｭ

命令ｷｬｯｼｭ

ﾚｼﾞｽﾀﾌｧｲﾙﾚｼﾞｽﾀﾌｧｲﾙ

ﾚｼﾞｽﾀﾌｧｲﾙ

ｱﾄﾞﾚｽｷｬｯｼｭ

ｼﾉﾆﾑRAM

ｱﾄﾞﾚｽｷｬｯｼｭ

分岐ｷｬｯｼｭ

演算制御

ｷｬｯｼｭｺﾝﾄﾛｰﾙ

診断ユニット

並列コンピュータ用CPUの例

特徴

- 64bitｱﾄﾞﾚｯｼﾝｸﾞ- 4wayｽｰﾊﾟｰｽｶﾗｰ

- 4wayｾｯﾄｱｿｼｱﾃｨﾌﾞ　ｷｬｯｼｭ:　命令ｷｬｯｼｭ　64KB　ﾃﾞｰﾀｷｬｯｼｭ　128KB

- 0.14um CMOS- ｸﾛｯｸ周波数: 　　　　　　　　　450MHz




大規模解析はシステム性能をフルに活用して高速実行（大規模ベクトル演算処理サーバとして使用）複数の解析を同時に多重実行（複数ミニスーパーコンピュータとして使用）



● 多次元クロスバネットワーク

多数のノード間を相互に接続するネットワークは、並列処理のキーテクノロジー。ノード数の増加に伴い、そのシステム性能を維持するためには、高速ノード間ネットワークが必要。

「多次元クロスバネットワーク」により、小規模システムから大規模システムまで高いシステム性能を実現。

● スケーラビリティ

理論ピーク性能32GFLOPS（４ノード、３２ＣＰＵ）から7,372GFLOPS（５１２ノード、４０９６ＣＰＵ）まで、230倍の性能レ

ンジをもつスケーラビリティを実現。



システム

ノード数 4 8 16 32 64 128 256 512

理論ピーク性能(GFLOPS)

SR8000 32 64 128 256 512 1,024 - -SR8000モデルE1 38.4 76.8 153.6 307.2 614.4 1,228.8 2,457.6 4,915.2

SR8000モデルF1 48 96 192 384 768 1,536 3,072 6,144

SR8000モデルG1 57.6 115.2 230.4 460.8 921.6 1,843.2 3,686.4 7,372.8

ノード間ネットワークSR8000

１次元クロスバ

２次元クロスバ３次元クロスバ - -SR8000モデルE1/F1/G1

１次元クロスバ

２次元クロスバ３次元クロスバ

ノード間転送速度

SR8000 最大 1GB/秒（単方向）×2 - -SR8000モデルE1 最大 1.2GB/秒（単方向）×2

SR8000モデルF1 最大 1GB/秒（単方向）×2

SR8000モデルG1 最大 1.6GB/秒（単方向）×2

最大総メモリー容量(GB)

SR8000 32 64 128 256 512 1,024 - -SR8000モデルE1/F1/G1 64 128 256 512 1,024 2,048 4,096 8,192

外部接続インタフェース Ultra SCSI, Ethernet/Fast Ethernet, Gigabit Ethernet, ATM, HIPPI, Fibre Channel



2002/12/6 円周率計算の世界記録を更新

スーパーコンピュータシステム「HITACHI SR8000/MPP」を用いて、東京大学情報基盤センタースーパーコンピューティング研究部門金田康正教授が、円周率計算の桁数で約1兆2,400億桁の世界記録を樹立しました。

今回の円周率計算においては、新たに共同開発した分割有理数化法(DRM法)*1 という計算アルゴリズムを用い、金田教授が1999年9月にスーパーテクニカルサーバ「HITACHI SR8000」(128ノード、1TFLOPS*2)を用いて樹立した約2,061億桁の円周率計算世界記録の約6倍と、初めて1兆桁を超える桁数を達成しました。

*1) 分割有理数化法(DRM法)：Divide and Rationalize Method.、情報処理学会論文誌第41巻第6号(2002年6月) P.1,811～1,819「級数に基づく多数計算の演算量削減を実現する分割有理数化法」(後保範、金田康正、高橋大介)にて発表*2) TFLOPS：Tera FLoating Operations Per Second、1秒当たり、1兆回の64ビット

浮動小数点演算を行う性能


スーパーコンピュータの動向 http://www.top500.org/


・640台の計算ノード（PN: Processor Node）を、640×640の単段

クロスバネットワークで結合させた分散メモリ型並列計算機・各PNは、ピーク性能8Gflopsのベクトル型計算プロセッサ（AP: Arithmetic Processor）8台が主記憶装置16GBを共有・全体ではAPが5120台でピーク性能は40Tflops、主記憶容量は10TB

地球シミュレータ http://www.es.jamstec.go.jp/



計算機アーキテクチャー

インターフェース

出力

入力

ﾃﾞｰﾀﾊﾟｽ

制御

コンピュータ

記憶

プロセッサ

３章：命令（MIPS命令ｾｯﾄ）

４章：算術論理演算

（符号付整数、ALU）

６章：パイプライン（ｽﾄｰﾙ、ﾌｫﾜｰﾃﾞｨﾝｸ)

７章：記憶階層（ｷｬｯｼｭ、仮想記憶）

８章：（ﾊﾞｽ)

コンパイラ２章：性能の評価　（CPU時間、CPI）

９章：並列プロセッサ（SMP）

５章：データパスと制御

１章：ｺﾝﾋﾟｭｰﾀの構成とﾃｸﾉﾛｼﾞ（５つの構成要素、半導体、ｺｽﾄ）


期末試験と成績の評価について

・日時：・場所：　　日時と場所は、工学事務課で確認のこと。

・試験時間：６０分。筆記用具以外、持込不可。・出題範囲：本授業の内容。

・成績の評価方法：講義出席、講義中の演習などの平常点と期末試験で評価を行う。（シラバスのとおり）

　

Documents

Computer Architecture 8．プロセッサと周辺装置の 算機アーキテクチャーComputer Architecture 1 8．プロセッサと周辺装置のインターフェース ・バス：プロセッサとメモリ

Computer Architecture 8．プロセッサと周辺装置の算機アーキテクチャーComputer Architecture 1 8．プロセッサと周辺装置のインターフェース・バス：プロセッサとメモリ