4.1 Motivation 4.2 Eine einfache Mikroarchitektur 4.3 Die ...pi4.informatik.uni-mannheim.de/pi4.data/content/courses/2009-fss/pi… · 4.3 Die Integer Java Virtual Machine und der

Praktische Informatik 2 4. Mikroprogrammierung 4a - 1© Wolfgang Effelsberg

4. Mikroprogrammierung

4.1 Motivation

4.2 Eine einfache Mikroarchitektur

4.3 Die Integer Java Virtual Machine und der Stack

4.4 Die Mikroprogrammiersprache MAL

4.5 Optimierung der Mikroarchitektur


4.1 Motivation

Die Aufgabe des Mikroprogramms ist das Ausführen der Maschinenbefehle der ISA-Ebene (Instruction Set Architecture) in Hardware.

Das Mikroprogramm verwendet die Ebene der digitalen Logik (die Gatter-Schaltwerke und Schaltnetze und die Register) der digitalen Logik direkt. Es handelt sich also sozusagen um einen Hardware-Interpreter für Maschinenbefehle.

Je nach Komplexität der Maschinenbefehle kann die Mikroarchitektur eines Mikroprozessors sehr einfach oder sehr aufwändig sein


4.2 Eine einfache Mikroarchitektur

Als Beispiel entwickeln wir eine Mikroarchitektur, die JVM-Befehle in Hardware ausführen kann. Dabei beschränken wir uns auf Integer-Operati-onen. Wir nennen sie IJVM (Integer Java Virtual Machine).

Betriebssystemmaschine

ISA (Instruktionssatz-Architektur)

Mikroarchitektur

Assembler

Digitale Logik (Gatter, Register)

Stufe 4

Stufe 3

Stufe 2

Stufe 1

Stufe 0


Das Prinzip der IJVM

In einer Endlosschleife:

• Hole den nächsten IJVM–Befehl.

• Führe den IJVM–Befehl durch ein kleines Mikroprogramm aus

Ein Mikroprogramm besteht aus Mikroinstruktionen. Eine Mikroinstruktion ist eine Folge von Bits. Die Bits beschreiben den Zustand von „Schaltern“ auf der Ebene der digitalen Logik:

• ein (1)

• aus (0)

Eine Mikroinstruktion wird in einem Maschinenzyklus ausgeführt.


Der Datenpfad der IJVM (1)

1. Register (alle 32 Bits breit, bis auf MBR):

• Speicherzugriff:

MDR: Memory Data Register

MAR: Memory Address Register

PC: Program Counter

MBR (8 Bit): Memory Buffer Register

• SP: Stack Pointer

• LV: Local Variables

• CPP: Constant Pool Pointer

• TOS: Top Of Stack

• OPC: Offset Program Counter

• H: Help register


Datenpfad der IJVM (2)

2. Zwei Busse:

• Bus B: Inhalt eines Registers auf den B-Eingang der ALU legen

• Bus C: Ergebnis einer ALU-Operation aufdie Eingänge (fast) aller Register legen

3. ALU (Arithmetic and Logic Unit, Rechen-werk):

• sechs Eingangssignale zum Steuern der ALU-Operation

• Das Ergebnis geht an den Shifter

• und zwei Signale N und Z als Aus-gänge

4. Shifter:

• modifiziert das Ergebnis durch Shifting

• Steuerung mit zwei Signalen


Zugriff auf die Register

• Auslesen („Register auf den Bus B legen“):

• Kontrollsignal anlegen

• Besonderheiten:MAR wird für den Speicherzugriff verwen-det und kann nicht auf B gelegt werdenMBR behandeln wir später (zusätzliches Kontrollsignal)H wird automatisch auf den A-Eingang der ALU gelegt

• Speichern („Register vom C-Bus laden“)

• Kontrollsignal anlegen

• Besonderheiten:MDR kann aus dem Speicher oder von C aus geladen werdenMBR wird immer aus dem Speicher geladen


Die Arithmetic Logic Unit (ALU)

Wir verwenden die folgende (stark vereinfachte) ALU:

hier: Logik für ein Bit. Die ALU entsteht durchVerketten von 32dieser Schaltungen!


Steuerung der ALU

Increment = Carry in Bit 0 auf 1 setzen!

0

0

1


Shifter

Ermöglicht eine Manipulation der ALU Ausgabe:

• Zwei Signale

• SLL8 (Shift Left Logical 8) ‏

verschiebe alle Bits um 8 Stellen nach links

fülle untere 8 Bits mit 0 auf

• SRA (Shift Right Arithmetic 1)

verschiebe alle Bits um 1 Stelle nach rechts

verändere das höchstwertige Bit nicht


Zeitlicher Ablauf einer Mikroinstruktion (ein Zyklus)

Wie kann man innerhalb einer Mikroinstruktion dasselbe Register lesen und schreiben?


Speicherzugriff auf Daten (1)

• per MAR/MDR

• Immer ein Wort gleichzeitig (= 4 Byte)

• MAR enthält die Adresse

• MDR enthält den Inhalt

• Beispiel:

MAR = 2

dann enthält MDR die Bytes 8-11

• Realisierung des MAR in Hardware:


Speicherzugriff auf Daten (2)

• Speichern:• lade MAR mit der Speicher-Adresse

(erster Zyklus)• lade MDR mit dem Inhalt, signalisiere, dass

gespeichert werden soll (zweiter Zyklus)• Die Daten sind am Ende des dritten Zyklus

im Speicher, MDR darf im dritten Zyklus wieder verwendet werden!

• Lesen:• lade MAR mit der Speicher-Adresse,

signalisiere, dass geladen werden soll (1. Zyklus)‏

• Ergebnis liegt ab Ende 2. Zyklus im MDR, ursprünglicher Inhalt des MDR kann im 2. Zyklus noch verwendet werden

• im 2. Zyklus darf nicht vom C Bus ins MDR geschrieben werden


Speicherzugriff auf Maschinenbefehle (ISA-Instruktionen)

• per PC/MBR

• byteweise

• MBR wird zur Ansteuerung des Mikropro-gramms für diesen Maschinenbefehl (diese ISA-Instruktion) verwendet (später dazu mehr)

• Speichern gibt es nicht!

• Lesen analog zum Lesen von Daten

• nur ein Byte

• FETCH-Signal zum Ansteuern

• Bei allen Speicherzugriffen:

• Annahme, dass die Daten zu 100% im Cache gefunden werden, da sonst mehr als ein Zyklus für den Speicherzugriff gebraucht würde


Mikroinstruktion

Eine Mikroinstruktion besteht aus 36 Bits:

• 8 Bits (ALU) für die Steuerung der ALU

• 9 Bits (C) für das Schreiben in die Register

• 3 Bits (MEM) für den Speicherzugriff

• 4 Bits (B) für das Legen der Register auf den B-Bus

• 9 Bits (Addr), um die nächste Mikroinstruktion zu adressieren

• 3 Bits (JAM) für bedingte Sprünge


Kontrollpfad

• Control storefür das Mikroprogramm (512 Plätze für Instruktionen)

• Micro Instruction Register (MIR): enthält die aktuelle Mikroinstruktion

• Micro Program Counter (MPC):zeigt auf die nächste auszufüh-rende Mikroinstruktion

• 4-to-16 Decoder:Bildet das 4-Bit-Signal für den B-Bus auf die Enable-Signale für die einzelnen Register ab


Ablauf eines Zyklus (1)

Lade neue Mikroinstruktion:

• gemäß MPC

• aus dem control store in das MIR



Stabilisieren der ALU-Eingänge:

• 4-Bit B-Teil des MIR wird dekodiert

• Das entsprechende Register wird auf den B-Bus gelegt

• B-Bus stabilisiert sich und liegt am B-Eingang der ALU an

• H-Register liegt am A Eingang der Alu an



Berechnung:

• die ALU rechnet

• der Shifter modifiziert das Ergebnis



Stabilisieren des C-Buses:

• die Ausgabe des Shifters auf dem C-Bus stabilisiert sich



Speichern in Registern:

• Laden der Register vom C-Bus

• Das geschieht sehr schnell, als Reaktion auf steigende Flanke des Taktgebers



Berechnen des neuen MPC:

• Generell steht die Adresse der nächsten Mikroinstruktion im Addr-Feld der aktuellen Mikro-instruktion.

• Ausnahmen:• verzweigen (JAMN, JAMZ)• springen (JMPC)‏


Bedingte Sprünge

• Bei bedingten Sprüngen ist typischerweise das oberste Bit von NEXT_ADDR auf 0 ge-setzt (NEXT_ADDR[8] = 0).

• Wenn das JAMN(Jump on Negative)-Bit gesetzt ist, wird zu NEXT_ADDRESS[8] der ALU-Ausgang N „hinzugeodert“:

• MPC[8] = NEXT_ADDRESS[8] OR N

• Analog dazu wird JAMZ (Jump on Zero) gehandhabt.

• Insgesamt gilt: MPC[8] = (JAMZ AND Z) OR (JAMN AND N) OR NEXT_ADDRESS[8]

• Das N-Bit ist gesetzt, wenn das Ergebnis der letzten ALU-Operation eine 1 im höchst-wertigen Bit hatte.

• Das Z-Bit ist gesetzt, wenn dasErgebnis der letzten ALU-Ope-ration 0 war.


Beispiel für JAMZ


JMPC (Jump on PC)

Verwendung:

• für direkte Sprünge

• zu einer Mikroinstruktion im control store

• die Adresse, an die gesprungen wird, wird aus dem MBR gelesen und mit NEXT_ADDR verodert.

Idee:

• Ins MBR wird immer der aktuelle Maschinen-befehl geladen.

• Dieser wird als Index in den control store verwendet.

• An der Stelle, auf die der Index zeigt, steht die erste Mikroinstruktion zur Ausführung des Maschinenbefehls.


4.3 Die Integer Java Virtual Machine und der Stack

Wir entwickeln jetzt ein Mikroprogramm, das die Integer Java Virtual Machine (IJVM) implementiert.

Dazu wird auch eine Stack-Verwaltung in Hardware benötigt.


Der Stack

Der Stack ist ein Bereich im Hauptspeicher. Er wächst von unten nach oben. Man kann

• ein 32-Bit Wort oben auf den Stack legen,

• ein 32-Bit Wort von oben vom Stack herunternehmen.

• Das Register SP (Stack Pointer) zeigt auf das oberste Wort des Stacks.

• Beispiel: SP = 2:

• verweist auf das zweite Wort im Hauptspeicher.

• Dieses Wort enthält die Bytes 8, 9, 10 und 11.

Das Register TOS (Top of Stack) soll immer den Wert des obersten Wortes auf dem Stack enthalten:

• Dies macht den Speicherzugriff effizienter. Aber:

• Es muss im Mikroprogramm explizit verwaltet werden.

Operand 2Operand 1

...

SP

TOS = Operand 2


Der Program Counter (PC)‏

• Der PC ist ein besonderes Register.

• Der PC addressiert Bytes (nicht Worte).

• Er verweist auf die aktuelle Stelle im zu interpretierenden IJVM-Programm.

• Bei der Ausführung wird das nächste Byte des IJVM-Programms geholt:

• PC um eins erhöhen

• Fetch-Signal anlegen

• einen Zyklus warten

• dann steht des nächste Byte in MBR.

0x60

0x64

...

PC

...


Zur Orientierung

• Wir bauen eine JVM die Java-Bytecode ausführen (interpretieren) kann

mit signifikanten Einschränkungen, daher IJVM

• Java-Programm compilieren Java Bytecode

• Üblicherweise ist die JVM ein „gewöhnliches“ Programm.

• Wir wollen aber jetzt die JVM hardwarenah als Mikroprogramm realisieren.

• In unserem Fall: Java Bytecode = Maschinenbefehl (ISA Instruktion) (entspricht Assembler)

• Lernziel: Analog zur Interpretation von Java-Bytecode erfolgt auch die Interpretation von Assembler-Instruktionen.


Beispiel für einen Integer-Befehl: iadd

Die Funktionsweise des Befehls iaddVorher:

Nachher:

Operand 2

Operand 1

...

SP

0x60

0x64

...

PC

...

TOS = Operand 2

0x60

0x64

...

PC

...Summe

...

SP

TOS = Summe


Mikroprogramm für iadd

0x100: 0x101 000 00110101 000000100 001 0001 PC=PC+1;fetch;goto 0x1010x101: 0x102 000 00000000 000000000 000 0000 goto 0x102 (warten!)‏0x102: 0x000 100 00000000 000000000 000 0000 goto MBR

0x060: 0x061 000 00110110 000001001 010 0100 MAR=SP=SP-1;rd;goto 0x0610x061: 0x062 000 00010100 100000000 000 0111 H=TOS;goto 0x0620x062: 0x100 000 00111100 001000010 100 0000 MDR=TOS=MDR+H;wr;goto 0x100


Stackbehandlung

Der Stack dient zur Speicherung von

• Operanden und Ergebnis

• lokalen Variablen einer Methode/Funktion.

Frage: Warum haben lokale Variablen nicht einfach eine feste Speicheradresse?

Antwort: weil eine Methode rekursiv aufgerufen werden kann.

Das Register LV enthält immer die Adresse des Wortes, bei dem die lokalen Variablen für die aktuelle Methode beginnen.


IJVM-Speichermodell

• Current Local Variable Frame und Current Operand Stack sind bekannt.

• Der Constant Pool enthält unter anderem Konstanten und Information zu Methoden.

• Die Method Area enthält das eigentliche IJVM Programm in Form von IJVM-Instruk-tionen.


IJVM-Instruktionssatz (ISA-Instruktionen)‏


IJVM -Instruktionen: invokevirtual und ireturn

invokevirtual und ireturn:

• erlauben den Aufruf von Methoden

• hier vereinfacht dargestellt:

• man darf nur Funktionen für ein Objekt aufrufen.

• keine Objektorientierung mehr

Prinzipieller Ablauf:

• speichere Adresse des Objektes auf dem Stack, für das die Methode aufgerufen wird (überflüssig, da Vereinfachung)‏

• speichere Parameter des Funktionsaufrufes auf dem Stack

• rufe invokevirtual auf

• invokevirtual hat einen 2 Byte langen Parameter

• Dieser beschreibt einen Eintrag im Constant Pool.

• Der Eintrag enthält die Adresse. an der die IJVM Instruktionen für die Methode liegen.


Auffinden der Methode

disp2disp1invokevirtualdisp

Adresse

aufgerufeneMethode


Zusätzliche Daten

An der Stelle, die durch die Adresse im CPP beschrieben wird, steht folgendes:

• zwei Bytes, die die Anzahl der übergebenen Parameter enthalten

• zwei Bytes, die den Speicherplatz für lokalen Variablen für diese Funktion enthalten

• als 5. Byte die erste Instruktion der aufgerufenen Funktion.


Stack bei invokevirtual


Stack bei ireturn


Compilieren: Java nach IJVM

i i


4.4 Die Mikroprogrammiersprache MAL

Prinzipiell:• Inhalt des control stores aufschreiben

• 512 Mikroinstruktionen, je 36 Bit

Problem:• sehr unübersichtlich und fehleranfällig

• man muss sich genau überlegen, an welche Stelle welche Mikroinstruktion geschrieben wird:

• 0x99 erste Instruktion von IFEQU• 0x9B erste Instruktion von IFLT• -> kein lineares Ablegen von Instruktionen• Außerdem: die Zweige von bedingten Anweisungen unterscheiden sich nur im 9.

Bit, müssen also genau 256 Speicherpätze auseinander liegen

Lösung: • Einführen einer symbolischen Micro Assembly Language

• textuelle Beschreibung von Mikroinstruktionen, wird compiliert, Adressen werden dabei automatisch vergeben.


MAL (1)

• Jede Zeile entspricht einer Mikroinstruktion.

• ALU-Operationen und Registerzugriff:

• Beispiel: SP = MDR = SP+1

• Illegal: MDR = SP+MDR

• Illegal: H = H-MDR

• Speicheroperationen:

• rd und wr zum Schreiben von MDR

• fetch zum Lesen in MBR

• Illegal:

erste Instruktion: MAR=SP;rd

zweite Instruktion: MDR=H


MAL (2)

• Direkte Bestimmung des nachfolgenden Befehls:

• entweder explizit mit goto <Marke>

Zum Beispiel: goto Main1

Jede MAL-Zeile hat eine Marke.

• oder implizit, dann weglassen von goto

• Beispiel:iadd1 MAR=SP=SP-1;rdiadd2 H=TOSiadd3 MDR=TOS=MDR+H;wr;goto Main1


MAL (3)

• Verzweigung aufgrund der Z- und N-Flags der ALU

• Beispiel: if(Z) goto L1; else goto L2

• Überprüfen von Registerinhalten auf Z/N:

• Beispiel: Z = TOS

TOS wird auf B gelegt

ALU erzeugt B als Ausgabe

kein Register wird geschrieben


MAL (4)

• Springen durch JMPC:

• goto (MBR or value)‏

• Oder, falls value=0, goto (MBR)‏

• In der Mikroinstruktion steht value in NEXT_ADDRESS.


Der Interpreter

Auszug:

Es folgen einige Beispiele.


Main

Voraussetzung:

• PC zeigt auf die als nächstes auszuführende IJVM-Instruktion.

• Diese ist bereits ins MBR geladen.

Ausführen:

• PC um 1 erhöhen

• Fetch-Signal anlegen (am Ende des nächsten Zyklus steht die nächste IJVM-Instruktion im MBR)‏

• zur Mikroinstruktion springen, mit der die Ausführung der aktuellen IJVM-Instruktion beginnt


iadd

Voraussetzung:

• TOS beinhaltet oberstes Wort auf Stack (= Operand 2)

Ausführen:

• SP um 1 dekrementieren (zeigt jetzt auf Operand 1)‏

• Read-Signal anlegen

• Operand 2 in H laden

• summieren, Ergebnis schreiben:

• auf die aktuelle Position im Stack

• in TOS

• nach Main1 springen


pop und iload<varnum>

Achtung ! Der Befehl iload <varnum> besteht aus 2 Bytes:

• 0x15 für iload

• <varnum> beschreibt den Offset der zu ladenden Variablen (relativ zu LV)‏


wide und wide_iload (1)

Was machen wir, wenn eine lokale Variable mehr als 256 Wörter von LV entfernt ist?

wide als IJVM-Instruktion davor schreiben:

Wide soll auch für andere Operationen (z.B. istore) funktionieren.


wide und wide_iload (2)


goto <offset>

• Sprünge erfolgen relativ zum aktuellen PC.

• OPC dient zum Speichern des PC.

• Das erste Byte des Offset wird vorzeichenbehaftet auf den B-Bus gelegt (mit sign extension):

• Das oberste Bit des Inhalts von MBR wird in allen 24 Bits wiederholt, die ergänzt werden, um zu einem 32-Bit-Wort zu kommen.

• Das zweite Byte wird ohne Berücksichtigung des Vorzeichens auf den B-Bus gelegt (ohne sign extension):

• Die obersten 24 Bits sind auf 0 gesetzt.

• Daher sind Sprünge in beide Richtungen möglich.


Beispiel für Sign Extension

Problem:

• Gegeben sei eine ganze Zahl, kodiert in 8 Bit.

• Wie konvertiert man diese in die gleiche Zahl bei Darstellung mit 32 Bit?

• Beispiel: -6 = 11111010

• naive Lösung: 00000000000000000000000011111010

• (=128+64+32+16+8+2)

Lösung: Sign extension:

• wiederhole das oberste Bit in allen Stellen die man hinzufügt:

• 11111111111111111111111111111010 (=-6)

Nur ,wenn die umzuwandelnde Zahl im 2er Komplement dargestellt ist:

• bei natürlichen Zahlen (>0) einfach Nullen davor schreiben.


Bedingter Sprung: if_icmpeq1 <offset>

Bedeutung:• hole die obersten beiden Worte vom Stack• wenn gleich, dann springe um Offset


invokevirtual <disp>


ireturn

Praktische Informatik 2 4. Mikroprogrammierung 4b - 1© Wolfgang Effelsberg

4.5 Optimierung der Mikroarchitektur

Die Leistung/Geschwindigkeit der Mikroarchitektur kann auf verschiedene Weise erhöht werden:

• durch Reduktion der Zyklen (Anzahl an Mikroinstruktionen), die eine ISA-Instruktion (ein Maschinenbefehl) benötigt.

• durch Reduktion der Länge eines Zyklus durch Einsatz schnellerer Hardware (hier nicht weiter betrachtet).

• durch die überlappende Ausführung von Instruktionen.

Dies erfordert meist einen Kompromiss zwischen Kosten und Nutzen

Beispiel: Decoder vs. direkte Angabe der Signale für die Steuerung des B–Busses:

• weniger ROM für das Mikroprogramm vs. weniger Latenzzeit für das Anlegen der Signale.


Reduktion der Zyklen pro ISA-Instruktion

Ziel:

• Minimieren der Anzahl der Mikroinstruktionen pro ISA-Instruktion (Maschinenbefehl)

Grund:

• Eine Reduktion der Anzahl der Mikroinstruktionen pro ISA-Instruktion kann die Leistung der Mikroarchitektur dramatisch erhöhen:

• Wenn man die durchschnittliche Anzahl von 5 auf 4 reduziert, dann wird der Prozessor um 20% schneller.

Mechanismen:

• Interpreter-Schleife optimieren

• Architektur mit drei Bussen

• Einführen einer „Instruction Fetch Unit“


Interpreter-Schleife Optimieren (1)

Main1 muss nach jeder ISA-Instruktion ausgeführt werden:

Daher kann man Main1 in die Ausführung jeder ISA-Instruktion integrieren:



Erste Methode zur Reduktion der Mikroinstruktionen pro ISA-Instruktion:

• Interpreter-Schleife mit der Ausführung der ISA-Instruktion zusammenlegen.

Auswirkung:

• Bei manchen Befehlen wird eine Mikroinstruktion weniger pro ISA-Instruktion be-nötigt.

• Daher erhöht sich die Geschwindigkeit.


Bisher:

• Sehr umständlicher Umgang mit dem zweiten Operanden über das H-Register.

• Beispiel:



Zweite Methode zur Reduktion der Mikroinstruktionen pro ISA-Instruktion:

• Einführung eines dritten Busses (A-Bus), der (fast) alle Register direkt auf die zweite Eingabe der ALU leitet.

Kosten:• zusätzlicher Bus, zusätzliche Kontrollleitungen für diesen Bus.

Auswirkung auf iload:



Instruction Fetch Unit (1)

Die folgenden Aktionen sind in der Regel für die Ausführung einer ISA-Instruktion notwendig:

• PC um eins erhöhen

• mit dem PC die erste Mikroinstruktion holen

• die Operanden vom Stack lesen

• rechnen

• Ergebnis speichern.

Für die ersten beiden Aktionen wird die ALU benutzt, ist aber unterfordert.

Idee: diese Arbeiten durch eine separate Instruction Fetch Unit (IFU) erledigen lassen.





Das Schieberegister (Shift Register) beinhaltet die nächsten 0-6 Bytes des Programms.

• IMAR ist die Adresse des letzten Wortes (4 Bytes), das in das Schieberegister geladen wurde.

• Das älteste Byte wird nach MBR1 kopiert.

• Die ältesten beiden Bytes werden nach MBR2 kopiert.

• Wenn MBR1 ausgelesen wird, dann:

• Verschieben der Bytes im Schieberegister um eine Stelle nach rechts

• erneutes Laden von MBR1 und MBR2.



• Wenn MBR2 ausgelesen wird, dann:

• Verschieben der Bytes im Schieberegister um zwei Stellen nach rechts

• erneutes Laden von MBR1 und MBR2.

• Wenn vier Bytes im Schieberegister frei sind:

• IMAR um 1 erhöhen, Wort in das Schieberegister laden

• MBR1 enthält den Opcode einer ISA-Instruktion oder einen 1-Byte-Parameter.

• MBR2 enthält 2-Byte-Parameter.


Behandlung des Program Counter (PC)

• Der PC wird bei Instruktionen, die keine Sprünge sind, von der der IFU weitergeschaltet. Dafür hat der PC eine eigene Schaltung zum Inkrementieren um eins oder zwei.

• Immer wenn auf MBR1/MBR2 zugegriffen wird ,sorgt die IFU dafür, dass der PC um eins oder zwei erhöht wird und der nächste Wert aus dem Speicher in MBR1/MBR2 steht.

• Bei Sprüngen:

• explizites Laden des PC durch das Mikroprogramm (wie bisher).

• Daran merkt die IFU, dass der Inhalt des Schieberegisters ungültig geworden ist.

• Der Wert des PCs wird ins IMAR übernommen, und das Schieberegister wird entsprechend neu geladen.


Architektur der Mic-2

Neue Ausstattung:

• A-Bus

• IFU

Kosten:

• zusätzlicher Bus

• zusätzliche IFU

Nutzen:

• weniger Mikroinstruktionen pro ISA-Instruktion


Vergleich für iload

Mic-1:

Mic-2:


Pipelining (1)

Optimierung durch überlappende (parallelisierte) Ausführung mehrerer Mikroinstruktionen

• Ausführung einer Mikroinstruktion:

• Befehl holen

• Register auf A- und B-Bus legen

• ALU und Schieberegister rechnen

• Ergebnisse vom C-Bus in die Registern speichern; Lesen/Schreiben im Memory

Im Folgenden sollen diese Schritte parallelisiert werden.


Pipelining (2)

Auftrag 1

1 2 3 4

Auftrag 3

1 2 3 4

Auftrag 2

1 2 3 4

Auftrag 21 2 3 4

Auftrag 11 2 3 4

Auftrag 31 2 3 4

Ausführung von drei gleichartigen Verarbeitungsaufträgen in je vier Teilverarbeitungsschritten:

• Serielle Verarbeitung:

• Pipeline-Verarbeitung:


Beispiel: Wäsche-Pipelining (1)

Ein Wäsche-Vorgang kann in vier Teilvorgänge unterteilt werden:

• schmutzige Wäsche in die Waschmaschine

• nasse Wäsche in den Trockner

• Falten, Bügeln, ...

• Wäsche in den Schrank


Aufträge

ABC

6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00

D

6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00

ABCD

Beispiel: Wäsche-Pipelining (2)


Definitionen

• Unter dem Begriff Pipelining versteht man:

• die Zerlegung einer Instruktion in mehrere Phasen

• die Bearbeitung der Phasen in hintereinander geschalteten Verarbeitungseinhei-ten (taktsynchron).

• Die Gesamtheit dieser Verarbeitungseinheiten nennt man eine Pipeline.

• Der Speedup (Beschleunigung) einer Pipeline ist der durchschnittliche Geschwin-digkeitsgewinn pro Instruktion, verglichen mit der sequentiellen Ausführung. Dieser ist abhängig von

• der Anzahl der Stufen

• auftretenden Hazards (Hemmnissen).


Pipeline-Hazards

• Hazards durch Speicherzugriff

Nach einem Ladebefehl kann der geladene Wert nicht für den direkt darauf folgenden Befehl im nächsten Takt zur Verfügung stehen, da der Speicherzugriff zusätzlich Zeit benötigt.

• Daten-Hazards

• Falls ein Befehl das Resultat des direkten Vorgängerbefehls benötigt, muss gewartet werden.

• Beispiel:H=MDRTOS=H

• Hazards durch Speicherzugriff = spezielle Daten-Hazards.

• Kontroll-Hazards

• ergeben sich zum Beispiel durch bedingte Sprünge.

• Problem: Bis der bedingte Spring vollständig bearbeitet wurde, ist nicht klar, welche Instruktion als nächstes ausgeführt werden soll.


Architektur der Mic-3

Drei Flipflops für die drei Busse eingefügt.

• Jetzt dauert eine Mikroinstruktion bis zu vier Zyklen:

Instruktion holen

Register auslesen

ALU und Schieberegister rechnen

Register speichern

• Aber:

• jeder einzelne Zyklus ist kürzer

• die überlappende Bearbeitung von Mikroinstruktio-nen wird möglich

• alle Teile der Mikroarchitektur werden kontinuierlich ausgenutzt.


Beispiel: SWAP für Mic-3

Mic-2

Mic-3: Aufteilen in drei Schritte

• Instruktion laden (mit der IFU) wird hier nicht betrachtet (ist auch nur für swap1 relevant)

• Wir notieren die Flipflops A, B und C wie Register.


Pipelining: Aufteilen

• Swap1: Ergebnis des Speicherzugriffs steht erst in Zyklus 5 zur Verfügung.

• Swap3: Hier wird das Ergebnis von MDR=mem (Swap2) benötigt, die Pipeline wird ange-halten (engl. stalling), bis dies der Fall ist.

• Dies nennt man eine Lesen-nach-Schreiben-Abhängigkeit (engl. RAW dependency)

• Dies ist ein Beispiel für einen Hazard.


Gewinn durch Pipelining

• Ohne Pipelining:• Dauer eines Zyklus: T• Eine Instruktion benötigt einen Zyklus.• Instruktionen werden sequentiell bearbeitet.

• Mit Pipelining:• Tiefe der Pipeline (Anzahl der Arbeitsschritte): n• Optimal: Dauer eines Zyklus: Tp=T/n• Realistisch: Dauer eines Zyklus etwas länger durch zusätzliche Hardware (im

Beispiel die Flipflops A, B und C)• Eine Instruktion benötigt n Zyklen.• Optimal: in jedem Zyklus kann eine neue Instruktion gestartet werden.• Realistisch: Hazards berücksichtigen

• Gewinn (speedup): • Der Speedup einer Pipeline entspricht idealerweise deren Tiefe.• Aber: durch Hazards und durch das Einführen zusätzlicher Hardware ist die

sinnvolle Tiefe einer Pipeline beschränkt.


Beispiel für den optimalen Ablauf von Pipelining

Inst

rukt

ion

Zeit


Weitere Optimierungsmöglichkeiten

Neben den grundlegenden Möglichkeiten, die Mikroarchitektur zu verbessern, werden ständig neue Ideen entwickelt, um die Arbeit eines Prozessors zu beschleunigen.

Zwei Kategorien:• Verbesserung der Implementierung Der ISA-Instruktionssatz ändert sich nicht

(wesentlich).

• Verbesserung der Architektur Neuer oder stark veränderter Instruktionssatz erforderlich.

• In der Realität: meist eine Kombination aus beidem.

Wir betrachten:• Caching

• Branch Prediction (Vorhersage bedingter Sprünge)

• Out-of-order Execution (Ausführen von Instruktionen außer der Reihe)


Caching (1)

Prinzipielle Idee bereits bekannt:

• Cache:• kleiner schneller Speicher• nah am Prozessor• enthält die mit hoher Wahrscheinlichkeit als Nächstes verwendeten Daten• arbeitet idealerweise mit Prozessorgeschwindigkeit.

• Häufig wird ein Level1-Cache in einen Daten- und einen Instruktionscache unterteilt.

Werte für Intel Coreextreme Edition

•

- 32+32 kByte L1/Kern - 8 MByte L2 Cache


Caching (2)

1. Nachschauen, ob die gewünschten Daten im Cache liegen.

2. Wenn ja Cache Hit, dann Daten direkt verwenden

3. Wenn nein Cache Miss, dann :

• einen alten Eintrag aus dem Cache löschen

• die neuen Daten dorthin in den Cache laden

• die neuen Daten verwenden.

4. Durchschnittliche Zugriffszeit = c+(1-h)m

• c = Zugriffszeit auf den Cache

• h = Wahrscheinlichkeit für einen Treffer

• m = zusätzliche Zugriffszeit bei einem Cache Miss


Caching (3)

Gründe für Caching

• Räumliche Lokalität (Spatial Locality): wenn Daten/Instruktionen an einer bestimmten Speicherstelle benötigt werden, ist es wahrscheinlich, dass danach Daten/Instruktionen aus der unmittelbaren Nachbarschaft benötigt werden. Daher kann man Daten/Instruktionen „auf Vorrat“ in den Cache laden.

• Zeitliche Lokalität (Temporal Locality): wenn man Daten/Instruktionen an einer bestimmten Speicherstelle benötigt, dann ist es wahrscheinlich, dass man sie kurz danach wieder benötigen wird. Daher sollte man kürzlich benötigte Daten/Instruktio-nen im Cache halten.

Zeilen eines Caches (Cache Lines)

• Im Cache werden die Daten in Zeilen gespeichert.

• Üblich sind Zeilen der Länge 4-64 Byte.


Direct-Mapped Cache (1)



000000001000000000000000101 001 00

5

=?

Byte 1 ......... Byte 32



Eigenschaften:

• Jede Speicheradresse kann genau an einer Stelle im Cache stehen.

• Im Beispiel bedeutet das:

• Der Cache kann 2048*32 aufeinander folgende Bytes speichern.

• Der Cache kann keine Cache-Zeilen enthalten, die genau 2048*32 Bytes ausein-ander liegen, da diese an der gleichen Stelle im Cache abgelegt werden würden.

Daraus lassen sich einfach Fälle konstruieren bei denen man bei jedem Zugriff eine Cache Miss erzeugt. Beispiel: ein 64k-Byte-weiter Sprung im Programm.

Solche Fälle sind in der Praxis jedoch selten. Sie können zum Teil auch durch einen guten Compiler vermieden werden.


Schreiben mit Cache (1)

Was passiert wenn Daten in den Speicher geschrieben werden?

a) Wenn der Inhalt der Adresse im Cache liegt:

• in jedem Fall: Daten in den Cache schreiben

• Alternative 1: Daten gleichzeitig in den Speicher schreiben (write through)

• Vorteil: Der Hauptspeicher hält immer die aktuellen Daten.

• Nachteil: Mehr Speicherzugriffe.

• Alternative 2: Daten nur im Cache aktualisieren (write back)

• Setzen eines Dirty-Flags, um zu markieren, dass die Daten gegenüber dem Speicher verändert wurden

• Zurückschreiben in den Speicher erst, wenn eine Cachezeile mit gesetztem Dirty-Flag aus dem Cache verdrängt wird.

• Vorteil: Weniger Speicherzugriffe.

• Nachteile: Aufwändigeres Design, problematisch bei Mehrprozessorrechnern.


Schreiben mit Cache (2)

b) Wenn der Inhalt der Adresse nicht im Cache liegt:

• in jedem Fall: Daten in den Hauptspeicher schreiben

• Alternative 1: Daten in den Cache laden (write allocation)

• Meist verwendet, wenn write back eingesetzt wird.

• Vorteil: Ausnutzen von räumlicher/zeitlicher Lokalität.

• Nachteil: Aufwändigeres Design.

• Alternative 2: Daten nicht in den Cache laden (no write allocation)

• Wird meist in Zusammenspiel mit write through eingesetzt, um eine möglichst einfache Cache-Architektur zu realisieren.

• Vorteil: einfaches Design

• Nachteil:. räumliche/zeitlicher Lokalität kann nicht ausgenutzt werden.


Branch Prediction

Bisher:

• Pipelining funktioniert nur bei linearer Ausführung von ISA-Instruktionen; bei Sprün-gen muss die Pipeline angehalten werden.

In der Realität sind aber Sprünge häufig:

• Bedingte Sprünge

• Unbedingte Sprünge

if (i == 0) CMP i,0 ; compare i to 0BNE ELSE ; branch to ELSE if not equal

k = 1; MOV #1,K ; set k to 1else …

k = 2; ELSE: MOV #2,K ; set k to2…


Unbedingte Sprünge

Problem:

• Der Sprung muss dekodiert werden, bevor die IFU darauf reagieren kann.

• Erst nach Schritt 2 der Pipeline ist bekannt, dass es sich um einen Sprung handelt.

• Dann ist aber bereits der Befehlnach dem Sprung von der IFU geladen worden.

Lösung:

• Delay Slot nach jedem Sprung

• wird durch den Compiler ein-gefügt

• meist NOP

• Alternativ: viel Aufwandz.B. beim Pentium


Bedingte Sprünge (1)

Problem

• Das Sprungziel ist erst nach der Verarbeitung des Sprungbfehls bekannt.

Daher

• Delay Slot + zusätzlich Ungewissheit über das Sprungziel

Früher

• keine neuen Befehle in die Pipeline laden, bis das Sprungziel bekannt ist, dann erst neuen Befehl laden.

• Sehr schlecht für die Leistung:

• Ca. 10-20% der ISA Instruktionen sind bedingte Sprünge.

• Pipeline-Tiefe beim P4 ist 20 Stufen.

• Dann wäre die Pipeline nahezu nie vollständig gefüllt.


Bedingte Sprünge (2)

Modernere Lösung

• Betrachte eines der beiden Sprungziele als wahrscheinlicher.

• Führe die Instruktionen an dieser Stelle als Nächste aus.

• Dies erfordert einen Mechanismus zur Vorhersage von Sprungzielen (branch prediction).

• Einfache Vorhersage:

Sprünge nach vorne werden nicht ausgeführt (if-Abfrage) ‏

Sprünge nach hinten werden ausgeführt (Ende einer Schleife)‏

• Vorhersage richtig einfach weiterarbeiten

• Vorhersage falsch Pipeline leeren und neue Befehle laden.

• Aufpassen, dass die Ausführung der falschen Befehle keine Auswirkung hat:

Entweder die Ergebnisse in Spezialregistern speichern und erst in die „echten“Register übernehmen ,wenn das Sprungziel bekannt ist

oder: alte Registerwerte in Spezialregistern retten


Dynamic Branch Prediction

Generelle Idee

Man versucht, aus der Vergangenheit zu lernen, welches das Ziel des Sprunges sein wird.

Dazu benötigt man eine Tabelle (History Table), die analog zu einem Cache aufgebaut ist.

In der Tabelle werden nicht die Inhalte einer Speicheradresse abgelegt, sondern nur Informatio-nen darüber, ob der Sprungbefehl an dieser Speicheradresse in der Vergangenheit ausgeführt wurde oder nicht.

Wenn ein Sprung ausgeführt werden soll, wird in der History Table nachgeschaut:

• Informationen zu dem Sprung in der Tabelle vorhanden:Entsprechend handeln und Tabelle aktualisieren

• keine Informationen in der Tabelle vorhanden:einfache Vorhersage und Tabelle aktualisieren


Eine einfache History Table

Bei der einfachen History Table wird nur die letzte Sprungentscheidung für einen Sprungbe-fehl mitgeführt.

Problem

• Am Ende einer Schleife ist die Vorhersage falsch.

• Außerdem wird beim Neustart der Schleife die Vorhersage wieder falsch sein.

Verbesserung

• Zwei Bits für die Vorhersage bereitstellen:

• ein Bit für das „normale“ Verhalten

• ein Bit für das Verhalten beim letzen Mal (zum Beispiel beim Ende der Schleife)


Vorhersage mit zwei Bits

1-Bit History-Tabelle 2-Bit History-Tabelle Vorhersage mit Zieladresse


Endlicher Automat für die Vorhersage mit zwei Bits


Vorhersage der Zieladresse

Bisher:Auswahl zwischen zwei festen Alternativen.

Manchmal wird die Zieladresse eines Sprungs vom Sprungbefehl dynamisch berechnet. Dann kann man statt den Bits zur Vorhersage einfach das Ziel des berechneten Sprunges in der History-Tabelle ablegen.


Static Branch Prediction

Die dynamische Vorhersage von Verzweigungen benötigt spezielle Hardware. Manchmal kann aber ein Compiler bereits beim Übersetzen eines Programms erkennen, dass eine Alternative eines Sprunges viel wahrscheinlicher ist als die andere.

Beispiel Schleife: for (i=0; i<10000; i++) {...}.

Beispiel UltraSPARC II: es gibt einen zusätzlichen Satz von Sprunginstruktionen auf ISA –Ebe-ne, bei denen der Compiler in einem Bit die wahrscheinliche Richtung des Sprunges angeben kann.

Dies bezeichnet man als statische Vorhersage von Verzweigungen oder static branch pre-diction.


Out-of-Order Execution und Register Renaming (1)

Die meisten modernen Prozessoren sind superskalar; d.h. sie können mehr als eine Instruk-tion vollständig parallel abarbeiten (und nicht nur überlappend):

Wie stellt man jetzt fest, ob die zweite Instruktion einen Konflikt auslöst?

Beispiel:

• Instruktionen dürfen nur in der richtigen Reihenfolge gestartet werden.

• Instruktionen dürfen nur in der richtigen Reihenfolge beendet werden.


Mögliche Konflikte

• Eine Instruktion mit zwei Operanden und einem Ergebnis darf nicht gestartet werden, wenn von einer vorangegangenen Operation, die noch nicht beendet ist

• ein Register, in dem ein Operand steht, geschrieben wird („read-after-write“-Abhängigkeit)

• das Register, in dem das Ergebnis abgelegt wird, gelesen wird („write-after-read“-Abhängigkeit)

• das Register, in dem das Ergebnis abgelegt wird, geschrieben wird („write-after-write“-Abhängigkeit)

• Verhindern von Konflikten durch ein so genanntes Scoreboard.

• Hier nur für Register betrachtet.

• In der Realität auch für die Einheiten der Pipeline.

Out-of-Order Execution und Register Renaming (2)


Scoreboard-Beispiel


Scoreboard-Regeln

• Wenn eine Operation zugelassen wird, muss das Scoreboard entsprechend angepasst werden.

• Wenn eine Operation beendet wird, muss das Scoreboard entsprechend angepasst wer-den.

• Operation werden nur zugelassen wenn von dieser Operation nicht

• ein Register gelesen wird, welches als geschrieben markiert ist,

• ein Register geschrieben wird, welches als gelesen oder geschrieben markiert ist.

• Eine Operation wird erst beendet, wenn alle vorangegangenen Operationen beendet wurden.

• Unterstützung präziser Interrupts. Wenn diese Regel nicht eingehalten wird, ist bei einer Unterbrechung nicht klar, wie der aktuelle Status des Prozessors ist.


Out-of-Order Execution - Beispiel


Out-of-order Execution - Regeln

• Wenn eine Operation blockiert ist, werden deren Nachfolger untersucht.

• Wenn eine Operation nicht blockiert ist, wird sie ausgeführt.

• Die vorgezogene Operation darf keinen Operanden verwenden, der in der ausgelasse-nen Instruktion geschrieben wurde.

Realisierung über ein weiteres Scoreboard (hier nicht gezeigt).


Register Renaming

Bisher: es durfte keine Operation gestartet werden, die einen Operanden oder das Ergebnis einer vorangegangenen Operation überschreibt.

Andere Vorgehensweise:Das Ergebnis wird in einem anderen (geheimen, engl. secret) Register zwischengespeichert und:

• später zurückkopiert

• oder, falls der Inhalt nur in einer nachfolgenden Operation benötigt wird, wird der Operand der nachfolgenden Operation einfach auf das secret register umgesetzt.


Register Renaming - Beispiel


Zusammenfassung

Wir haben eine einfache Mikroarchitektur kennen gelernt.

Wir verstehen das Prinzip der Mikroprogrammierung.

Wir verstehen, wie man eine Mikroarchitektur optimieren kann durch

•Pipelining

•Caching

•Vorhersage von Sprüngen (branch prediction)

•die Out-of-Order-Ausführung von Befehlen.

Documents

4.1 Motivation 4.2 Eine einfache Mikroarchitektur 4.3 Die ...pi4.informatik.uni-mannheim.de/pi4.data/content/courses/2009-fss/pi… · 4.3 Die Integer Java Virtual Machine und der