Parallele Programmierung und Parallele Algorithmen : Matrix- Vektor - Multiplikation

Parallele Matrix-Vektor-Multiplikation

Annika Biermann

Parallele Programmierung undParallele Algorithmen:

Matrix-Vektor-Multiplikation

Agenda

Motivation

Grundlagen der Matrix-Vektor-Multiplikation

Serieller Algorithmus

Parallelisieren: Daten-Dekomposition

Parallele Matrix-Vektor-Multiplikations-Algorithmen

Zeilenweise Dekomposition

Spaltenweise Dekomposition

Blockweise Dekomposition

Benchmarking

Motivation

Matrix-Vektor-Multiplikation:

Kernoperation in vielen Berechnungen

In unterschiedlichsten AnwendungsgebietenNaturwissenschaften, Wirtschaft, Computergrafik, …

Hohe Bedeutung & Häufigkeit

Parallele Datenverarbeitung:

Mehrkernprozessoren bereits im privaten Sektor etabliert

Gegenwart & Zukunft

Höhere Leistung & Effizienz als serieller Ablauf

Agenda

Motivation

Benchmarking

Matrix-Vektor-Multiplikation: A ∙ x = y

Beispiel:

Ablauf: Folge von Skalarprodukten von Vektor x mit Zeilenvektoren von A

Grundlagen: Serielle Matrix-Vektor-Multiplikation (1/2)

m x n Matrix AVektor x

Vektor y

IN)nm, mit

IR y,IR x,IR(A mnnm

Grundlagen: Serielle Matrix-Vektor-Multiplikation (2/2)

Zeitkomplexität:

Skalarprodukt von zwei Vektoren der Länge n:n Multiplikationen

n-1 Additionen

Serielle Matrix-Vektor-Multiplikation: m Skalarprodukte

Θ(m·n), für m = n: Θ(n2)

Agenda

Motivation

Benchmarking

Grundlagen: Daten-Dekomposition beim Parallelisieren (1/2)

Parallelisieren der Matrix-Vektor-Multiplikation

Dekomposition von m x n Matrix A (und Vektor x) auf p Prozesse

Beispiele für p = 4:

Bestimmt Anzahl benötigter Kommunikations- und Rechenoperationen Schlüsselentscheidung

ZeilenweiseDekomposition

SpaltenweiseDekomposition

BlockweiseDekomposition

Grundlagen: Daten-Dekomposition beim Parallelisieren (2/2)

Möglichst ausgeglichene Dekomposition

hohe Leistung & Effizienz

Aufteilung von Matrix A in Teilstücke mit:

Zeilenweise: oder benachbarten Zeilen

Spaltenweise: oder benachbarten Spalten

Blockweise:zwischen und großen Matrixblöcken

Agenda

Motivation

Benchmarking

Parallele Algorithmen: Zeilenweise Dekomposition

Jeder Prozess erhält:

Zusammenhängende Zeilen der Matrix A

Kopie des Vektors x

Hauptschritte des Algorithmus:

Algorithmus

1. Zeile von A

Prozess 1

1) Skalarprodukt-berechnung

2) All-gather-Kommunikation

Implementierung nach QUINN(2003):

Hauptschritte:

Implementierung (1/2)

Blockvektor replizieren:

1) Gemischte xfer Arrays erzeugen

2) All-gather-Kommunikation

Parallele Algorithmen: Zeilenweise DekompositionImplementierung (2/2)

Zeitkomplexität (unter der Annahme m = n):

Kommunikationskomplexität:

All-gather-Kommunikation (in einem Hypercube-Netzwerk )

Jeder Prozess sendet Nachrichten (durch paarweisen Datenaustausch zwischen den Prozessen)

Elemente je Nachricht nehmen zu (in Schritt i: Elemente)

Elemente insgesamt

Analyse (1/2)

n p logΘ

IN x ,2 p x

p log2

Berechnungskomplexität:

Je Prozess höchstens Zeilen

Je Zeile eine Skalarproduktberechnung mit Θ(n)

Gesamtkomplexität:

Algorithmus ist nicht sehr gut skalierbar!

Parallele Algorithmen: Zeilenweise DekompositionAnalyse (2/2)

n p log

Agenda

Motivation

Benchmarking

Parallele Algorithmen: Spaltenweise DekompositionAlgorithmus

Zusammenhängende Spalten der Matrix A

Zusammenhängende Elemente des Vektors x

Prozess 1

1. Spalte von A

Teilskalar-produkte

Summandenvon y1

1) Teilskalarprodukt-berechnung

2) All-to-all-Austausch

3) Teil-ergebnissesummieren

Parallele Algorithmen: Spaltenweise Dekomposition

Hauptschritte:

Teilskalarproduktergebnisse verteilen:

1) Gemischte xfer Arrays erzeugen ( Senden)

2) Gleichförmige xfer Arrays erzeugen ( Empfangen)Wie gemischte xfer Arrays, aber mit gleichen Count Array-Einträgen

3) All-to-all-Kommunikation

Zeitkomplexität (unter der Annahme m = n):

All-to-all-Kommunikation

Jeder Prozess sendet Nachricht an anderen Prozess p –1 Nachrichten insgesamt

Jeder Prozess erhält nur die von ihm benötigten Elemente maximal n Elemente insgesamt

Analyse (1/2)

n) Θ(p

Parallele Algorithmen: Spaltenweise DekompositionAnalyse (2/2)

Je Prozess höchstens Spalten mit je n Einträgen

Je Spalteneintrag Multiplikation mit Vektorelement

Gesamtkomplexität:

Algorithmus ist nicht sehr gut skalierbar!

Agenda

Motivation

Benchmarking

Parallele Algorithmen: Blockweise DekompositionAlgorithmus

Zusammenhängende Elementblöcke der Matrix A

Zusammenhängende Elemente des Vektors x

x A ai,jxi ai,j

Teilskalarproduktergebnisse

1) Vektor x umver-teilen

2) Matrix-Vektor-Multiplikation

3) Summen-Reduzierung

Parallele Algorithmen: Blockweise Dekomposition

Hauptschritte:

Vektor umverteilen (für quadratisches p):

Zeitkomplexität (unter den Annahmen m = n und p ist quadratisch):

Vektor x umverteilen & Summen-Reduzierung:

Jeder Prozess der 1. Spalte sendet Vektorblock ( Elemente) an 1. Zeile-Prozess

Spaltenverteilung & Summen-Reduzierung: je

Analyse (1/2)

n p logΘ

p log nΘ

Je Prozess höchstens Matrixelemente

Je Element Multiplikation mit Vektorelement

Gesamtkomplexität:

Algorithmus ist besser skalierbar!

Parallele Algorithmen: Blockweise DekompositionAnalyse (2/2)

p log n

Analysevergleich der drei Algorithmen:

Serieller Algorithmus: Θ(n2)

Blockweise Dekomposition liefert besten Algorithmus

Parallele Algorithmen: Vergleichsüberblick

Zeilenweise Spaltenweise Blockweise

komplexität

nicht gut skalierbar nicht gut skalierbar besser skalierbar

p log np

np log

Agenda

Motivation

Benchmarking

Benchmarking-Werte nach QUINN(2003)

Benchmarking nach QUINN(2003):

Cluster mit 450 MHz Pentium II Prozessoren

1.000 x 1.000 Matrix, 100 Durchläufe

Speedupergebnisse:

0 1 2 3 4 5 6 7 8 9 101112131415160

Zeilenweise

Spaltenweise

Blockweise

Speedup

Prozessoren

Eigene Benchmarking-Werte

Eigenes Benchmarking:

Cluster mit Dual Quad Core Twin Servern mit je zwei 2,1 GHz Quad Core AMD Opteron CPUs

10.000 x 10.000 Matrix, 50 Durchläufe

Speedupergebnisse:

0 1 2 3 4 5 6 7 8 9 101112131415160

ZeilenweiseSpaltenweiseBlockweise

Speedup

Prozessoren

Benchmarking-Vergleich

Mögliche Erklärungen:Anzahl Prozessoren für neue Hardware nicht groß genug

Messfehler

QUINN(2003) Eigene Werte

Implementierung

Blockweise

Dekomposition

Zeilen- und blockweise

Dekomposition

Schlechteste

Implementierung

Zeilen- und spaltenweise

Dekomposition

Spaltenweise

Dekomposition

Agenda

Motivation

Benchmarking

Zusammenfassung & Fazit

Matrix-Vektor-Multiplikation sehr verbreitet & wichtig

Parallelisieren Daten-Dekomposition:Zeilenweise Matrix-Dekomposition

Spaltenweise Matrix-Dekomposition

Blockweise Matrix-Dekomposition

Resultierende Algorithmen, deren Analyse & mgl. Implementierung

Benchmarking Theorie: Blockweise Dekomposition liefert besten Algorithmus Eigene Praxis: Zeilenweise Dekomposition ebenfalls sehr gut

Abgrenzung:

Parallele Matrix-Vektor-Multiplikation sehr einfach & elementar

Nur vollbesetzte Matrizen (ohne Sonderfall dünnbesetzte Matrizen)

Fragen & Diskussion

Hauptquelle:

Michael J. Quinn: Parallel Programming in C with MPI and OpenMP, McGraw Hill Higher Education, 2003.

Backup: Zeilenweise DekompositionAnalyse

n p log

Gesamtkomplexität:

Isoeffizienzfunktion:

Overhead: All-gather-KommunikationFür großes n: Eigentliche Kommunikationszeit übersteigt Latenzzeit

Kommunikationskomplexität vereinfacht: Θ(n)

mit , ,

Skalierbarkeitsfunktion:

Speicherauslastungsfunktion für n x n Matrix: M(n) = n2

pC n npC n2 Effizienz 1

Effizienz C

pSpeedup

Effizienz

us Algorithmparalleler Laufzeitus Algorithmserieller Laufzeit

Speedup

pC ppC

p)M(C 222

nicht sehr skalierbar!

Backup: Spaltenweise DekompositionAnalyse

Gesamtkomplexität:

Overhead: All-to-all-KommunikationFür großes n: Eigentliche Kommunikationszeit übersteigt Latenzzeit

Kommunikationskomplexität vereinfacht: Θ(n)

mit , ,

Gleiche Isoeffizienzfunktion wie bei zeilenweiser Dekomposition

Gleiche Skalierbarkeitsfunktion

pC n npC n2 Effizienz 1

Effizienz C

pSpeedup

Effizienz

Speedup

nicht sehr skalierbar!

Backup: Blockweise DekompositionAnalyse

Gesamtkomplexität:

Overhead: Kommunikationskomplexität je Prozessor

p log p C n p log p n C n22

2 Effizienz 1

Effizienz C

Speedup Effizienz

Speedup

besser skalierbar!

p log n

p log p p p

p log n2

p log C p

p log p C

p) logpM(C 22

Parallele Programmierung und Parallele Algorithmen : Matrix- Vektor - Multiplikation

Documents

Multiplikation division addition subtraktion samband

Sanders: Parallele Algorithmen Parallele Algorithmenalgo2.iti.kit.edu/sanders/courses/paralg19/vorlesung.pdfSanders: Parallele AlgorithmenNovember 25, 2019 2 Warum Parallelverarbeitung

Grundvorstellungen zu Multiplikation und Divisiondidaktik.mathematik.hu-berlin.de/user/warmuth/Arithmetik/2017_Modelle... · Modelle/Grundvorstellungen f ur die Multiplikation Modelle/Grundvorstellungen

Parallele Algorithmen - miwilhelm.de · 3 FB Automatisierung und Informatik: Parallele Algorithmen 5 Literatur Shared Memory Parallel Programming with Open MP 5th International Workshop

5.1 Bruchrechnung Multiplikation: Sarah Englmeierhome.mathematik.uni-freiburg.de/didaktik/lehre/ws1213/ddaa... · 5.1 Bruchrechnung – Multiplikation: Moana Klein Sarah Englmeier

Giustizie parallele

Parallele Programmierung und Parallele Algorithmen : Matrix- Vektor - Multiplikation

Multiplikation und Division von Brüchen

Eigenschaften von Algorithmen Klaus Becker 2007. 2 Algorithmen Zielsetzung: klassische Algorithmen erkunden und dabei zentrale Eigenschaften von Algorithmen

Vorlesung 1. C Sprache Algorithmen Effektivität von Algorithmen Programme specifizieren, Algorithmen zu ausarbeiten, Quelltext generieren, dokumentieren

Modulhandbuch für den Studiengang …...3 Algorithmen Modulbezeichnung: Algorithmen Unitbezeichnung: Algorithmen: Grundlagen; Parallele Algorithmen Studiensemester: 3 Modulverantwortliche(r):

Eigenschaften von Algorithmen Klaus Becker 2008. 2 Algorithmen Zielsetzung: klassische Algorithmen erkunden und dabei zentrale Eigenschaften von Algorithmen

Algorithm Engineering Parallele Algorithmen Stefan Edelkamp

Schnelle Multiplikation großer Zahlen

Lehrstuhl für Programmiersysteme Fakultät für Informatik Parallele Algorithmen I Basistechniken Prof. Dr. Walter F. Tichy Dr. Victor Pankratius David Meder

RC RL Parallele

Parallele Algorithmen bereits behandelt: paralleles Sortieren mit Ranksort parallele Matrixmultiplikation nach Gentleman numerisches Iterationsverfahren

Multimedia - ara.informatik.tu-freiberg.deara.informatik.tu-freiberg.de/Vorlesungen/2003/MM2003.d… · Web view• . ... shift word right • Parallele Multiplikation und Multiply-Add

EBENE KINEMATIK - math.tu-dresden.debaer/ScriptEbeneKinematik2007.pdf · 2 G. BÄR: Skript Ebene Kinematik 1.1.3 Multiplikation und Darstellungen des Kreises Die Multiplikation komplexer

3236DA4 Multiplikation Dezimalzahlen - Persen