Uso de ordenadores paralelos de bajo coste para ... · XV Congreso Nacional de Ingenier a Mec anica, XVCNIM C adiz, Diciembre 2002 Uso de ordenadores paralelos de bajo coste para

XV Congreso Nacional de Ingenieŕıa Mecánica, XVCNIMCádiz, Diciembre 2002

Uso de ordenadores paralelos de bajo coste para simulacionesavanzadas en dinámica de fluidos y transferencia de calor

X.Trias, M.Soria, J.Jaramillo, A.Oliva, C.D. Pérez-Segarra

Centre Tecnològic de Transferència de Calor (CTTC)Lab. de Termotècnia i Energètica, Universitat Politècnica de Catalunya (UPC)

ETSEIT, c/ Colom 11, 08222 Terrassa, Spaine-mail: [email protected], web page: http://www.upc.es/lte

� �

1 / 23

Contents

CONTENIDOS

1. Introducción

2. Principales problemas asociados a los clusters de PCs• Limitaciones computaciones de los clusters de PCs• Análisis comparativo con un ordenador paralelo convecional Cray T3E• Otros problemas

3. Desarrollo de algoritmos CFD para clusters de PCs• Clasificación general de flujos• Solvers liniales paralelos• Ejemplos de casos resueltos

4. Speedup obtenidos5. Conclusiones y perspectivas de futuro

� �

2 / 23

Contents

Importancia de los clusters de PCs

• Los clusters Beowulf han significado una revolución dentro del panorama del cálculo cienf́ıfico dealtas prestaciones.

• Han permitido a muchos laboratorios obtener potencias de cálculo hasta hace poco reservadas agrandes instituciones que pod́ıan permitirse equipos valorados en muchos millones de euros.

• Gran parte de este éxito radica en la posibilidad de emplear software de sistema GNU/Linux.

� �

3 / 23

Contents

Configuración actual

• 74 processadores AMD K7• 48 - 900 MHz, 26 - 1900 MHz, 2 nodes duales• Red fast ethernet de 100 Mbits/s con 2 switch de 48 entradas• RAM total aproximada 40 Gbytes• Debian Linux 2.1• Kernel 2.4.x• Dos servidors K7 duales para acceso a Internet, post-proceso ...

� �4 / 23

Contents

Computational limitations of clusters

Low cost PC clusters are loosely coupled parallel computers:

• Good floating point power per-processor• Comparatively slow network (low bandwidth - high latency )

Algorithms must be tolerant to slow networks to run efficiently on a PC cluster.

For PCFD, unlikely other applications, latency is often the most critical problem.

� �

5 / 23

Contents

Comparative analysis with a conventional parallel computer Cray T3E

Illustrative experiment: Penta-diagonal matrix-vector product

• On a conventional parallel computer: Cray T3E (300 MHz)• On a loosely coupled PC clusters: 900 MHz K7 (with 100 Mbit/s fast ethernet).

NP : number of nodes assigned to each processor.

� �

6 / 23

Contents

PC clusters vs. Distributed memory parallel computers

� �7 / 23

Contents

Matrix-vector product: PC cluster computation and communication costs

1e-06

1e-05

1e-04

1e-03

1e-02

1e-01

1e+00

1e+02 1e+03 1e+04 1e+05

Tim

e (s

)

�

N / P

PC-CommunicationPC-Computation

8 / 23

Contents

Matrix-vector product: Cray T3E computation and communication costs

1e-06

1e-05

1e-04

1e-03

1e-02

1e-01

1e+00

1e+02 1e+03 1e+04 1e+05

Tim

e (s

)

�

N / P

T3E-CommunicationT3E-Computation

9 / 23

Contents

Otros problemes de los clusters de PCs

Fiabilidad de los componentes

• La caida de uno de los nodos implica la caida de todos los que estaban trabajando con él (4-48)

• Los componentes de consumo masivo no tienen una gran fiabilidad

• Gran parte de los PCs emplean sistemas operativos poco fiables, de por śı mismos cuelgan lamáquina periódicamente.

• Muchos usuarios perciben este hecho como algo normal. Los proveedores suministran las máquinassin someterlas a pruebas exhaustivas.

• En caso de detectar un funcionamiento incorrecto permutamos los componentes cŕıticos de lamáquina hasta identificar el causante.

• La fiabilidad del sistema empeora con el número de procesadores en paralelo, el tiempo de ejecucióny la temperatura ambiente.

10 / 23

Contents

Equipo de refrigeración

• El cluster JFF disipa unos 7kW de potencia eléctrica activa. Es necesaria la disposición de equiposde refrigeración para mantener la temperatura ambiente lo suficientemente baja.

• Ls temperatura en el espacio ocupado por el cluster JFF es de unos 20oC.• La opinión extendida entre la comunidad Beowulf es que temperaturas ambientes superiores a unos

20− 21oC provocan problemas de fiabilidad.

Falta de espacio

• Los cluster de PCs ocupan un espacio considerable.• A partir de un cierto número de nodos, el espacio destinado al cluster queda invalidado para otros

usos debido al ruido y a la baja temperatura.

Coste humano de gestión

• El coste humano de gestión puede llegar a ser desbordante.• Con el incremento del número de nodos del cluster, el coste por nodo y por usuario debeŕıa tender

a cero.

• Debe procurarse que las operaciones con intervención directa sean las menores posibles.• En un futuro se espera que sea posible realizar de forma remota cualquier operación que no implique

hardware.11 / 23

Contents

Caducidad de los nodos

• El periodo de caducidad de los nodos es breve.• Inconvenientes: coste de adquisición e instalación de los nuevos equipos.• Ventajas: los nodos anticuados pueden reaprovecharse en la formación de nuevos usuarios, depura-

ción de códigos paralelos, reciclaje como ordenadores de trabajo ...

12 / 23

Contents

DESARROLLO DE ALGORITMOS CFD PARA CLUSTER DE PCs

Se ha derrollado una intensa actividad de investigación destinada a desarrollar algoritmos que permitan

utilizar todo el potencial de los clusters de PCs en el campo de las simulaciones de dinámica de fluidosy transferencia de calor (CFD). A tal efecto, se han agrupado los problemas CFD de interés tecnológico

en tres áreas:

• Flujos con estructura parabólica: paralelizan muy bien ya que cada procesador resuelve su subdominiouna única vez y hay tan sólo una comunicación por iteración.

• Flujos de tipo general: se utilizan Krylov subspace algorithms• Flujos incompresibles: el solver desarrollado para este tipo de flujos es el Schur Complement

method .

� �

13 / 23

Contents

Parallel linear solvers

How to solve linear equation systems arising in CFD with loosely coupled computers ?

• MG algorithms? Very efficient on sequential systems

? Need very low latency parallel computers

? On high latency systems must be combined with direct parallel solvers

• Krylov subspace algorithms? Parallelize well

? Depend on good preconditioners to be efficient

? Preconditioners tend to degradate with P

• Fast-Poisson solvers and FFT-based methods? Restricted to determinated classes of problems

• Schur Complement method? Iterative

? Direct

� �

14 / 23

Contents

Direct Shur Complement method - Main features

To solve efficiently Poisson equations on PC clusters, we propose a direct Schur-Complement method:

• It is based on a pre-processing stage that depends only on A.• For any number of processors, each processor has to solve twice its own subdomain to obtain the

exact solution.

• Only one communication episode is needed: runs well on slow-networked PC clusters.• Solves linear equations almost to machine-accuracy even on strongly concentrated meshes: Low

mass residual solutions are obtained.

Algorithms

15 / 23

Contents

Ejemplos de aplicación: flujos reactivos

20001900180017001600150014001300120011001000900800700600500400300

T (K)

Algorithms16 / 23

Contents

Ejemplos de aplicación: Fachadas multifuncionales ventiladas

17 / 23

Contents

Ejemplos de aplicación: Fachadas multifuncionales ventiladas

��

��

� � ��

� � � � � ��

� � ��

� ��

NSR

OCC

AEG

TSE

OTR

Ta

T1

TiT3

T2

ICC

TSR

ITR

FIGFOG

time [hours]

He

at

flu

xes

[W/m

2]

0 5 10 15 20-50

0

50

100

150

200

250

300 FOG

AEG

TSE

FIG

15th July

Algorithms18 / 23

Contents

Ejemplos de aplicación: convección natural turbulenta (DNS)

Algorithms19 / 23

Contents

Benchmark - Speedup on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

0

5

10

15

20

25

30

35

1 4 6 8 9 10 12 15 16 20 24

Spe

ed-u

p

�

P

N=20000N=45000N=80000

N=125000N=180000

S=P

Irregular behaviour for a fixed N is due to different bandwiths of local problems depending on P .

Super-linear S is due to the non-linear cost of local band-LU solver and low cost of interface solution and communications.

� �20 / 23

Contents

Benchmark - Breakdown of solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

0

0.2

0.4

0.6

0.8

1

0 50000 100000 150000 200000 250000 300000 350000 400000 450000

Fra

ctio

n of

tota

l SC

com

putin

g tim

e

�

N

S.1.1+S.3.2: Solution of band-LU systems (P=24)S.2.1: Solution of interface equation (P=24)

S.1.3: All-to-all communications (P=24)S.1.3: All-to-all communications (P=8)

21 / 23

Contents

Benchmark - Solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 50000 100000 150000 200000 250000 300000 350000 400000 450000

Com

putin

g tim

e (s

)

N

P=1P=8

P=24

For N = 125× 103, P = 24 Direct Shur Complement is ≈ 30 times faster than sequential ACM multigrid with �∗ = 10−322 / 23

Contents

Conclusiones y perspectivas de futuro

• A pesar de las dificultades arquitectónicas y los problemas de tipo práctico, el clusters ha supuestouna aportación decisiva para impulsar el cálculo paralelo.

• Se ha constatado la buena adecuación de los algoritmos paralelos desarrollados para la resoluciónde las ecuaciones de Navier-Stokes en Beowulf Clusters para los diferentes flujos planteados.

• Se están desarrollando nuevos algoritmos de cálculo paralelo que permitirán afrontar nuevos tiposde casos y optimizar los ya existentes.

� �23 / 23

Documents

Uso de ordenadores paralelos de bajo coste para ... · XV Congreso Nacional de Ingenier a Mec anica, XVCNIM C adiz, Diciembre 2002 Uso de ordenadores paralelos de bajo coste para