XV Congreso Nacional de Ingenieŕıa Mecánica, XVCNIMCádiz, Diciembre 2002
Uso de ordenadores paralelos de bajo coste para simulacionesavanzadas en dinámica de fluidos y transferencia de calor
X.Trias, M.Soria, J.Jaramillo, A.Oliva, C.D. Pérez-Segarra
Centre Tecnològic de Transferència de Calor (CTTC)Lab. de Termotècnia i Energètica, Universitat Politècnica de Catalunya (UPC)
ETSEIT, c/ Colom 11, 08222 Terrassa, Spaine-mail: [email protected], web page: http://www.upc.es/lte
� �
1 / 23
Contents
CONTENIDOS
1. Introducción
2. Principales problemas asociados a los clusters de PCs• Limitaciones computaciones de los clusters de PCs• Análisis comparativo con un ordenador paralelo convecional Cray T3E• Otros problemas
3. Desarrollo de algoritmos CFD para clusters de PCs• Clasificación general de flujos• Solvers liniales paralelos• Ejemplos de casos resueltos
4. Speedup obtenidos5. Conclusiones y perspectivas de futuro
� �
2 / 23
Contents
Importancia de los clusters de PCs
• Los clusters Beowulf han significado una revolución dentro del panorama del cálculo cienf́ıfico dealtas prestaciones.
• Han permitido a muchos laboratorios obtener potencias de cálculo hasta hace poco reservadas agrandes instituciones que pod́ıan permitirse equipos valorados en muchos millones de euros.
• Gran parte de este éxito radica en la posibilidad de emplear software de sistema GNU/Linux.
� �
3 / 23
Contents
Configuración actual
• 74 processadores AMD K7• 48 - 900 MHz, 26 - 1900 MHz, 2 nodes duales• Red fast ethernet de 100 Mbits/s con 2 switch de 48 entradas• RAM total aproximada 40 Gbytes• Debian Linux 2.1• Kernel 2.4.x• Dos servidors K7 duales para acceso a Internet, post-proceso ...
� �4 / 23
Contents
Computational limitations of clusters
Low cost PC clusters are loosely coupled parallel computers:
• Good floating point power per-processor• Comparatively slow network (low bandwidth - high latency )
Algorithms must be tolerant to slow networks to run efficiently on a PC cluster.
For PCFD, unlikely other applications, latency is often the most critical problem.
� �
5 / 23
Contents
Comparative analysis with a conventional parallel computer Cray T3E
Illustrative experiment: Penta-diagonal matrix-vector product
• On a conventional parallel computer: Cray T3E (300 MHz)• On a loosely coupled PC clusters: 900 MHz K7 (with 100 Mbit/s fast ethernet).
NP : number of nodes assigned to each processor.
� �
6 / 23
Contents
PC clusters vs. Distributed memory parallel computers
� �7 / 23
Contents
Matrix-vector product: PC cluster computation and communication costs
1e-06
1e-05
1e-04
1e-03
1e-02
1e-01
1e+00
1e+02 1e+03 1e+04 1e+05
Tim
e (s
)
�
N / P
PC-CommunicationPC-Computation
8 / 23
Contents
Matrix-vector product: Cray T3E computation and communication costs
1e-06
1e-05
1e-04
1e-03
1e-02
1e-01
1e+00
1e+02 1e+03 1e+04 1e+05
Tim
e (s
)
�
N / P
T3E-CommunicationT3E-Computation
9 / 23
Contents
Otros problemes de los clusters de PCs
Fiabilidad de los componentes
• La caida de uno de los nodos implica la caida de todos los que estaban trabajando con él (4-48)
• Los componentes de consumo masivo no tienen una gran fiabilidad
• Gran parte de los PCs emplean sistemas operativos poco fiables, de por śı mismos cuelgan lamáquina periódicamente.
• Muchos usuarios perciben este hecho como algo normal. Los proveedores suministran las máquinassin someterlas a pruebas exhaustivas.
• En caso de detectar un funcionamiento incorrecto permutamos los componentes cŕıticos de lamáquina hasta identificar el causante.
• La fiabilidad del sistema empeora con el número de procesadores en paralelo, el tiempo de ejecucióny la temperatura ambiente.
10 / 23
Contents
Equipo de refrigeración
• El cluster JFF disipa unos 7kW de potencia eléctrica activa. Es necesaria la disposición de equiposde refrigeración para mantener la temperatura ambiente lo suficientemente baja.
• Ls temperatura en el espacio ocupado por el cluster JFF es de unos 20oC.• La opinión extendida entre la comunidad Beowulf es que temperaturas ambientes superiores a unos
20− 21oC provocan problemas de fiabilidad.
Falta de espacio
• Los cluster de PCs ocupan un espacio considerable.• A partir de un cierto número de nodos, el espacio destinado al cluster queda invalidado para otros
usos debido al ruido y a la baja temperatura.
Coste humano de gestión
• El coste humano de gestión puede llegar a ser desbordante.• Con el incremento del número de nodos del cluster, el coste por nodo y por usuario debeŕıa tender
a cero.
• Debe procurarse que las operaciones con intervención directa sean las menores posibles.• En un futuro se espera que sea posible realizar de forma remota cualquier operación que no implique
hardware.11 / 23
Contents
Caducidad de los nodos
• El periodo de caducidad de los nodos es breve.• Inconvenientes: coste de adquisición e instalación de los nuevos equipos.• Ventajas: los nodos anticuados pueden reaprovecharse en la formación de nuevos usuarios, depura-
ción de códigos paralelos, reciclaje como ordenadores de trabajo ...
12 / 23
Contents
DESARROLLO DE ALGORITMOS CFD PARA CLUSTER DE PCs
Se ha derrollado una intensa actividad de investigación destinada a desarrollar algoritmos que permitan
utilizar todo el potencial de los clusters de PCs en el campo de las simulaciones de dinámica de fluidosy transferencia de calor (CFD). A tal efecto, se han agrupado los problemas CFD de interés tecnológico
en tres áreas:
• Flujos con estructura parabólica: paralelizan muy bien ya que cada procesador resuelve su subdominiouna única vez y hay tan sólo una comunicación por iteración.
• Flujos de tipo general: se utilizan Krylov subspace algorithms• Flujos incompresibles: el solver desarrollado para este tipo de flujos es el Schur Complement
method .
� �
13 / 23
Contents
Parallel linear solvers
How to solve linear equation systems arising in CFD with loosely coupled computers ?
• MG algorithms? Very efficient on sequential systems
? Need very low latency parallel computers
? On high latency systems must be combined with direct parallel solvers
• Krylov subspace algorithms? Parallelize well
? Depend on good preconditioners to be efficient
? Preconditioners tend to degradate with P
• Fast-Poisson solvers and FFT-based methods? Restricted to determinated classes of problems
• Schur Complement method? Iterative
? Direct
� �
14 / 23
Contents
Direct Shur Complement method - Main features
To solve efficiently Poisson equations on PC clusters, we propose a direct Schur-Complement method:
• It is based on a pre-processing stage that depends only on A.• For any number of processors, each processor has to solve twice its own subdomain to obtain the
exact solution.
• Only one communication episode is needed: runs well on slow-networked PC clusters.• Solves linear equations almost to machine-accuracy even on strongly concentrated meshes: Low
mass residual solutions are obtained.
Algorithms
15 / 23
Contents
Ejemplos de aplicación: flujos reactivos
20001900180017001600150014001300120011001000900800700600500400300
T (K)
Algorithms16 / 23
Contents
Ejemplos de aplicación: Fachadas multifuncionales ventiladas
17 / 23
Contents
Ejemplos de aplicación: Fachadas multifuncionales ventiladas
���� ��
���
� � �� � �
� � � � � �� � � � � �� � � � � �� � � � � �� � � � � �� � � � � �
� � �� � �� � �� � �� � �� � �� � �� � �
� �� �� �� �� �� �� �� �
NSR
OCC
AEG
TSE
OTR
Ta
T1
TiT3
T2
ICC
TSR
ITR
FIGFOG
time [hours]
He
at
flu
xes
[W/m
2]
0 5 10 15 20-50
0
50
100
150
200
250
300 FOG
AEG
TSE
FIG
15th July
Algorithms18 / 23
Contents
Ejemplos de aplicación: convección natural turbulenta (DNS)
Algorithms19 / 23
Contents
Benchmark - Speedup on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1
0
5
10
15
20
25
30
35
1 4 6 8 9 10 12 15 16 20 24
Spe
ed-u
p
�
P
N=20000N=45000N=80000
N=125000N=180000
S=P
Irregular behaviour for a fixed N is due to different bandwiths of local problems depending on P .
Super-linear S is due to the non-linear cost of local band-LU solver and low cost of interface solution and communications.
� �20 / 23
Contents
Benchmark - Breakdown of solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1
0
0.2
0.4
0.6
0.8
1
0 50000 100000 150000 200000 250000 300000 350000 400000 450000
Fra
ctio
n of
tota
l SC
com
putin
g tim
e
�
N
S.1.1+S.3.2: Solution of band-LU systems (P=24)S.2.1: Solution of interface equation (P=24)
S.1.3: All-to-all communications (P=24)S.1.3: All-to-all communications (P=8)
21 / 23
Contents
Benchmark - Solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 50000 100000 150000 200000 250000 300000 350000 400000 450000
Com
putin
g tim
e (s
)
N
P=1P=8
P=24
For N = 125× 103, P = 24 Direct Shur Complement is ≈ 30 times faster than sequential ACM multigrid with �∗ = 10−322 / 23
Contents
Conclusiones y perspectivas de futuro
• A pesar de las dificultades arquitectónicas y los problemas de tipo práctico, el clusters ha supuestouna aportación decisiva para impulsar el cálculo paralelo.
• Se ha constatado la buena adecuación de los algoritmos paralelos desarrollados para la resoluciónde las ecuaciones de Navier-Stokes en Beowulf Clusters para los diferentes flujos planteados.
• Se están desarrollando nuevos algoritmos de cálculo paralelo que permitirán afrontar nuevos tiposde casos y optimizar los ya existentes.
� �23 / 23