Click here to load reader

Uso de ordenadores paralelos de bajo coste para ... · XV Congreso Nacional de Ingenier a Mec anica, XVCNIM C adiz, Diciembre 2002 Uso de ordenadores paralelos de bajo coste para

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

  • XV Congreso Nacional de Ingenieŕıa Mecánica, XVCNIMCádiz, Diciembre 2002

    Uso de ordenadores paralelos de bajo coste para simulacionesavanzadas en dinámica de fluidos y transferencia de calor

    X.Trias, M.Soria, J.Jaramillo, A.Oliva, C.D. Pérez-Segarra

    Centre Tecnològic de Transferència de Calor (CTTC)Lab. de Termotècnia i Energètica, Universitat Politècnica de Catalunya (UPC)

    ETSEIT, c/ Colom 11, 08222 Terrassa, Spaine-mail: [email protected], web page: http://www.upc.es/lte

    � �

    1 / 23

  • Contents

    CONTENIDOS

    1. Introducción

    2. Principales problemas asociados a los clusters de PCs• Limitaciones computaciones de los clusters de PCs• Análisis comparativo con un ordenador paralelo convecional Cray T3E• Otros problemas

    3. Desarrollo de algoritmos CFD para clusters de PCs• Clasificación general de flujos• Solvers liniales paralelos• Ejemplos de casos resueltos

    4. Speedup obtenidos5. Conclusiones y perspectivas de futuro

    � �

    2 / 23

  • Contents

    Importancia de los clusters de PCs

    • Los clusters Beowulf han significado una revolución dentro del panorama del cálculo cienf́ıfico dealtas prestaciones.

    • Han permitido a muchos laboratorios obtener potencias de cálculo hasta hace poco reservadas agrandes instituciones que pod́ıan permitirse equipos valorados en muchos millones de euros.

    • Gran parte de este éxito radica en la posibilidad de emplear software de sistema GNU/Linux.

    � �

    3 / 23

  • Contents

    Configuración actual

    • 74 processadores AMD K7• 48 - 900 MHz, 26 - 1900 MHz, 2 nodes duales• Red fast ethernet de 100 Mbits/s con 2 switch de 48 entradas• RAM total aproximada 40 Gbytes• Debian Linux 2.1• Kernel 2.4.x• Dos servidors K7 duales para acceso a Internet, post-proceso ...

    � �4 / 23

  • Contents

    Computational limitations of clusters

    Low cost PC clusters are loosely coupled parallel computers:

    • Good floating point power per-processor• Comparatively slow network (low bandwidth - high latency )

    Algorithms must be tolerant to slow networks to run efficiently on a PC cluster.

    For PCFD, unlikely other applications, latency is often the most critical problem.

    � �

    5 / 23

  • Contents

    Comparative analysis with a conventional parallel computer Cray T3E

    Illustrative experiment: Penta-diagonal matrix-vector product

    • On a conventional parallel computer: Cray T3E (300 MHz)• On a loosely coupled PC clusters: 900 MHz K7 (with 100 Mbit/s fast ethernet).

    NP : number of nodes assigned to each processor.

    � �

    6 / 23

  • Contents

    PC clusters vs. Distributed memory parallel computers

    � �7 / 23

  • Contents

    Matrix-vector product: PC cluster computation and communication costs

    1e-06

    1e-05

    1e-04

    1e-03

    1e-02

    1e-01

    1e+00

    1e+02 1e+03 1e+04 1e+05

    Tim

    e (s

    )

    N / P

    PC-CommunicationPC-Computation

    8 / 23

  • Contents

    Matrix-vector product: Cray T3E computation and communication costs

    1e-06

    1e-05

    1e-04

    1e-03

    1e-02

    1e-01

    1e+00

    1e+02 1e+03 1e+04 1e+05

    Tim

    e (s

    )

    N / P

    T3E-CommunicationT3E-Computation

    9 / 23

  • Contents

    Otros problemes de los clusters de PCs

    Fiabilidad de los componentes

    • La caida de uno de los nodos implica la caida de todos los que estaban trabajando con él (4-48)

    • Los componentes de consumo masivo no tienen una gran fiabilidad

    • Gran parte de los PCs emplean sistemas operativos poco fiables, de por śı mismos cuelgan lamáquina periódicamente.

    • Muchos usuarios perciben este hecho como algo normal. Los proveedores suministran las máquinassin someterlas a pruebas exhaustivas.

    • En caso de detectar un funcionamiento incorrecto permutamos los componentes cŕıticos de lamáquina hasta identificar el causante.

    • La fiabilidad del sistema empeora con el número de procesadores en paralelo, el tiempo de ejecucióny la temperatura ambiente.

    10 / 23

  • Contents

    Equipo de refrigeración

    • El cluster JFF disipa unos 7kW de potencia eléctrica activa. Es necesaria la disposición de equiposde refrigeración para mantener la temperatura ambiente lo suficientemente baja.

    • Ls temperatura en el espacio ocupado por el cluster JFF es de unos 20oC.• La opinión extendida entre la comunidad Beowulf es que temperaturas ambientes superiores a unos

    20− 21oC provocan problemas de fiabilidad.

    Falta de espacio

    • Los cluster de PCs ocupan un espacio considerable.• A partir de un cierto número de nodos, el espacio destinado al cluster queda invalidado para otros

    usos debido al ruido y a la baja temperatura.

    Coste humano de gestión

    • El coste humano de gestión puede llegar a ser desbordante.• Con el incremento del número de nodos del cluster, el coste por nodo y por usuario debeŕıa tender

    a cero.

    • Debe procurarse que las operaciones con intervención directa sean las menores posibles.• En un futuro se espera que sea posible realizar de forma remota cualquier operación que no implique

    hardware.11 / 23

  • Contents

    Caducidad de los nodos

    • El periodo de caducidad de los nodos es breve.• Inconvenientes: coste de adquisición e instalación de los nuevos equipos.• Ventajas: los nodos anticuados pueden reaprovecharse en la formación de nuevos usuarios, depura-

    ción de códigos paralelos, reciclaje como ordenadores de trabajo ...

    12 / 23

  • Contents

    DESARROLLO DE ALGORITMOS CFD PARA CLUSTER DE PCs

    Se ha derrollado una intensa actividad de investigación destinada a desarrollar algoritmos que permitan

    utilizar todo el potencial de los clusters de PCs en el campo de las simulaciones de dinámica de fluidosy transferencia de calor (CFD). A tal efecto, se han agrupado los problemas CFD de interés tecnológico

    en tres áreas:

    • Flujos con estructura parabólica: paralelizan muy bien ya que cada procesador resuelve su subdominiouna única vez y hay tan sólo una comunicación por iteración.

    • Flujos de tipo general: se utilizan Krylov subspace algorithms• Flujos incompresibles: el solver desarrollado para este tipo de flujos es el Schur Complement

    method .

    � �

    13 / 23

  • Contents

    Parallel linear solvers

    How to solve linear equation systems arising in CFD with loosely coupled computers ?

    • MG algorithms? Very efficient on sequential systems

    ? Need very low latency parallel computers

    ? On high latency systems must be combined with direct parallel solvers

    • Krylov subspace algorithms? Parallelize well

    ? Depend on good preconditioners to be efficient

    ? Preconditioners tend to degradate with P

    • Fast-Poisson solvers and FFT-based methods? Restricted to determinated classes of problems

    • Schur Complement method? Iterative

    ? Direct

    � �

    14 / 23

  • Contents

    Direct Shur Complement method - Main features

    To solve efficiently Poisson equations on PC clusters, we propose a direct Schur-Complement method:

    • It is based on a pre-processing stage that depends only on A.• For any number of processors, each processor has to solve twice its own subdomain to obtain the

    exact solution.

    • Only one communication episode is needed: runs well on slow-networked PC clusters.• Solves linear equations almost to machine-accuracy even on strongly concentrated meshes: Low

    mass residual solutions are obtained.

    Algorithms

    15 / 23

  • Contents

    Ejemplos de aplicación: flujos reactivos

    20001900180017001600150014001300120011001000900800700600500400300

    T (K)

    Algorithms16 / 23

  • Contents

    Ejemplos de aplicación: Fachadas multifuncionales ventiladas

    17 / 23

  • Contents

    Ejemplos de aplicación: Fachadas multifuncionales ventiladas

    ���� ��

    ���

    � � �� � �

    � � � � � �� � � � � �� � � � � �� � � � � �� � � � � �� � � � � �

    � � �� � �� � �� � �� � �� � �� � �� � �

    � �� �� �� �� �� �� �� �

    NSR

    OCC

    AEG

    TSE

    OTR

    Ta

    T1

    TiT3

    T2

    ICC

    TSR

    ITR

    FIGFOG

    time [hours]

    He

    at

    flu

    xes

    [W/m

    2]

    0 5 10 15 20-50

    0

    50

    100

    150

    200

    250

    300 FOG

    AEG

    TSE

    FIG

    15th July

    Algorithms18 / 23

  • Contents

    Ejemplos de aplicación: convección natural turbulenta (DNS)

    Algorithms19 / 23

  • Contents

    Benchmark - Speedup on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

    0

    5

    10

    15

    20

    25

    30

    35

    1 4 6 8 9 10 12 15 16 20 24

    Spe

    ed-u

    p

    P

    N=20000N=45000N=80000

    N=125000N=180000

    S=P

    Irregular behaviour for a fixed N is due to different bandwiths of local problems depending on P .

    Super-linear S is due to the non-linear cost of local band-LU solver and low cost of interface solution and communications.

    � �20 / 23

  • Contents

    Benchmark - Breakdown of solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 50000 100000 150000 200000 250000 300000 350000 400000 450000

    Fra

    ctio

    n of

    tota

    l SC

    com

    putin

    g tim

    e

    N

    S.1.1+S.3.2: Solution of band-LU systems (P=24)S.2.1: Solution of interface equation (P=24)

    S.1.3: All-to-all communications (P=24)S.1.3: All-to-all communications (P=8)

    21 / 23

  • Contents

    Benchmark - Solution time on a PC cluster900 MHz K7 processors; Switched 100 Mbits/s network; Debian Linux; Kernel 2.2.17; MPI LAM 6.1

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0 50000 100000 150000 200000 250000 300000 350000 400000 450000

    Com

    putin

    g tim

    e (s

    )

    N

    P=1P=8

    P=24

    For N = 125× 103, P = 24 Direct Shur Complement is ≈ 30 times faster than sequential ACM multigrid with �∗ = 10−322 / 23

  • Contents

    Conclusiones y perspectivas de futuro

    • A pesar de las dificultades arquitectónicas y los problemas de tipo práctico, el clusters ha supuestouna aportación decisiva para impulsar el cálculo paralelo.

    • Se ha constatado la buena adecuación de los algoritmos paralelos desarrollados para la resoluciónde las ecuaciones de Navier-Stokes en Beowulf Clusters para los diferentes flujos planteados.

    • Se están desarrollando nuevos algoritmos de cálculo paralelo que permitirán afrontar nuevos tiposde casos y optimizar los ya existentes.

    � �23 / 23