23
BSC MARENOSTRUM Javier Bartolomé Rodriguez Systems Group

BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

BSCMARENOSTRUM

Javier Bartolomé RodriguezSystems Group

Page 2: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

2MareNostrum

MareNostrum

● Proceso● 2560 JS21, 2.3GHz● 4 cores por placa● 8 Gbytes● 36 Gbytes disco SAS

● Redes● Myrinet

● 2 Spine 1280● 10 Clos256● 2560 Tarjetas Myrinet

● Gigabit● 10/100 Ethernet

● Disco● GPFS sobre 20 servidores de disco

● Sistema● Linux

94,20 TFlops10240 procesadores20 TBytes memoria280 + 90 TBytes disco

Blade centers

Myrinet racks

Storage servers

Operations rack

Gigabit switch

10/100 switches

Page 3: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

3MareNostrum

JS21 blade

● Características:● 2 chips PPC970MP @ 2.3 GHz dual-core● 8 GB RAM● Disco duro interno SAS 36.4 GB● Tarjeta myrinet en (I/O Expansion)● 2 interfaces Giagabit Ethernet Broadcom● Soporta instrucciones vectoriales SIMD

● AltiVec● BMC Conexionado con la Management del

bladecenter

Page 4: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

4MareNostrum

JS21: Esquema

Page 5: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

5MareNostrum

Bladecenter

● Elemento que puede aglutinar 14 blades● Elemento que ofrece acceso a recursos compartidos:

● Networking: Ethernet, Myrinet, Infiniband, FiberChannel, …● Redundancia casi completa de cualquier elemento● Gestión out-of-band del bladecenter y sus blades● Monitorización del entorno

● Parte Frontal:● Blades● LEDs informativos● Lector CD-ROM● Disquetera

Page 6: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

6MareNostrum

JS21 Processor Blade• 2-way 2.3 GHz Power PC 970 MP• 8GB memory (512KB L2 cache)• Local SAS drive (36 GB)• 2x1Gb Ethernet on board• Myrinet daughter card

Blades, blade center and blade center racks

Blade Center• 14 blades per chassis (7U)• 56 processors• 112GB memory• Gigabit ethernet switch

6 chassis in a rack (42U)• 336 processors• 672GB memory

Page 7: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

7MareNostrum

● Total of 20 storage nodes, 20 x 14 TBytes

● Each storage node

● 2x IBM p615

● DS4700

● EXP810

● Cabling per node

● 2 Myrinet (not used)

● 2 Gb to Force10 E600

● 2 10/100 cat5 to Cisco

● 1 Serial

Storage Hardware

Page 8: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

8MareNostrum

IBM DS4700 Controller≈ 300MB/s14x 500GB drives 7TB

IBM EXP810 SATA drawer14x 500GB drives 7TB

GbE GbE

Fiberchannel (250MB/s)

2 CPUs x server4GB RAM

5 LUNs RAID 5 (4+1)

3 hot spare disks

p615 Server p615 Server

Storage Node

Page 9: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

9MareNostrum

GbE GbE

2 CPUs x server4GB RAM

• Each new RAID5 LUN has a size of 2 TB

• Each LUN will correspond with a GPFS NSD (Network Shared Disk)

p615 Server p615 Server

Storage node (Logic vision)

/dev/sdd /dev/sde /dev/sdf /dev/sdg /dev/sdh

Page 10: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

10MareNostrum

Filesystems en MareNostrum

● /gpfs/home● El home de los usuarios. Sources codes y ejecutables propios ● Datos duplicados a nivel de GPFS● 19 TB disponibles.

● /gpfs/projects ● Zona de ficheros comunes a cada proyecto. Un directorio por

proyecto. ● 74 TB disponibles.

● /gpfs/scratch● Espacio temporal. Input/Output de los Jobs.● Filesystem sin cuotas.● 56 TB disponibles.

● /gpfs/apps ● Binarios de las aplicaciones compiladas. Un directorio por

aplicación, con subdirectorios por versiones.● 10 TB disponibles.

Page 11: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

11

● 10 Clos 256x256 switches● Conexión de hasta 256 máquinas● Conexión a los Spine mediante

● 64 puertos con quad-cables

● 2 Spine 1280● Interconexión hasta 10 Clos

256x256 switches

● Monitorización de los equipos mediante interfaz ethernet

Myrinet en MareNostrum

Page 12: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

12MareNostrum

Clos 256x256Clos 256x256

Clos 256x256Clos 256x256

Clos 256x256Clos 256x256

Clos 256x256Clos 256x256

Clos 256x256Clos 256x256

Spine 1280 Spine 1280

256 links (1 to each node)250MB/s each direction

128 Links

MareNostrum Myrinet Layout

Page 13: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

13MareNostrum

Esquema lógico MareNostrum

Page 14: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

14MareNostrum

Robot del BSC: SL8500

Page 15: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

15MareNostrum

Robot SL8500 (II)

● 7500 cintas LTO4 de 800 GB cada una ≈ 6 PB nativos● 6 PB ≈ 6000 TB ≈ 6,000,000 GB sin compresión !!!!● La misma capacidad en DVD’s puesto uno encima del otro se

podría hacer una torre tal alta como el Hotel Arts, si no se caen antes

● 8 Brazos trabajando en 4 niveles de altura● 23 Unidades lectoras LTO 4

Page 16: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

16MareNostrum

● 5 Servidores (Sun Fire v445, 4 UltraSPARC III, 8 GB RAM)

● 1 Controlador del robot● 3 Servidores para backup (TSM)● 1 Servidor para HSM

● Armario de discos● 35 TB● 77 discos SATA de 500 GB

● Conexión de red● Conexionado entre Robot y los

servidores mediante FiberChannel● 2 enlaces de 10 Gbit/s entre edificio D6 y

edificio capilla

Infraestructura hardware

Page 17: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

17MareNostrum

¿Qué es HSM?

● HSM (Hierarchical Storage Management) es un sistema de almacenamiento que mueve automáticamente datos de un sistema de almacenamiento de alto coste a otro de bajo coste.

Page 18: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

18MareNostrum

Infraestructura hardware

● Servidor SAM-FS● Características:

● Sun Fire v445, 4 CPU UltraSPARC III, 8 Gb RAM● Almacenamiento en disco

● Conexión a un array de discos mediante Fiber Channel● Capacidad: 25 discos de 500GB = 5 vols RAID5 = 9TB

● Almacenamiento en cinta● Conexión al robot de cintas mediante Fiber Channel● 6 drives dedicados (próximamente 8)● Almacenamiento: 4.500 cintas de 800 Gb● Modo redundado por seguridad: cada fichero se copia en 2 cintas

diferentes.● Capacidad: 2.250 cintas * 800 GB/cinta = 1,8 PB

Page 19: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

19MareNostrum

Cómo funciona (1) - Archiving

● El sistema busca periódicamente en disco ficheros candidatos a archivar.● Ficheros con más de 12 horas de antigüedad● Ficheros de más de 50 Gb de tamaño

● Cada 10 minutos, se rastrean los candidatos y se hace backup a cinta.

Page 20: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

20MareNostrum

Cómo funciona (2) - Releasing

● Se definen porcentajes de ocupación de disco40% - 65%

● Si se supera el umbral del 65%:● Se eliminan de disco los ficheros ya archivados.● Se mantiene el proceso hasta llegar al 40%

Page 21: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

21MareNostrum

Cómo funciona (3) - Staging

● El sistema mantiene la información de los metadatos en disco: sabe en todo momento qué ficheros hay almacenados y dónde encontrarlos.

● Si intentamos recuperar un fichero que existe únicamente en cinta el sistema lo copia de nuevo al disco: stage.

● Proceso transparente al usuario.

Page 22: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

22MareNostrum

Altix 4700 (bscsmp01)

● Shared memory system ● 32 blades

● 2 Procesadores Intel Itanium2 (Montecito), dual core @ 1.6 Ghz, Cache 8 Mbytes

● 16 GB memoria principal en cada blade● En total:

● 128 procesadores● 512 Gbytes Memoria principal

● SGI NumaLink interconnect:● Proporciona acceso global compartido a la

memoria de los diversos blades● Tráfico MPI

● Acceso al HSM● 2.5 TB disco local

Page 23: BSC MARENOSTRUM - BSC-CNS · Cómo funciona (1) - Archiving El sistema busca periódicamente en disco ficheros candidatos a archivar. Ficheros con más de 12 horas de antigüedad

23MareNostrum

Gracias !http://www.bsc.es