Upload
diegogachet1618
View
22
Download
0
Tags:
Embed Size (px)
DESCRIPTION
amazonaws
Citation preview
Roberto Daz Morales
MLG 24/06/2013
Indice
Amazon AWS
Servicios
Capa gratuita
Amazon S3
Amazon Elastic MapReduce
Amazon Elastic Compute Cloud
Amazon EBS
Amazon AWS
Amazon Web Services es un conjunto de servicios de
infraestructura y aplicaciones en la nube.
Las principales ventajas son:
La facturacin por recursos utilizados y horas de uso
(no hay consumo mnimo), lo que evita un
desembolso inicial en infraestructuras.
Escalabilidad: Se pueden ampliar o reducir las
infraestructuras utilizadas de una forma muy sencilla.
La existencia de una capa gratuita.
Servicios:
Capa gratuita:
Amazon Elastic Compute Cloud (EC2): 750
horas mensuales de instancias linux.
Amazon Elastic Block Storage: 30 GB de
almacenamiento y dos millones de E/S.
Simple Storage Service: 5 GB de
almacenamiento estndar.
Muchos otros: Bases de datos,
notificaciones, .
Por donde empezar?
Se debe crear una una cuenta AWS:
http://aws.amazon.com/es/
Datos personales, cuenta bancaria, Al terminar el proceso recibirs una llamar
llamada telefnica donde tendrs que indicar
un cdigo que han enviado a tu direccin de
correo.
Amazon S3 La capa gratuita da 5 GB de almacenamiento, 15 GB
de transferencia, 2000 operaciones PUT, 20000
operaciones GET.
A partir de ah ah los precios varan dependiendo de
la regin y el sistema de almacenamiento:
Aprox. 0.09$/mes cada GB si quieres realizar muchas
operaciones de subida/bajada.
Aprox. 0.01$/mes si el contenido no va a sufrir apenas
cambios.
Es necesaria su utilizacin para otros servicios
como elastic mapreduce.
Amazon S3
La informacin se almacena en buckets
Dentro de cada bucket se pueden crear directorios y subir/bajar ficheros.
Vamos a subir ahora los ficheros necesarios
para poder ejecutar ms adelante elastic
mapreduce
AMAZON EMR
Es la implementacion mapreduce de
amazon.
Se utilizan las instancias de amazon EC2, su
precio es aproximadamente un 25% que
reservar esas mismas instancias en amazon
EC2.
Permite sistema de subastas para adquirir
instancias.
AMAZON EMR
Se puede utilizar a travs de la consola web.
1-Crear un nuevo Job Flow
Introducir el nombre
Seleccionar si se desea la distribucin de amazon
u otra versin de hadoop diferente.
Seleccionar run your own application
Job Type:
Streaming->Ruby,PHP,R,C,Python,
Jar-> Java
AMAZON EMR
Input location:
s3n://bucket/dirDatos/ficheroDatos
Output location: s3n://bucket/dirOutput/
Esta carpeta debe estar vaca.
Mapper s3n://bucket/dirFunction/map.py
Reducer: aggregate
AMAZON EMR
Se selecciona el tipo de instancia maestro
(m1.small)
Se selecciona el nmero y tipo de instancias
esclavos.
Se pueden pedir instancias spot: Se pone un
precio de puja, las instancias libres se
reparten entre los mayores pujadores.
AMAZON EMR CLI
Existen SDKs para varios lenguages de
programacin y la posibilidad de ejecutar todo por
linea de comandos en nuestro PC.
Es necesario instalar ruby (versin 1.8.7, ni anterior
ni posterior). Aadir ejecutables al path.
Descargar la command line interface:
http://aws.amazon.com/developertools/2264
Descargar y descomprimir el zip.
AMAZON EMR CLI
Crear el fichero credentials.json.
{
"access_id":acceso_id",
"private_key": clave privada_id",
"keypair": clave_com",
"key-pairfile": clave.pem",
"log_uri": "s3n://bucket/logs",
"region": "eu-west-1
}
AMAZON EMR CLI
ACCESS_ID y PRIVATE_KEY son las claves publica y
privada para autenticacin.
Se obtienen en My Account -> Security credentials
EL Key Pair se obtiene desde la cuenta de amazon EC2, son la clave publica y privada de comunicacin.
Depende de la zona (USA, Irlanda, )
Si se pierde el fichero de clave privada no es recuperable.
AMAZON EMR CLI
>>Ruby elastic-mapreduce --create --alive
Created job flow JobFlowID
>>ruby elastic-mapreduce --j JobFlowID --stream --mapper s3n://. --input s3n:// --output s3n:// --reducer aggregate
>>ruby elastic-mapreduce --terminate JobFlowID
Para tener ms instancias, a la hora de crear el job flow:
--instance-group master --instance-type m1.large --instance-group core --instance-type m1.large --instance-count 2 --instance-group task --instance-type m1.small --instance-count 4 --bid-price 0.03
AMAZON EC2
Proporciona capacidad informtica
Proporciona recursos informticos escalables.
En resumen, nos asignan servidores con los cores,
gpus, memoria y espacio de almacenamiento que
necesitemos (o que podamos pagar).
La capa gratuita nos da 750 horas/mes de
servidores linux con 600 MB de ram y 8 GB de
disco.
AMAZON EC2 Instancias
Primera generacin M1
Small: RAM 1.7GB, 1ncleo, 160GB disco 0.06$
Xlarge: RAM 15GB, 4ncleos, 1690GB disco. 0.5$
Segunda generacin M3
Xlarge doble: 30 GB, 8ncleos. 1.1$
Memoria elevada
CPU elevada
Instancias en clster 2.7 $
De GPU: 2 GPUs NVIDIA Tesla Fermi M2050 2.36$
Existe sistema de subasta.
AMAZON EC2 CLI
Existen SDKs para varios lenguages de
programacin.
Para el manejo mediante lnea de comandos
est la interfaz CLI:
http://aws.amazon.com/developertools/351
En este caso no hay un fichero de
configuracin, los parmetros se configuran
por variables de entorno.
AMAZON EC2
Para generar una instancia entrar en la
consola web, seleccionar Instances en el
men y despus Launch Instance.
Seleccionar un Key Pair existente o crear
uno nuevo.
Seleccionar una configuracin (La estrella
significa que la configuracin es gratis).
Lanzar.
AMAZON EC2
Para conectarse a la instancia ssh o sftp.
Programas como Putty o WinSCP no
admiten el fichero de clave pblica de
amazon. Descargar PuttyGen para convertir
el fichero .pem en .ppk.
Para conectar mediante Putty seleccionar el
fichero ppk en el men SSH -> AUTH
Usuario de la instancia ec2-user
AMAZON EC2
Tras instalar el software que necesitemos,
crearemos una imagen. (Men Instances,
Actions, create Image).
Para lanzar un cluster de instancias en el
menu AMI seleccionamos la instancia que
queremos y seleccionamos launch.
Podemos indicar el nmero de instancias y
su tipo (nmero de cores, ram y disco de
cada una).
AMAZON EBS
Se puede aadir ms capacidad de
almacenamiento a las instancias mediante
amazon EBS. (Hasta 30 GB la capa gratuita)
Men Volumes/Create Volume
Los snapshots son volumenes ya creados
por alguien con un conjunto de datos de uso
publico (genoma humano, 1 million
songs,).
Fin
Para ms informacin:
http://aws.amazon.com
http://aws.amazon.com/es/documentation/elastic
mapreduce/
http://aws.amazon.com/es/documentation/ec2/