SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia,...

Preview:

Citation preview

SPARKLYR EN EMRjavier@rstudio.com - @javierluraschi

SPARKLYR• Introducción:

• Apache Spark: Historia, que es y cuando utilizarlo?• sparklyr : Historia, que es y cuando utilizarlo?

• Escalando sparklyr :• Clusters en Producción• Clusters en Amazon EMR

• sparklyr 0.5• Preguntas

Introducción

APACHE SPARK: HISTORIA

https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704#.1mekvn5vc

2003: The Google File System (HDFS)2004: MapReduce: Simplified Data Processing on Large Clusters2006: Hadoop project at Yahoo2008: Hive project by Facebook (SQL on Hadoop)2009: Amazon EMR2010: Apache Spark (inicio)2013: Apache Spark (release)

APACHE SPARK: QUE ES?

text_file = spark.textFile("hdfs://...") text_file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)

“Fast and general engine for large-scale data processing”

Fast: Los datos están en memoria.General: Ejecución automática de código en paralelo.

APACHE SPARK: CUANDO?Big data vs Big compute?Wu Feng - Professor VirginiaTech

Big ComputeBig Data Un poco de ambos!

SPARKLYR: HISTORIA

SPARKLYR: QUÉ ES?“Una interface in R para Apache Spark”

SPARKLYR: CUANDO USARLO?- Cluster Existente

(La información no cabe en un ordenador y esta disponible en HDFS, etc.)

- Tiempo de Procesamiento (Mis modelos son (muy) lentos y necesito acelerarlos.)

* Análisis (SQL), machine learning o paquetes de Spark en sparkly 0.5, streaming y algoritmos personalizados en un futuro.

Escalandosparklyr

CLUSTERS EN PRODUCCIÓNCloud Computing Data Center

CLUSTERS EN PRODUCCIÓN

sparklyr

CLUSTERS EN AMAZON EMR

(1) Crear un Cluster en EMR con RStudio(2) Conectarse por SSH y R en consola

(3) Instalar y Configurar FoxyProxy(4) Monitoreo en Yarn, Spark y Ganglia(5) Usando RStudio en EMR

CREAR UN CLUSTER EN EMR

CREAR UN CLUSTER EN EMR

CREAR UN CLUSTER EN EMR

CREAR UN CLUSTER EN EMR

s3://awssupportdatasvcs.com/bootstrap-actions/rstudio-sparkr-emr4-proc/rstudio_sparkr_emr4.sh--rstudio --sparkr --rexamples --plyrmr --rhdfs --sparklyr --shiny

CREAR UN CLUSTER EN EMR

CONECTARSE POR SSH

INSTALAR Y CONFIGURAR FOXYPROXY

MONITOREO EN YARN, SPARK Y GANGLIA

USANDO RSTUDIO EN EMR

sparkly 0.5

SPARKLY 0.5- Certificación Cloudera- Mejores Conexiones- Nuevas Funciones:

- n_distinct- sdf_quantile- ft_tokenizer- ft_regex_tokenizer- na.action- dim, nrow and ncos

- dplyr do - Livy (experimental)

javier@rstudio.com - @javierluraschihttps://github.com/rstudio/sparklyr/issues/

Recommended