85
R/ Bioconductor: Curso Intensivo Bivariados Gr´ aficas Bivar. Correlaciones Regresiones lineales Multivariados Gr´ aficas Multivar. Iris Un par´ entesis Lattice Histogramas Comp. Distr. Visualizar Datos Scatterplots R / Bioconductor: Curso Intensivo Leonardo Collado Torres Licenciatura en Ciencias Gen´ omicas, UNAM www.lcg.unam.mx/~lcollado/index.php Cuernavaca, M´ exico Oct-Nov, 2008 1 / 85

R / Bioconductor: Curso Intensivolcolladotor.github.io/courses/Courses/R/lectures/estadistica/clase.pdf · Datos Bi/Multivariados y Lattice 1 Bivariados 2 Gr´aficas Bivar. 3 Correlaciones

Embed Size (px)

Citation preview

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

R / Bioconductor: Curso Intensivo

Leonardo Collado TorresLicenciatura en Ciencias Genomicas, UNAMwww.lcg.unam.mx/~lcollado/index.php

Cuernavaca, MexicoOct-Nov, 2008

1 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Datos Bi/Multivariados y Lattice

1 Bivariados

2 Graficas Bivar.

3 Correlaciones

4 Regresiones lineales

5 Multivariados

6 Graficas Multivar.

7 Iris

8 Un parentesis

9 Lattice

10 Histogramas

11 Comp. Distr.

12 Visualizar Datos

13 Scatterplots

14 Terminando2 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

La clase de hoy...

En la anterior clase aprendimos a explorar datosunivariados. Nos fijabamos en medidas de tendenciacentral y de dispersion.

Con datos bi y multivariados vamos a querer encontrarrelaciones entre los datos de dos o mas variables.

Vamos a ver varios tipos de graficas que sirven paraexplorar estos tipos de datos y el paquete lattice.

3 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Pares de datos categoricos

Si vienen resumidos, podemos usar tablas de contingenciapara comparar los datos.

> x <- matrix(c(56, 2, 8, 16), nrow = 2)

> dimnames(x) <- list(padre = c("con",

+ "sin"), hijo = c("con", "sin"))

> library(xtable)

> table(x)

con sin

con 56.00 8.00sin 2.00 16.00

Table 1: Uso del cinturon en California

En este ejemplo claramente vemos la relacion entre losdatos bivariados.

4 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Matrices

Algunas veces tendran los datos en vectores diferentes. Estoslos pueden juntar para hacer una matriz con funciones comorbind y cbind. A diferencia de los vectores, ahora los nombresno se ponen con names pero con rownames y colnames.Alternativamente pueden usar dimnames donde incluso puedenusar una lista para pasar los nombres.

5 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

prop.table

Cuando estas comparando dos variables, a veces tambienquieres ver la distribucion marginal. Esta la puedesrecuperar de varias formas siendo las principalesmargin.table y addmargins.

En fin, la forma mas sencilla es usar table(x,y) aunquetambien prop.table puede ser bastante util:

con sin

con 0.8750 0.1250sin 0.1111 0.8889

Table 2: Uso del cinturon en California

6 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Marginales

Example

Usen el set de datos grades del paquete UsingR. Queremos versi la calificacion del examen anterior1 tiene alguna relacion conla calificacion del examen actual2. Encuentren las distribucionesmarginales y hagan una tabla de proporciones. Hay que usarproporciones por columnas o renglones? Que concluyen?

1Variable prev

2Variable grade

7 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con graficas de barras

Otra forma de resumir tablas de contingencia es congraficas de barras. Simplemente usen barplot

con sin

Uso del cinturón

niños | padre

0.0

0.2

0.4

0.6

0.8

1.0

con sin

consin

Uso del cinturón

Padre

0.0

0.2

0.4

0.6

0.8

1.0

8 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Comparando distribuciones graficamente

A veces tenemos datos de dos variables pero no sabemossi son de la misma poblacion. Por ahora podemoscompararlas graficamente usando funciones ya conocidascomo:

I boxplotI plot junto con density ya que no es facil juntar 2

histogramas.I stripchart

Aquı les muestro un par de ejemplos:

9 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Boxplot y density

●●

●●

●●

Var 1 Var 2

−2

02

4

Boxplots

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Densidades de vars 1 y 2

N = 1000 Bandwidth = 0.2556

Den

sity

10 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Stripchart

0 5 10 15 20

var3

var4

●●●

● ●● ●●●●

● ●●

● ●● ● ● ● ●●●

●● ●●

11 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

qqplot

Si se acuerdan, boxplot usa los cuartiles para hacer lagrafica. Una grafica mas poderosa es qqplot.

qqplot te grafica los cuantiles de una distribucion contralos de otra. Si obtienes una lınea recta, significa que tusdistribuciones tienen formas similares.

Si no es el caso, la lınea sera curva de tal forma quepodras interpretar los resultados.

Puedes usar la funcion qqnorm para comparar tudistribucion con una normal. qqline tambien te puede serutil.

Aquı pueden mas ejemplos de qqplot y en wiki puedenleer mas al respecto.

12 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

qqplot: simetricas pero una es mas larga

●●●●●

● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●● ●●●

●●

−2 −1 0 1 2

−2

02

4

var1

var2

13 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplot con plot

Muchas veces tienes datos numericos pareados y quieressimplemente ver si tienen alguna relacion.

Para esto simplemente podemos hacer un scatterplot conla funcion plot.

A continuacion les muestro tres ejemplos. Un scatterplot:I de los valores de 6841 casas en 1970 que luego en el 2000

cuando fueron re-evaluadas.I entre la temperatura maxima en el dıa y el cambio en el

Dow Jones Industrial Average en mayo del 2003.I de la altura vs el peso de unos ninos de 0 a 12 anos

Claramente se puede ver en que datos hay una relacion yen cuales no.

14 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplot: casas

●●

●●

●●●●

● ●● ●

●●

●●

●●●

● ●●

●●●●●

●●●● ●●

●●●●●●

●●

●●●

●● ●

●●●●

● ●●●●

● ●●●

●● ●●

●● ●● ●●●● ●●●●

●●

●●

●●

● ●

● ●●● ●

●●●

●●●

●●●●●

●●●

●●● ●

● ●●

●●●●● ●●●● ●●●●●●●

●●●

● ●

● ●

● ●●●●

●●●

●● ●●

●●●●●●●

●●

● ●●●●●

●●

●●●●

●●

●● ●● ●● ●

●●

●●

●●

●●

● ●

●●

● ●

●●●● ●●●●

●● ●●●

●●●

●●●

●●●●●

●●

●●●

●●

●●

●●

●●●

●●●●●

●●

●●●●

●●●●● ●

● ●

●●●●●●●●

● ●● ●●●

●●

●●●●

●●

●●

●●●●

●●

● ●

● ●

●●

●●●●●

●●●●●●●

●●●

●●●● ●●●●●

●●

●●

●●●

●●

● ●●●●

●●

● ●

●●

●●●

●●

●●●●●

●●

●●

●●

●●

●● ●● ●●● ●●

●●

●●● ●

●● ●●

●●

●●●●●●●●●

●●

●●

●●●●

●●●●●

●●●●●●●

●●

●●

●●●

●●

●●●●

●●

●●●

● ●●●

●●●●● ●

●●

●●●

● ●●●●●

●●

●●

●●

● ●

●●

●●

●●●

●● ●

●●● ●● ●●●

●●●

●●

●●

●●

● ●●

●●●

●●●●●●●

● ●●● ●●●

●●●

●●

●●●

●●

●●

●●●●●

●●

●●●●

●●

●●●●●●●●●

●● ●● ●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

● ● ●

●●●●

●●

●●

● ●●●●●● ●

●●●●●

●●

●●

● ●●●● ●

●●

●●

●●● ●●

●●●

●●●● ●●●●

●●

●●●

●●●●●

●● ●●●●●●●● ●●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●● ●

● ●

●●●

●●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●●●

●●

●●

●●

●●●●

●●●●● ●

● ●

●●

●●

●●

●●●

● ●● ●● ●

●●

●●●●

●●●

●●●●

●●●●●

●●

●●●

●●●●●

●●

●●

●●

●●●●

●●● ●

●●●● ●

●●●

● ●●

●●●●

●●

●●

●●

●●

●●●

●●

● ●

●●●

●●●

●●

● ●●

● ●●

●●●●

●●●

●●

●●●●

●●●

●●

●●●

●●

●●

●●●●

●●●

●●

●● ●

●●

●●●●

●●●●

●●

●●

●●

●● ●●●●

●●●

● ●●

●●

●●

●●

● ●●

●● ●●●●●

●●

●●

●●●

●● ●

●●●●

●●

●● ●

●●●●

●●

●●

●●

●●

●●●

●●

● ●

● ●

● ●

●●

●●

●●

● ●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

● ●

●●●

●●●

● ●

●●

●●

●●

●●

●●●

● ●●

●●●

●●●●●●

●●●●●

●●

●●

●●

●●

●●●

●●

● ●

●●●

● ●

●●●

● ●

●●

●●● ●

●●

●●

●●

●●

●●

●●

●● ●●●

●●●●

● ●

●●●

●●

● ●●

●●

●● ●●●●●●●

●●

●● ●●●●●●

●●

●●

●●●●● ●●

●●

●●

● ●

●●●

●●

●● ●

●●●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

● ●

●●●●

●●●●●● ● ●●●

●●

●●

●●

●●

● ●●

●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

●●

●●

●●●

●●●●●

●●

●●

●●

●●

● ●

●●

●●●●

●●

● ●

●●●●

●●

●●●

●●

●●

●●●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

● ●

●●

● ●●

●●

●●●●●

●●

●●

●●

●●

● ●●

●●

●●

●●

● ●●

●●●●

●●●

●●●● ●●●

●●

●●●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●●●●●

●●●

●●

●●

● ●

●●

●●

● ●●

●●●

●●

●●●●

●●

●●

● ●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●●●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●●●●

●●●●

●● ●

●●

●●●●

●●●●●●●●

●●●

●●●

● ●●

●●

●●

●●●●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●

●●●●

●●●

●●

●●

●●●●●●●

● ●●

●●

●●●●

●●●

●●

●●●●

●●

●●●

●●●

●●

●●●●●

●● ●●●

●●●

●●

● ●

●●

●●●●

●●

●●●

●●●●

●●●●●

●●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●● ●

●●●

●●

●●●

●● ●

●●●

●●

● ●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●●● ●

●●

●●

●●● ●●

●●

●●

●●

●●●●

●●

●●●

●●●●

●●

●●●●●●●

●●

●● ●

●●●

●●

●●●●

●● ●

●●

●●●●

●●

● ●●●●●

●●●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

● ●

●●

●●●●

●●

●●

●●

●●●

●●

●● ●

●●●

●●

●●

●●

●●●

●●●

●●●

●●

●●

●● ●●●●

● ●●

●● ●●

●●●●●

●●

● ●●

● ●●

●●

●●

●●

●●● ●

●●

●●

●● ●

●●

● ●●●

●● ●

●●●

● ●

● ●●

●●

●●

●● ●

●●

●● ●●

●● ●●

●●

●●

●●

●●

●●

●●

●●●

●● ●●

●●

●●

●●

●●●

●●●●

●●●●●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●● ●

●●●

●●

●●

●●

●●● ●

●●●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●● ●● ●●

●●

●●

●●

●●●

●●

● ●

● ●

● ●●

●●

● ●● ●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●●●●●

● ●

●●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●● ●

●●●●

●●

●●●

●●

● ●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

● ● ●

●●

●● ●

●●

●●●

●●●

● ● ●

●●

●●

●● ●●●

●●●

●●●

●●●●●

● ●

●● ●

●●

●●

●●●

●●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●

● ●

●●

● ●●

●●

●●

●●●

● ●

●●●●

●●

●●

●●

● ●

●●

●●●●

●●●●

●●

●●

●●

●●●

●● ●

●●

● ●●

●●●●●

●●

●●●●

●●

●●

●●

●●

● ●

●●●●●

●●

●●

●●●

● ●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●●

●●

●●●●

●●

●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●●●

●●●●●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●●●●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●●●

●●

●●●●

●●

●●●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●●●

●●

●●●

●●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●●

●●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●

●●●●

●●

●●●

●●●

●●●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●●●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●

●●

●●

●●●●

●●

●●●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●●

●●●●

●●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●●

●●●●

●●

●●●

●●●●●

●●

●●●●

●●●●●●●

●●●

●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●

●●●

●●●●●●●●●

●●●

●●

●●

●●●

●●●●

●●

●●●

●●●●●

●●●●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●●●

●●●●●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●●●●●●●

●●

●●

●●

●●●●●●

●●

●●

●●●●

●●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●●

●●

●●●●

●●●●

●●

●●

●●

●●●

●●●●

●●

●●●

●●

●●

●●●

●●●●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●●●

●●

●●

●●

●●●●

●●●

●●

●●●

●●●

●●●●●●●●

●●

●●

●●

●●●●

●●

●●●●●●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●●●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●●

●●

●●

●●●●●●●●

● ●

●●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●

●●●●

●●●●

●●

●●●●

●●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●●●●●●

●●

●●

●●●●●

●●●

●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

0 50000 100000 150000 200000 250000 300000

020

0000

6000

0010

0000

0

homedata$y1970

hom

edat

a$y2

000

15 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplot: clima y bolsa

●●

60 65 70 75

−20

0−

100

010

0

Max. temp vs cambio diario en DJA

maydow$max.temp[−1]

diff(

may

dow

$DJA

)

16 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplot: pesos de ninos

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

10 20 30 40 50 60

2040

6080

100

120

140

kid.weights$height

kid.

wei

ghts

$wei

ght

MF

17 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Correlaciones

Muchas veces cuando tengas dos variables van a querersaber si estan correlacionadas. La correlacion, tal como lodice wiki:

I indica la fuerza y la direccion de una relacion lineal entredos variables aleatorias. Se considera que dos variablescuantitativas estan correlacionadas cuando los valores deuna de ellas varıan sistematicamente con respecto a losvalores homonimos de la otra: si tenemos dos variables (Ay B) existe correlacion si al aumentar los valores de A lohacen tambien los de B y viceversa. La correlacion entredos variables no implica, por sı misma, ninguna relacion decausalidad

Con R podemos encontrar sin tanto esfuerzo el coeficientede correlacion de Pearson y la correlacion de Spearman.

18 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Correlacion de Pearson

Nos dice que tan correlacionadas estan dos variables3.

En fin, les recomiendo que chequen esta pagina por siquieren revisar mas al respecto.

En R podemos encontrar la correlacion de Pearsonmuestral con la funcion cor

> cor(homedata$y1970, homedata$y2000)

[1] 0.8962155

> cor(maydow$max.temp[-1], diff(maydow$DJA))

[1] 0.01028846

> cor(kid.weights$height, kid.weights$weight)

[1] 0.82375643Es independiente de la escala de medidas de las variables

19 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Correlacion de Spearman

Esta nos sirve principalmente si la relacion entre las dosvariables no es lineal, pero crece.

Aquı no usamos los datos como tal, si no que losordenamos de menor a mayor con la funcion rank.

En R podemos calcular esta correlacion concor(rank(x), rank(y)) o simplemente usando elargumento method de la funcion cor.

Para mas informacion, lean esto.

> cor(rank(homedata$y1970), rank(homedata$y2000))

[1] 0.8878185

> cor(maydow$max.temp[-1], diff(maydow$DJA),

+ method = "spearman")

20 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Correlacion de Spearman

[1] 0.1315711

> cor(kid.weights$height, kid.weights$weight,

+ method = "s")

[1] 0.8822136

21 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Recordando

Vamos a ver rapidamente las regresiones lineales. Lasiguiente ecuacion debe serles familiar:

yi = β0 + β1xi + εi (1)

Aquı, εi es error, β0 y β1 son los coeficientes de laregresion, x es la variable independiente & y ladependiente.

En estadıstica, generalmente conocemos la x peronecesitamos estimar el resto. Por ejemplo, por el metodode mınimos cuadrados.

22 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Funciones

Uno de sus principales es hacer predicciones de la variableindependiente.

En R podemos hacer regresiones simples con lm(formula.modelo) donde usamos la notacion y TILDE xpara la formula. Por ejemplo:

> res <- lm(homedata$y2000 ~ homedata$y1970)

> res

Call:lm(formula = homedata$y2000 ~ homedata$y1970)

Coefficients:(Intercept) homedata$y1970-1.040e+05 5.258e+00

23 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Funciones

Sin embargo, es mejor almacenar el resultado en unavariable. Ası luego podemos graficarla u obtener masinformacion de esta regresion con funciones como:

I coef nos da los coeficientesI residuals nos regresa los residuosI predict nos predice un valor dado una x

Les aviso que no usen regresiones lineales para predecirvalores en un rango no valido para la variableindependiente.

A veces pueden transformar sus datos para que el modelolineal sea mas apropiado.

Chequen a las funciones lqs y rlm ya que estas son masresistentes a outliers.

24 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Graficando

●●

●●

●●●●

● ●● ●

●●

●●

●●●

● ●●

●●●●●

●●●● ●●

●●●●●●

●●

●●●

●● ●

●●●●

● ●●●●

● ●●●

●● ●●

●● ●● ●●●● ●●●●

●●

●●

●●

● ●

● ●●● ●

●●●

●●●

●●●●●

●●●

●●● ●

● ●●

●●●●● ●●●● ●●●●●●●

●●●

● ●

● ●

● ●●●●

●●●

●● ●●

●●●●●●●

●●

● ●●●●●

●●

●●●●

●●

●● ●● ●● ●

●●

●●

●●

●●

● ●

●●

● ●

●●●● ●●●●

●● ●●●

●●●

●●●

●●●●●

●●

●●●

●●

●●

●●

●●●

●●●●●

●●

●●●●

●●●●● ●

● ●

●●●●●●●●

● ●● ●●●

●●

●●●●

●●

●●

●●●●

●●

● ●

● ●

●●

●●●●●

●●●●●●●

●●●

●●●● ●●●●●

●●

●●

●●●

●●

● ●●●●

●●

● ●

●●

●●●

●●

●●●●●

●●

●●

●●

●●

●● ●● ●●● ●●

●●

●●● ●

●● ●●

●●

●●●●●●●●●

●●

●●

●●●●

●●●●●

●●●●●●●

●●

●●

●●●

●●

●●●●

●●

●●●

● ●●●

●●●●● ●

●●

●●●

● ●●●●●

●●

●●

●●

● ●

●●

●●

●●●

●● ●

●●● ●● ●●●

●●●

●●

●●

●●

● ●●

●●●

●●●●●●●

● ●●● ●●●

●●●

●●

●●●

●●

●●

●●●●●

●●

●●●●

●●

●●●●●●●●●

●● ●● ●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

● ● ●

●●●●

●●

●●

● ●●●●●● ●

●●●●●

●●

●●

● ●●●● ●

●●

●●

●●● ●●

●●●

●●●● ●●●●

●●

●●●

●●●●●

●● ●●●●●●●● ●●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●● ●

● ●

●●●

●●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●●●

●●

●●

●●

●●●●

●●●●● ●

● ●

●●

●●

●●

●●●

● ●● ●● ●

●●

●●●●

●●●

●●●●

●●●●●

●●

●●●

●●●●●

●●

●●

●●

●●●●

●●● ●

●●●● ●

●●●

● ●●

●●●●

●●

●●

●●

●●

●●●

●●

● ●

●●●

●●●

●●

● ●●

● ●●

●●●●

●●●

●●

●●●●

●●●

●●

●●●

●●

●●

●●●●

●●●

●●

●● ●

●●

●●●●

●●●●

●●

●●

●●

●● ●●●●

●●●

● ●●

●●

●●

●●

● ●●

●● ●●●●●

●●

●●

●●●

●● ●

●●●●

●●

●● ●

●●●●

●●

●●

●●

●●

●●●

●●

● ●

● ●

● ●

●●

●●

●●

● ●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

● ●

●●●

●●●

● ●

●●

●●

●●

●●

●●●

● ●●

●●●

●●●●●●

●●●●●

●●

●●

●●

●●

●●●

●●

● ●

●●●

● ●

●●●

● ●

●●

●●● ●

●●

●●

●●

●●

●●

●●

●● ●●●

●●●●

● ●

●●●

●●

● ●●

●●

●● ●●●●●●●

●●

●● ●●●●●●

●●

●●

●●●●● ●●

●●

●●

● ●

●●●

●●

●● ●

●●●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

● ●

●●●●

●●●●●● ● ●●●

●●

●●

●●

●●

● ●●

●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

●●

●●

●●●

●●●●●

●●

●●

●●

●●

● ●

●●

●●●●

●●

● ●

●●●●

●●

●●●

●●

●●

●●●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

● ●

●●

● ●●

●●

●●●●●

●●

●●

●●

●●

● ●●

●●

●●

●●

● ●●

●●●●

●●●

●●●● ●●●

●●

●●●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●●●●●

●●●

●●

●●

● ●

●●

●●

● ●●

●●●

●●

●●●●

●●

●●

● ●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●●●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●●●●

●●●●

●● ●

●●

●●●●

●●●●●●●●

●●●

●●●

● ●●

●●

●●

●●●●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●

●●●●

●●●

●●

●●

●●●●●●●

● ●●

●●

●●●●

●●●

●●

●●●●

●●

●●●

●●●

●●

●●●●●

●● ●●●

●●●

●●

● ●

●●

●●●●

●●

●●●

●●●●

●●●●●

●●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●● ●

●●●

●●

●●●

●● ●

●●●

●●

● ●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●●● ●

●●

●●

●●● ●●

●●

●●

●●

●●●●

●●

●●●

●●●●

●●

●●●●●●●

●●

●● ●

●●●

●●

●●●●

●● ●

●●

●●●●

●●

● ●●●●●

●●●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

● ●

●●

●●●●

●●

●●

●●

●●●

●●

●● ●

●●●

●●

●●

●●

●●●

●●●

●●●

●●

●●

●● ●●●●

● ●●

●● ●●

●●●●●

●●

● ●●

● ●●

●●

●●

●●

●●● ●

●●

●●

●● ●

●●

● ●●●

●● ●

●●●

● ●

● ●●

●●

●●

●● ●

●●

●● ●●

●● ●●

●●

●●

●●

●●

●●

●●

●●●

●● ●●

●●

●●

●●

●●●

●●●●

●●●●●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●● ●

●●●

●●

●●

●●

●●● ●

●●●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●● ●● ●●

●●

●●

●●

●●●

●●

● ●

● ●

● ●●

●●

● ●● ●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●●●●●

● ●

●●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●● ●

●●●●

●●

●●●

●●

● ●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

● ● ●

●●

●● ●

●●

●●●

●●●

● ● ●

●●

●●

●● ●●●

●●●

●●●

●●●●●

● ●

●● ●

●●

●●

●●●

●●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●

● ●

●●

● ●●

●●

●●

●●●

● ●

●●●●

●●

●●

●●

● ●

●●

●●●●

●●●●

●●

●●

●●

●●●

●● ●

●●

● ●●

●●●●●

●●

●●●●

●●

●●

●●

●●

● ●

●●●●●

●●

●●

●●●

● ●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●●

●●

●●●●

●●

●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●●●

●●●●●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●●●●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●●●

●●

●●●●

●●

●●●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●●●

●●

●●●

●●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●●

●●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●

●●●●

●●

●●●

●●●

●●●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●●●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●●●

●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●

●●

●●

●●●●

●●

●●●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●●

●●●●

●●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●●

●●●●

●●

●●●

●●●●●

●●

●●●●

●●●●●●●

●●●

●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●

●●●

●●●●●●●●●

●●●

●●

●●

●●●

●●●●

●●

●●●

●●●●●

●●●●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●●●

●●●●●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●●●●●●●

●●

●●

●●

●●●●●●

●●

●●

●●●●

●●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●●

●●

●●●●

●●●●

●●

●●

●●

●●●

●●●●

●●

●●●

●●

●●

●●●

●●●●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●●●

●●

●●

●●

●●●●

●●●

●●

●●●

●●●

●●●●●●●●

●●

●●

●●

●●●●

●●

●●●●●●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●●●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●●

●●

●●

●●●●●●●●

● ●

●●●●

●●

●●●

●●

●●●

●●●

●●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●

●●●●

●●●●

●●

●●●●

●●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●●●●●●

●●

●●

●●●●●

●●●

●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

0 50000 100000 150000 200000 250000 300000

020

0000

6000

0010

0000

0

homedata$y1970

hom

edat

a$y2

000

25 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Graficando: con una transformacion

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

0 1000 2000 3000 4000

2040

6080

100

120

140

height.sq

kid.

wei

ghts

$wei

ght

26 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Multivariados

Visualizar y comparar datos multivariados no es sencillo.Lo que se puede hacer es mantener constantes a algunasde las variables mientras observamos al resto.

En general en R, se pueden usar las mismas herramientaspara datos uni y bivariados con los multivariados. Aunquehay algunas diferencias.

Vamos a entrar un poco en el paquete de lattice ya queeste nos permite explorar datos multivariados mas a fondo.

27 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Datos categoricos

Podemos simplemente ver los datos como una matriz. Sinembargo, se vuelve difıcil encontrar tendencias en losdatos. Por ejemplo, chequen el set de datosstudent.expenses

La otra opcion4 es hacer tablas de contingencia con 3variables con table. Por cada valor de la variable 1 vamosa ver una tabla de contingencia para las variables 2 y 3.

De igual forma, podemos obtener tablas de 2 variablescuando n estan fijas.

> attach(student.expenses)

> table(cell.phone, car, cable.modem)

28 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Datos categoricos

, , cable.modem = N

carcell.phone N Y

N 1 2Y 2 3

, , cable.modem = Y

carcell.phone N Y

N 0 0Y 1 1

4Mas recomendable

29 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

ftable

Para resumir las tablas anteriores podemos usar ftable.Aquı se comprimen las tablas y nos ahorran espacio :)

> ftable(table(cell.phone, car, cable.modem),

+ col.vars = c("cable.modem",

+ "car"))

cable.modem N Ycar N Y N Y

cell.phoneN 1 2 0 0Y 2 3 1 1

> detach(student.expenses)

30 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Boxplot

La funcion boxplot te puede hacer este tipo de graficaspara varias variables de un solo golpe.

Sin embargo, tengan cuidado ya que es facil cometererrores en estos casos:

I puedes repetir datos sin darte cuenta.I hay que anadir los nombres manualmente.I puedes olvidar de alguna variable que agrupe a tus datos

en diferentes categorıas.

Vamos a usar el set de datos ewr que tiene info sobre lostiempos de espera para llegar a la terminal o para despegaren un aeropuerto.

> attach(ewr)

> boxplot(AA, CO, DL, HP, NW, TW,

+ US, US)

31 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Encuentren los errores

1 2 3 4 5 6 7 8

510

1520

2530

3540

32 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Version correcta

●●

●●●

AA CO DL HP NW TW UA US

68

1012

14

Llegar a terminal

AA CO DL HP NW TW UA US

2025

3035

40

Para despegar

33 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplots

Para investigar relaciones entre variables, ya habıamosvisto a los scatterplots. Puedes graficar todos los datos enuna sola imagen diferenciando a los puntos con colores y/oformas.

Alternativamente, puedes hacer graficas para cada par devariables como las que ya habıamos visto antes. Lesmuestro un ejemplo y luego vamos a jugar con los datosde Iris.

Funciones para graficas

Rapidamente les menciono varias funciones de bajo y alto nivel.Las de alto nivel hacen una grafica nueva mientras que las debajo nivel escriben encima de alguna grafica existente. plot,points, lines, abline, curve, rug, arrows, text, title y legend.

34 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Un scatterplot sobre bebes

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

150 200 250 300 350 400

6080

100

120

140

160

180

Peso vs t gestación vs mamás fumadoras

Tiempo de Gestación

Pes

o●

nuncasihasta embarazarsehace muchodesconocido

35 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Conociendo los datos

Para empezar, hay que conocer nuestros datos ^^. Utilizenlos siguientes comandos para darse una idea:

> class(iris)

> head(iris)

> tail(iris)

> colnames(iris)

> iris$Petal.Length

36 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Un scatterplot sencillo

Hagan un scatterplot sencillo con dos variables:

> plot(iris$Petal.Length, iris$Petal.Width,

+ main = "Datos Iris de Edgar Anderson")

●●● ●●

●●

●●●●●

●●●

●●● ●●

●●

●● ●●

●●●●●●

● ●●●●

●●

●●●●

●● ●

●●

●●

●●

●●

● ●

●●

●●●

●●●●

●●●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6 7

0.5

1.0

1.5

2.0

2.5

Datos Iris de Edgar Anderson

iris$Petal.Length

iris$

Pet

al.W

idth

37 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Un truco :D

Ahora chequen el siguiente truco :)

> unclass(iris$Species)[c(1:3, 75:77,

+ 112:114)]

[1] 1 1 1 2 2 2 3 3 3

unclass nos sirve para romper datos con tipo factor ennumeros del 1 hasta n categorıas.

Con este truco ahora podemos hacer una grafica consımbolos y/o colores diferentes por especie.

38 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con colores

> plot(iris$Petal.Length, iris$Petal.Width,

+ pch = 21, bg = c("red", "green3",

+ "blue")[unclass(iris$Species)],

+ main = "Datos Iris de Edgar Anderson")

●●● ●●

●●

●●●●●

●●●

●●● ●●

●●

●● ●●

●●●●●●

● ●●●●

●●

●●●●

●● ●

●●

●●

●●

●●

● ●

●●

●●●

●●●●

●●●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6 7

0.5

1.0

1.5

2.0

2.5

Datos Iris de Edgar Anderson

iris$Petal.Length

iris$

Pet

al.W

idth

39 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Pares

Ahora queremos ver todos los scatterplots. Usamos lafuncion pairs ası:

> pairs(iris[1:4], pch = 21, bg = c("red",

+ "green3", "blue")[unclass(iris$Species)],

+ main = "Datos Iris de Edgar Anderson")

Esta funcion nos va a generar los scatterplots por pares devariables. Si fuera el caso de datos tridimensionales,podrıamos usar esta funcion para visualizarlos.

En nuestro ejemplo, casi cualquier par de variables nospodrıa servir para separar las especies.

40 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Pares

Sepal.Length

2.0 3.0 4.0

●●

●●

●●

● ●●

●●

●●

● ●●●

●●

●●

●●

●●

● ●

● ●●

●●

●●

●● ●

●●

●●

●●

●●

●● ●

●●

●●●●

●●●

●●

● ●●

●●

●●

● ●

●●

●●

● ●●

●●

●●●

●●

●●●

●●●

●●

●●

●●●●

●●

●●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●●

0.5 1.5 2.5

4.5

5.5

6.5

7.5

●●●●

●●

● ●●

●●

●●● ●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●

●● ●

●●

●●●

●●●

●●

●●●

●●

●●

● ●

●●

●●

●●●

●●

●●●

●●

●●

● ●●

●●

●●

2.0

3.0

4.0

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

● ●

●●

● ●●

●●

●●

●●

●●●

●●

●●●

●●

●Sepal.Width

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●●

●●

●●

●●●●

●●●

●●

●●●

● ●

●●

●●●

●●● ●

●●

● ●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

● ●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

● ●●

●●

●●●● ●●

● ●● ● ●●●● ●

●●●●● ●●

●●●●●●●● ●● ●●● ●●● ●●●●●●

● ●● ●●

●●●

●● ●

●●

●●

●●●

●●●●

●●●

●●● ●

● ● ●●

●●● ●

●●● ●

●●●

●●

●●●

●●●●

●●

●●

●●

● ●●

●●

●●

●●

●●●●

●●●●●●

●● ●● ●●

●●● ● ●●●● ●

●●●●●● ●

●●● ●●●●● ● ●●●

● ●●● ●●● ●●

●● ●● ●●

●●●

●● ●

●●

●●

●●●

● ●●●

● ●●

●●● ●

● ●●●

●●● ●

● ●●●

●●●

●●

●● ●● ● ●●

●●

●●

● ●

● ●●

●●

●●

●●

●●●●

●●●● ● ●●

Petal.Length

13

57

●●●●●●

●●●●●●●●●

●●●●●● ●

●●● ●●●●● ●●●●●●●●●●●●

●●

●●●●●

●●●

●● ●

●●

●●

●●●

●●●●

● ●●

●●● ●

●●●●●●

● ●

●●●●

●● ●

●●

●● ●● ●●●

●●

●●

●●

●●●

●●

●●

●●

● ●●●

● ●●●● ●

4.5 5.5 6.5 7.5

0.5

1.5

2.5

●●●● ●●

●●●

●●●

●●●

●●● ●●

●●

●●●

●●●●●

●●●● ●

●● ●

●●●

●●

●●● ●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●● ●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●● ●● ●●

●●●

●●●

●●●

●●● ●●

●●

●●●

●●●●●

●●●● ●

●● ●

●●●

●●

●●● ●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6 7

●●●●●●

●●●●●●●●

●●●●●●

●●

●●●●●●●●

●●●●●●●●●●●

●●

●●●●●

●● ●

●●●

●●

●●

●●

●●

●●● ●

●●

●●●●

●●●●

●●●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●

●●

Petal.Width

Datos Iris de Edgar Anderson

41 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con mas info

A veces van a querer tener otro tipo de informacion en vezde todos los pares. Si se fijaron, cada grafica sale dosveces.

Vamos a hacer una funcion para obtener los coeficientesde correlacion.

> panel.pearson <- function(x, y,

+ ...) {

+ horizontal <- (par("usr")[1] +

+ par("usr")[2])/2

+ vertical <- (par("usr")[3] +

+ par("usr")[4])/2

+ text(horizontal, vertical,

+ format(abs(cor(x, y)),

42 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con mas info

+ digits = 2))

+ }

> pairs(iris[1:4], pch = 21, bg = c("red",

+ "green3", "blue")[unclass(iris$Species)],

+ upper.panel = panel.pearson,

+ main = "Datos Iris de Edgar Anderson")

43 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con correlaciones de Pearson

Sepal.Length

2.0 3.0 4.0

0.12 0.87

0.5 1.5 2.5

4.5

5.5

6.5

7.5

0.822.

03.

04.

0

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

● ●

●●

● ●●

●●

●●

●●

●●●

●●

●●●

●●

●Sepal.Width 0.43 0.37

●●●● ●●

● ●● ● ●●●● ●

●●●●● ●●

●●●●●●●● ●● ●●● ●●● ●●●●●●

● ●● ●●

●●●

●● ●

●●

●●

●●●

●●●●

●●●

●●● ●

● ● ●●

●●● ●

●●● ●

●●●

●●

●●●

●●●●

●●

●●

●●

● ●●

●●

●●

●●

●●●●

●●●●●●

●● ●● ●●

●●● ● ●●●● ●

●●●●●● ●

●●● ●●●●● ● ●●●

● ●●● ●●● ●●

●● ●● ●●

●●●

●● ●

●●

●●

●●●

● ●●●

● ●●

●●● ●

● ●●●

●●● ●

● ●●●

●●●

●●

●● ●● ● ●●

●●

●●

● ●

● ●●

●●

●●

●●

●●●●

●●●● ● ●●

Petal.Length

13

57

0.96

4.5 5.5 6.5 7.5

0.5

1.5

2.5

●●●● ●●

●●●

●●●

●●●

●●● ●●

●●

●●●

●●●●●

●●●● ●

●● ●

●●●

●●

●●● ●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●● ●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●● ●● ●●

●●●

●●●

●●●

●●● ●●

●●

●●●

●●●●●

●●●● ●

●● ●

●●●

●●

●●● ●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6 7

●●●●●●

●●●●●●●●

●●●●●●

●●

●●●●●●●●

●●●●●●●●●●●

●●

●●●●●

●● ●

●●●

●●

●●

●●

●●

●●● ●

●●

●●●●

●●●●

●●●●●

●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

●●

●●

●●

Petal.Width

Datos Iris de Edgar Anderson

44 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Una ultima

Ahora sin los paneles inferiores :)

> pairs(iris[1:4], pch = 21, bg = c("red",

+ "green3", "blue")[unclass(iris$Species)],

+ lower.panel = NULL, labels = c("SL",

+ "SW", "PL", "PW"), font.labels = 2,

+ cex.labels = 4.5, main = "Datos Iris de Anderson -- 3 especies")

45 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Sin inferiores

4.5 5.5 6.5 7.5

4.5

5.5

6.5

7.5

SL

2.0 3.0 4.0

●●

●●

●●

● ●●

●●

●●

● ●●●

●●

●●

●●

●●

● ●

● ●●

●●

●●

●● ●

●●

●●

●●

●●

●● ●

●●

●●●●

●●●

●●

● ●●

●●

●●

● ●

●●

●●

● ●●

●●

●●●

●●

●●●

●●●

●●

●●

1 2 3 4 5 6 7

●●●●

●●

●●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●●

0.5 1.5 2.5

4.5

5.5

6.5

7.5

●●●●

●●

● ●●

●●

●●● ●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●

●● ●

●●

●●●

●●●

●●

●●●

●●

●●

● ●

●●

●●

●●●

●●

●●●

●●

●●

● ●●

●●

●●

SW ●

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●●

●●

●●

●●●●

●●●

●●

●●●

● ●

●●

●●●

●●● ●

●●

● ●●

●●

●●

●●

●●●

●●

●●●

●●

2.0

3.0

4.0

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

● ●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

● ●●

●●

PL

13

57

●●●●●●

●●●●●●●●●

●●●●●● ●

●●● ●●●●● ●●●●●●●●●●●●

●●

●●●●●

●●●

●● ●

●●

●●

●●●

●●●●

● ●●

●●● ●

●●●●●●

● ●

●●●●

●● ●

●●

●● ●● ●●●

●●

●●

●●

●●●

●●

●●

●●

● ●●●

● ●●●● ●

0.5 1.5 2.5

0.5

1.5

2.5

PW

Datos Iris de Anderson −− 3 especies

46 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Mas funciones: usen ?

Data frames

Rapidamente les menciono unas funciones que luego les puedenayudar a manipular data frames:

subset que es equivalente a usar [...]

split sirve para separar una variable por los niveles de unfactor,

stack es inverso a split,

xtabs nos genera tablas de contingencia para un dataframe

47 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Algo del manual

Formulas

Sobre la notacion de formula, les recomiendo que chequen laseccion 11.1 Defining statistical models; formulae del manualde introduccion a R disponible en esta esta pagina. Tengancuidado al usar esta notacion porque sımbolos como +, -, etchacen otras cosas.

48 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Intro al paquete

lattice es un paquete muy importante para hacer graficascon datos multivariados que no podrıas hacer con R basico.

Utilizen los siguientes comandos para ver una pequenadescripcion y varias funciones que ofrece el paquete:

> library(lattice)

> `?`(Lattice)

lattice usa la sintaxis de formula para sus funcionesgeneralmente ası: var.dep TILDE var.indep |condicion aunque a veces no hay una var.dep

Con eso ya termine y son expertos en lattice! :P

49 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Set de datos

Gran parte de lo que veremos lo tome del material deapoyo sobre lattice que les puse en la pagina.

Primero vamos a usar los datos de Chem97 del paquetemlmRev. Usaremos las variables:

I score: califs de un examen con valores (0, 2, 4, 6, 8)I gcsescore: promedio de los examenes GCSE. Es contınua

y puede servir para predecir valores de scoreI gender: bueno... sus valores son M o F

Cargen los datos:

> data(Chem97, package = "mlmRev")

> head(Chem97)

50 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Histogramas poderosos

Con lattice podemos hacer los histogramas comunes.

Sin embargo, lo poderoso es hacer un histograma con lafuncion histogram de una variable para cada intervalodado de otra variable.

En la primera grafica van a ver una distribucion simetricaunimodal. Con la segunda podemos aprender mas.

> histogram(~gcsescore, data = Chem97)

> histogram(~gcsescore | factor(score),

+ data = Chem97)

51 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Histograma simple

gcsescore

Per

cent

of T

otal

0

5

10

15

20

25

0 2 4 6 8

52 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Histograma poderoso

gcsescore

Per

cent

of T

otal

0

10

20

30

0 2 4 6 8

0 2

0 2 4 6 8

4

6

0 2 4 6 8

8

0

10

20

30

10

53 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Densidades

Ahora queremos separar a los hombres y mujeres. Comono es facil sobreponer histogramas, podemos usardensidades.

Esto lo podemos hacer con la funcion densityplot:

> densityplot(~gcsescore | factor(score),

+ Chem97, groups = gender, plot.points = FALSE,

+ auto.key = TRUE)

54 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Densidades

gcsescore

Den

sity

0.0

0.2

0.4

0.6

0.8

0 2 4 6 8

0 2

0 2 4 6 8

4

6

0 2 4 6 8

8

0.0

0.2

0.4

0.6

0.8

10

MF

55 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

qqmath

Ahora podemos hacer lo equivalente a muchas qqnorm conla funcion qqmath.

> qqmath(~gcsescore | factor(score),

+ Chem97, groups = gender, f.value = ppoints(100),

+ auto.key = TRUE, type = c("p",

+ "g"), aspect = "xy")

De aquı podemos ver que las distribuciones estan sesgadasa la izquierda. Ademas, el cambio en la pendiente sugiereque la varianza cambia.

Si quieren hacer las qqplots pareadas usen simplementela funcion qq.

56 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

qqmath

qnorm

gcse

scor

e

3

4

5

6

7

8

−2 −1 0 1 2

●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●

●●●●●

●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●

●●●

0

●●●●

●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●

●●●

●●●●

●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●

●●●●

2

−2 −1 0 1 2

●●●●

●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●

●●●●●●

●●●●●

●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●

4

●●●●

●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●

●●●●●

●●

●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●

●●●

6

−2 −1 0 1 2

●●●●

●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●

●●●●●

●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●● ●

8

3

4

5

6

7

8

●●●●●

●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●● ●

●●●●●●●

●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●

●●● ●

10

MF

57 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

bwplot

Ahora hagamos boxplots condicionales con la funcionbwplot

> bwplot(factor(score) ~ gcsescore |

+ gender, Chem97)

En esta grafica podemos notar que la varianza decrecemientras aumenta el score.

Ademas, podemos notar los sesgos hacia la izquierda.

58 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

bwplot

gcsescore

0

2

4

6

8

10

0 2 4 6 8

●●● ● ●●●● ●●●● ● ●●●●●●● ●●●● ●●●●● ●● ●●●●●● ● ●● ●●●● ●●●

●● ● ●● ●●●● ●●●●●●●●●● ●●●●●●●● ●●●● ●●● ●●● ● ●

●● ●●● ●●●●●● ● ●●● ●●●●●●●●● ●●●●● ●●●●●●●●● ●●

● ●●● ●●● ●● ●● ●● ●●●● ●●● ●● ●●● ●●● ● ●● ●●●●● ●● ●●●●●● ●●●●●●●●●●● ●●●● ●●●●

● ●●●● ●●● ●● ●●●●●●●●●● ●● ●●● ●●●●●● ●●● ●●● ●●● ●●●● ●● ●●●●● ●●●●●●●● ●● ●●● ●● ●●● ●●●●● ●●●

● ●●● ●●●●● ●●● ●●●●●●●●● ●● ●●●● ●● ● ●●● ●●●● ●● ●●● ●●●●●● ●●●●●●

M

0 2 4 6 8

● ●●● ●●●●●●●●● ●● ●●●●●●●●● ● ●

●●●● ●● ●● ●●●●●●●●●● ●● ●● ●

●●● ●●● ●● ●●●●●●● ●●● ● ●●●●● ●●●●

●● ●● ●●●● ●● ●●●● ●●● ●●●●●●● ●●●●●●●● ●●●●●● ●●●● ● ●●●● ● ●●●●● ●● ●●● ●

●● ●●● ●● ●● ●●●●●● ●●●● ● ●●●●●●●●●●● ●●●●● ●● ● ●●●● ●●●● ●●●● ●●

●●●●● ●●● ● ●●●●●●●● ●●●●●●●●●● ●●●●● ●● ● ●●●●●●●●●● ●●●●●●● ●●●●●●● ●● ●●●● ●●●● ●●●● ●●●●●●●● ●

F

59 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

bwplot cambiada

Con el argumento layout podemos cambiar cuantospaneles tenemos.

> bwplot(gcsescore ~ gender | factor(score),

+ Chem97, layout = c(6, 1))

Junto con el cambio de orden en las variables, podemoscomparar directamente los pares de M y F.

60 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

bwplot 2

gcse

scor

e

0

2

4

6

8

M F

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●●●●●●

●●

●●●

●●

0

M F

●●

●●

●●

●●●

●●●●

●●●●●●

●●●●●

●●

●●

●●

●●●●●

●●●●●●●●●

●●

2

M F

●●●●

●●●

●●●●●●

●●●

●●●

●●●●●

●●

●●

●●

●●●●●

●●

●●

●●●●

4

M F

●●

●●

●●●

●●

●●●

●●

●●

●●●●●●

●●●●●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●●●

●●●●

●●

●●●●●

●●●

●●

●●

●●

●●

6

M F

●●

●●●●

●●

●●●

●●●●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●●●

●●●

●●

●●●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●●

●●●

8

M F

●●

●●

●●●●

●●

●●●●●●●

●●

●●

●●

●●●●●

●●●●●

●●●●

●●

●●●●●●●

●●●●●●

●●

●●

●●●

●●●●●●

●●●●●●

●●

●●

●●

●●●

●●

●●●●●●●●

10

61 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

stripplot

A veces, simplemente ver todos los datos nos puede darinformacion. Claro, preferencialmente cuando el set dedatos no es monstruoso.

Usemos la funcion stripplot para visuar unos datos sobretemblores.

> stripplot(depth ~ factor(mag),

+ data = quakes, jitter.data = TRUE,

+ alpha = 0.6, main = "Profundidad de los epicentros por magnitud",

+ xlab = "Magnitud (Richter)",

+ ylab = "Profundidad (km)")

Si se fijan, los puntos en la grafica son parcialmentetransparentes por si se sobrelapan mucho.

62 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

stripplot

Profundidad de los epicentros por magnitud

Magnitud (Richter)

Pro

fund

idad

(km

)

200

400

600

4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.9 6 6.1 6.4

63 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

barchart

Muchas veces van a tener datos en tablas. Estos lospodemos comparar con las funciones barchart y dotplot deforma similar a lo que venıamos haciendo.

Al usar barchart hay que tener cuidado de que el area delas barras sea proporcional al valor que representa.

> VADeathsDF <- as.data.frame.table(VADeaths,

+ responseName = "Rate")

> barchart(Var1 ~ Rate | Var2, VADeathsDF,

+ layout = c(4, 1))

> barchart(Var1 ~ Rate | Var2, VADeathsDF,

+ layout = c(4, 1), origin = 0)

VADeaths tiene datos sobre muertes en Virginia en 1941.

64 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

barchart incorrecto

Rate

50−54

55−59

60−64

65−69

70−74

20 40 60

Rural Male

20 40 60

Rural Female

20 40 60

Urban Male

20 40 60

Urban Female

65 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

barchart correcto

Rate

50−54

55−59

60−64

65−69

70−74

0 20 40 60

Rural Male

0 20 40 60

Rural Female

0 20 40 60

Urban Male

0 20 40 60

Urban Female

66 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

dotplot

Las graficas de barras luego te pueden distraer de lacomparacion que querıas hacer. Osea, ver los valoresmaximos. Para eso usamos dotplot

> dotplot(Var1 ~ Rate | Var2, VADeathsDF,

+ layout = c(4, 1))

> dotplot(Var1 ~ Rate, data = VADeathsDF,

+ groups = Var2, type = "o",

+ auto.key = list(space = "right",

+ points = TRUE, lines = TRUE))

La primera es como la homologa a las graficas de barrasque hicimos. La segunda nos muestra con mayor claridadrelaciones en los datos: fıjense en las curvas de hombres vslas de mujeres.

67 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

dotplot

Rate

50−54

55−59

60−64

65−69

70−74

20 40 60

Rural Male

20 40 60

Rural Female

20 40 60

Urban Male

20 40 60

Urban Female

68 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

dotplot clara

Rate

50−54

55−59

60−64

65−69

70−74

20 40 60

Rural MaleRural FemaleUrban MaleUrban Female

69 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Usando dfs

Las funciones de alto nivel de lattice son genericas conmetodos que hacen el trabajo detras.

Hemos usado las funciones con la sintaxis de formulas,pero tambien se pueden usar data frames en algunas.Ese es el caso de barchart y dotplot

Si quieren checar los metodos para alguna funcion utilicenmethods. Por ejemplo:

> methods(generic.function = "dotplot")

70 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

xyplot, splom, cloud

Para hacer scatterplots, podemos usar la funcion xyplot.

Si queremos hacer varias de estas, podemos usar funcionescomo splom y cloud.

Les muestro unos ejemplos con los datos de Iris :).

71 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

splom

Scatter Plot Matrix

SepalLength ●●●●

●●

●●

●●

●●●

● ●●

●●●

●●

●●●● ●●●

●●● ●

●●●

●●

●●● ●

●●●

●●

●● ●●●●

●●

●●●●●●●

●●●●●●●●

●●●●●

●●●●●●●●●●●●

●●●●●●●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●●●●●●

●●●

●●

●●●●

●●●

●●●

●●

SepalWidth

●●●

●●

●●

●●

●●●●

●●

●●●●●●●●●●●●●●●●

●●

●●●●

●●●

●●●

●●

●●●●●●●●● ● ●●●● ●●●● ●●●●●

●●●●●●●● ●●●●● ●●● ●●●● ●●●●● ●● ●●●● ●●●●●● ●●●● ● ●●●●●●●●

●●● ●●●●●● ●●●●●●● ●●● ●●●● ●● ●●

PetalLength

setosa

SepalLength

●●

●●

●●

●● ●●

●●●

●●●●●

●●●●

●●●●●●

●●

●●

●●●●

●●●●

●●

●●●

●●

●●

●●●●

●●●

●●● ●●

●●●●

●●●●● ●

●●

●●

●●●●

●●●●●

●●

●● ●

●●

●●

●●●●

●●

●●●

●●●●●●

●●●

●●●

●●

●●●

●●

●●● ●

●●

SepalWidth

●●●

●●

●●

●●●●

●●

●●

●●●●●●●

●●●● ●

●●●

●●●

●●

●●●●

●●

●●●

●●● ●

●●

●●●●

●●●

●●

●●●●●●●

●●●

●●●●

●● ● ●●●●● ●

●●

●●● ●

●●●

●●

●● ●

●●

●●●

●●●●

●●

●●

●●●●

●●●

●●●●

●● ●●● ●●

● ●●

●●●●●

●Petal

Length

versicolor

SepalLength

●●

●●

●●

●●●

●●●●

●●

●●

●●●

●●●

●●●

●●●

●●●

●●●● ●

●●

●●

●●

●●●

●●●

●●●●

●●

●●●

●●●

●●●

●●●

●●●

●●●

●●●●●●●

●●●● ●

●●

●●

●●

●●

●●

●●

●● ●●

● ●●●

●●●

●●●

●●●● ●●●

●●●

●●

SepalWidth

●●●● ●

●●

●●

●●

●●●●

●●

●● ●●

●●●●

●●●

●●●

●●●●●●●

●●●

●●

●●

●●●●

●● ●

●●●

●● ●●

●●

●●

●● ●

●●● ●●

●●●

●●

●●●

●●●●●●●●●

●●●

●●●●●

●● ●

●●●●● ●●

●●

●●

●●●

●●●●● ●●●

●●

●●●●●●●●●

●● ● ●● PetalLength

virginica

Tres

Variedades

de

Iris

72 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

splom 2

Scatter Plot Matrix

Sepal.Length

7

87 8

5

6

5 6●

●●●

●●

●●

●●

● ●●

●●

●●

● ●●●

●●

●●●

●●

●●

● ●

● ●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●

●●

● ●●

●●

●●●

● ●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●●●

●●

●●●●●●

●●

●●

●●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●●●●●

●●●●●

●●

●●

●●●

●●

●●●●●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●●● ●

●●●●●

●●

●●●

●●

●●●

●●

●●●

● ●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●●●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

● ●● ●

●●

●●

●●●●

●●●●

●●

●●●

●●

●●

●● ●

●●● ●

●●

● ●●

● ●

●●

●●

●●●

●● ●●●

●●

●Sepal.Width3.5

4.0

4.53.54.04.5

2.0

2.5

3.0

2.02.53.0

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

● ●●●

●●

●●

●●●●

●●●●●●

●●●

● ●

●●

●●●

●●● ●

●●

● ●●

●●

●●

●●●

●●●

●● ●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

● ●●●

●●

●●

●●●●

●●●●

●●

●●●

● ●

●●

●●●

●● ●●

●●

●●●

●●

●●

●●

●●●

●● ● ●●

●●

●●●● ●●

● ●● ● ●●●● ●

●●●●●●●

●●●●●●●● ●●●●● ●●● ●●●●●●

●●● ●●

●●●

●●● ●

●●

●●

●●●

●●

●●●●

●●●

●●●●

●● ● ●

●●●

● ●●

●●● ●

●●●

●●

●●●

●●●●

●●

●●

●●

● ●●

●●

●●

●●

●●●●●

●●●●●●

●●●● ●●

●●●● ●●●● ●

●●●●●● ●

●●● ●●●●● ● ●●●

● ●●● ●●● ●●

●● ●● ●●

●●●

●●● ●

●●

●●

●●●

●●

● ●●●

●●●

●●● ●

●● ●●

●●●

● ●●

● ●●●

●●●

●●

●● ●● ● ●●

●●

●●

●●

●●●

●●

●●

●●

●●●●●

●●●● ● ●●

Petal.Length4567

4 5 6 7

1234

1 2 3 4●●●●●

●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●●●●●●●●●●●

●●

●●●●●

●●●

●●● ●

●●

●●

●●●

●●

●●●●● ●●

●●●●

●●●●

●●●

●●●

●●●●

●● ●

●●

●●●● ●●●

●●

●●

●●

●●●●

●●

●●●●

●● ●

●●

●●●●● ●

●●●● ●●● ●● ● ●●●● ●

●●● ●●●●

●●●

●●●●●

●●●● ●●● ●●●●

●●●●● ●●

●● ●●

●●

●●

●● ●●

●●

●●●●

●●

●●●●

●● ● ●●●●●

●●

●●● ●●

●●

● ●

● ●●

●●●●

● ●

●●

● ●●

●●●

● ●●

●●

●●

●●

●●

●●●

●●

●●●● ●●●●●● ●●●● ●

●●● ●●●●

●●●●●●●

●●●● ●●● ●●● ●

●●● ●● ●●

●●●●

●●

●●

●●●●

●●

●●●●

●●

●●●●

● ● ●●● ●●●

●●

● ●●●●

●●

●●

● ●●

●●●●

● ●

●●

●●●

●●●

● ●●

●●

● ●

●●

●●

●●

● ●

●●●●●●●●●●●●●●●

●●●●●●●

●●●●●●●●

●●●●●●●●●●●

●●●●●●●

●●●●

●●

●●

●● ●●

●●

●●●●

●●

●●●●

●●●●●●●●●

●●

●●●●●●

●●

● ●

● ●●

●●●●

●●

●●

● ●●

●●●

●●●

●●

●●

●●

●●

●●

●●

Petal.Width1.5

2.0

2.51.52.02.5

0.0

0.5

1.0

0.00.51.0

Tres Variedades de Iris● ● ●Setosa Versicolor Virginica

73 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

cloud

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●

●●

Petal.Length

Petal.Width

Sepal.Length

Datos Iris●

setosaversicolorvirginica

74 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

xyplot

Vamos a ver la relacion entre la maxima aceleracionhorizontal y la distancia de una estacion de medicion delepicentro de varios terremotos.

La primera grafica muestra unos datos sesgados hacia laderecha.

En la segunda, mejoramos la grafica al usar ejeslogarıtmicos. Ademas, le anadimos una grid para poderleer mejor los datos.

75 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

xyplot

> data(Earthquake, package = "nlme")

> xyplot(accel ~ distance, data = Earthquake)

> xyplot(accel ~ distance, data = Earthquake,

+ scales = list(log = TRUE),

+ type = c("p", "g", "smooth"),

+ xlab = "Distancia al Epicentro (km)",

+ ylab = "M\341xima Aceleraci\363n Horizontal (g)")

76 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Scatterplot sencillo

distance

acce

l

0.0

0.2

0.4

0.6

0.8

0 100 200 300

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

● ● ●

●●

● ●

●●

● ● ●

●●

●●

●●●●

●●

●●

● ●

● ● ●● ●

●●

● ●

●●

●●● ●●●

●●

● ● ● ● ●

●●

● ●

77 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

Con ejes log

Distancia al Epicentro (km)

Máx

ima

Ace

lera

ción

Hor

izon

tal (

g)

10^−2.5

10^−2.0

10^−1.5

10^−1.0

10^−0.5

10^0.0

10^0.0 10^0.5 10^1.0 10^1.5 10^2.0 10^2.5

● ●●

● ●

●●

●●

●●

●●

●●

●●●

●●

● ●

● ● ●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

● ●

●●●

●●

●●

●●

● ●

78 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

3D en 2D

Con xyplot y junto con los llamados shingles5 podemosvisualizar unos datos 3D en 2D.

> Depth <- equal.count(quakes$depth,

+ number = 8, overlap = 0.1)

> xyplot(lat ~ long | Depth, data = quakes)

5Son grupos similares a los que puedes hacer con cut junto con factor pero se sobrelapan en cierto

porcentaje

79 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

shingles

long

lat

−35−30−25−20−15−10

165 170 175 180 185

●● ●

●●

●●

● ●

●●

●●●

●●

●● ●

●●●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●● ●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

Depth●

●●

●●●

●●

●●

●●●●

●●●●●●●●●

●●

●●

●●●●●

●●●●

●●

●●

●●

●●●

●● ●

●●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●

Depth

165 170 175 180 185

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●●

● ●

●●

●●●

●●

●●●

●●●

●●●

●●●

Depth

●●

●●

●●● ●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

Depth●

● ●

●●

●●

● ●

●●

●●●

● ●

●●

●●

●●

●●●

● ●●

●●● ●

●●●

●●

●●

●●●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●

Depth

−35−30−25−20−15−10

●●

●●

●●

● ●●

●●●●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●●●●

●●●●

●●●●●

●●

●●●●●●●

●●●

●●●

●●●●

●●

●●

●●●●●

●●

●●

●●

●●●

●●●●●

Depth

−35−30−25−20−15−10

●●

●●

●●●

●●●●●

●●●

●●

●●●

●●

●●●●●

●●

●●●

●●●

●●●

●●

● ●●

●●●

●●

●●●

●●

●●●●●●

●●

●●●

●●

●●●

●● ●

●●●●

●●●

●●

●●

●●

●● ●

●●●●

●●●●

●●●

Depth

165 170 175 180 185

●●●

●●●●●

●●●

●●

●● ●●

●●

●●●

●●●●●●●●●

●●

●●

●●●●●

●●●●●●●

●●●

●●●●●●●

●●●●●

●●●●●●●●●●●●●

●●

●●●

●●●●●●

●●

●●●●

●●●

●●●●●●

●●●

●●

Depth

80 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

cloud

Claro, que tambien lo podemos hacer en 3D con la funcioncloud. Por ejemplo:

> cloud(depth ~ lat * long, data = quakes,

+ zlim = rev(range(quakes$depth)),

+ screen = list(z = 105, x = -70),

+ panel.aspect = 0.75, xlab = "Longitud",

+ ylab = "Latitud", zlab = "Profundidad")

El problema es que no podemos interactuar con nuestragrafica 3D; por ejemplo, para girarla. Hay que hacerlomanualmente con el argumento screen.

81 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

3D

Longitud

Latitud

Profundidad

82 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

3D girado

Longitud

Latitud

Profundidad

83 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

lattice vs R

Una diferencia muy importante entre las graficas de R y lasde lattice es que las segundas son objetos de clase”Trellis”.

Esto quiere decir que los podemos almacenar en unavariable para luego imprimirlos con plot o print.

Para un ejemplo, fıjense en el codigo6 con el que hice lasgraficas de Iris en lattice.

En fin, hay muchas mas funciones de lattice que lespueden ser interesantes. Si quieren chequen los ejemplos yel archivo latticeIntro.pdf ;)

6A traves de la pagina del curso, porque esta invisible en la presentacion

84 / 85

R /Bioconductor:

CursoIntensivo

Bivariados

Graficas Bivar.

Correlaciones

Regresioneslineales

Multivariados

GraficasMultivar.

Iris

Un parentesis

Lattice

Histogramas

Comp. Distr.

VisualizarDatos

Scatterplots

Terminando

FIN

Se que fue un bombardeo de info :P

En fin, hagan el ejercicio 3 en la pagina del curso.

Suerte!

85 / 85