33
El Álgebra Lineal detrás de los buscadores de internet Carlos D’Andrea 26 / 09 / 2012 Carlos D’Andrea El Álgebra Lineal detrás de los buscadores de internet

El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Embed Size (px)

Citation preview

Page 1: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

El Álgebra Lineal detrás de los buscadoresde internet

Carlos D’Andrea

26 / 09 / 2012

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 2: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Bloques temáticos de Álgebra (EI)

Sistemas lineales de ecuacionesMatrices & determinantesEspacios vectorialesSubespacios, transformaciones lineales, ...PolinomiosNúmeros complejosVectores y valores propios – Diagonalización

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 3: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Álgebra Lineal en la Informática

Agrupamiento y clasificación de datosProgramación gráficaRedes socialesSistemas de recomendaciónReconocimiento de formas (música, huellas, fotografías)Inteligencia artificial

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 4: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¡Todo esto lo verán después!

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 5: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

El álgebra lineal detrás de

Google es una variación de la palabra “googol”, que es elnúmero 10100

Es un buscador de internetFue diseñado en 1998 por dos alumnos de doctorado eninformática en Stanford: Sergei Brin y Lawrence PageAtiende alrededor de 200.000.000 de consultas diarias, tienemás de 54.000 empleados en todo el mundo

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 6: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¿Qué es un buscador de internet?

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 7: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Trabajo básico de un buscador de internet

1 “Censar” las páginas de internet de acceso público2 Indexar los datos censados de acuerdo a su importancia con

respecto a las palabras claves3 Ordenar estos datos de acuerdo a su importancia conrespecto a las palabras claves

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 8: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

El algoritmo “PageRank”

Califica páginas indexadas de acuerdo a su “importancia”dentro de la redMarca registrada de GoogleLleva su nombre debido a su inventor Larry Page

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 9: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

El modelo PageRank

El universo de páginas de internet públicas es un gran grafodirigido donde

cada página web es un nodohay una arista orientada entre páginas que citan a otraspáginas

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 10: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

La “importancia” de una página web

Es alta sila citan muchas páginasLa citan páginas “importantes”

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 11: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Postulado PageRank

La importancia xj de la página Pj es proporcional a la sumade las importancias de las páginas que enlazan con Pj

0 · x1 +1 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x10 · x1 +0 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x21 · x1 +0 · x2 +0 · x3 +0 · x4 +1 · x5 = λ x30 · x1 +0 · x2 +1 · x3 +0 · x4 +0 · x5 = λ x41 · x1 +0 · x2 +0 · x3 +1 · x4 +0 · x5 = λ x5

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 12: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Un poco de Álgebra lineal

Si MI es la matriz de adyacencia del grafo de internet, entonces

MTI · x = λ · x

MI =

0 0 1 0 11 0 0 0 01 1 0 1 01 1 0 0 11 1 1 0 0

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 13: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¡Vectores y valores propios!

MTI · x = λ · x

λ es la constante de proporcionalidad ↔ un valor propio deMT

I

x = (x1, x2, . . . , xN) es el vector de “importancias” de laspáginas censadas ↔ un vector propio de MT

I (asociado a λ)

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 14: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

“Democratizando” el modelo

Cada página tiene voto igual a 1 ↔ Matrices estocásticas

MI ,E =

0 0 1

2 0 12

1 0 0 0 013

13 0 1

3 013

13 0 0 1

313

13

13 0 0

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 15: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Una sesión de Mathematica

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 16: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¿Es verdad que...

siempre tiene valores propios reales MTI ,E?

siempre hay un vector propio con todas sus coordenadas nonegativas?hay única solución a este problema???

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 17: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Eso no es... verdad

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 18: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Teorema (Perron– Frobenius (1907–1912))

Supongamos que M tiene entradas no negativas y además esirreducible. Entonces

existe un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor o igual, en módulo, que todos losdemás valores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 19: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Matrices irreducibles

Una matriz cuadrada se dice irreducible si no existe ningunapermutación de sus filas y columnas que la transforme en(

M11 A12

0 M22

),

con M11 y M22 matrices cuadradas

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 20: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Matriz irreducible ↔ grafo “fuertemente” conexo

Si se trata de la matriz de incidencia de un grafo dirigido, serirreducible significa que dos nodos cualesquiera estan conectadospor un camino (dirigido)

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 21: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¿Es el grafo de internet fuertemente conexo?

¡Ni siquiera es conexo!Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 22: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Solución “a la Google”

“Perturbamos” la matriz MI ,E y la hacemos irreducible:

McI ,E := c MI ,E + (1− c)U

c es un parámetro entre 0 y 1 (cgoogle ≈ 0, 85)

U =

1N

1N . . . 1

N...

......

...1N

1N . . . 1

N

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 23: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Corolario: todo grafo dirigido tiene su importancia

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 24: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

0, 85

0 1 0 0 0 00 0 1

212 0 0

0 0 0 0 0 00 0 0 0 1

212

0 0 0 0 0 10 0 1 0 0 0

+ 0, 15

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

=

0, 025 0, 875 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 45 0, 45 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 45 0, 450, 025 0, 025 0, 025 0, 025 0, 025 0, 8750, 025 0, 025 0, 875 0, 025 0, 025 0, 025

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 25: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Del existencialismo al Cálculo

El grafo de internet tiene más de un billón de nodos.... ¿cómo secalcula el vector propio de importancias?

Métodos NuméricosCarlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 26: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Teorema 1 (Perron, 1907)

Si M tiene todos sus coeficientes positivos, entoncesexiste un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor, en módulo, que todos los demásvalores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 27: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Método de las potencias (usado por Google)

Si hay un único valor propio λ de módulo máximo entonces,consideremos la siguiente sucesión

x0= cualquier vector de RN

xn+1 = M·xn‖M·xn‖

Entonceslimn→∞xn = x

limn→∞‖M·xn‖‖xn‖ = λ

con probabilidad 1

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 28: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Google y PageRank

El objetivo de Brin y Page era que al menos una de las diezprimeras páginas que se muestren contenga información útilpara el que consultaEn mayo de 2011 Google consiguió superar los mil millones devisitantes por mesEn el último reporte anual (2011) los activos de la compañíaestaban valorados en U$D 37.905.000.000El algoritmo PageRank fue patentado por la Universidad deStanford, y Google tiene derechos exclusivos sobre esa patente.Desde febrero de 2011 Google utiliza “Google Panda”, lasegunda generación del PageRank

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 29: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

Otras aplicaciones del PageRank

Clasificación para las eliminatorias de la NBAModelos de evolución de ecosistemasAnálisis de redes de proteínasAlternativa al ISI impact factor

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 30: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

“The $25, 000, 000, 000 Eigenvector: The LinearAlgebra behind Google”, Kurt Bryan & Tanya Leise, SiamReview 48 (3), 569–581, 2006“Les Matemàtiques de Google: l’algorismePageRank”, Joan Gimbert, Butlletí de la Societat Catalana deMatemàtiques, Vol 26, 1, 2011, 29–55“El secreto de Google y el Álgebra Lineal”, P.Fernández, Bol. Soc. Esp. Mat. Apl. 30 (2004), 115–141

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 31: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¿Qué hemos aprendido hoy?

Álgebra linealTeoría de grafosMatrices estocásticasCálculo numéricoAnálisis funcionalAlgoritmos de búsqueda

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 32: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

¿Qué es la ingeniería?

... es la actividadde trasformar elconocimiento enalgo práctico

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Page 33: El Álgebra Lineal detrás de los buscadores de internet · El Álgebra Lineal detrás de los buscadores de internet. BloquestemáticosdeÁlgebra(EI) Sistemaslinealesdeecuaciones

http://atlas.mat.ub.es/personals/dandreaCarlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet