Método de conjuntos de nivel para Máquinas de Soporte

_________________________________________________

Método de conjuntos de nivel para

Máquinas de Soporte Vectorial

_________________________________________________

Proyecto de grado

Juan Diego Pérez Sierra

Director: Adolfo José Quiroz

Departamento de Matemáticas

Facultad de Ciencias

Universidad de Los Andes

Diciembre 2020

Método de conjuntos

de nivel para

Máquinas de Soporte

Vectorial

Juan Diego Pérez Sierra

Director: Adolfo José Quiroz

Departamento de Matemáticas

Facultad de Ciencias

Universidad de Los Andes

Agradecimientos Agradezco a Adolfo Quiroz por asesorar este proyecto y ser parte fundamental

de su desarrollo. En especial por su paciencia y compromiso. A Juan, Luz

Marina y Karen, por su apoyo.

“No desdeñes nuestro poder

nos hemos insinuado;

al infinito”

Robert Frost

Índice

1. Introducción ............................................................................................................... 7 1.1 Descripción general del documento ...................................................................................... 8 1.2 Notación .............................................................................................................................. 8

2. Preliminares ............................................................................................................... 9 2.1 Espacios de probabilidad ...................................................................................................... 9 2.2 Ley fuerte de los grandes números ..................................................................................... 11 2.3 Desigualdad de Hoeffding .................................................................................................. 14

3. Distribución acumulada empírica ........................................................................... 16 3.1 Procesos empíricos............................................................................................................. 16 3.2 Estimación de conjuntos de nivel ....................................................................................... 18

4. Convergencia uniforme de medidas empíricas ....................................................... 22 4.1 Teorema de Glivenko-Cantelli ........................................................................................... 23 4.2 Clases de conjuntos con discriminación polinomial ............................................................ 26 4.3 Tasa de convergencia sobre clases de funciones ................................................................. 31

5. Máquinas de Soporte Vectorial ............................................................................... 34 5.1 Máquinas de Soporte Vectorial........................................................................................... 34 5.2 Algoritmo .......................................................................................................................... 39 5.3 Implementaciones .............................................................................................................. 40

6. Conclusiones ............................................................................................................. 42

7. Referencias ............................................................................................................... 44

Capitulo 1

Introducción

La teoría computacional del aprendizaje se ha convertido en uno de los campos de

investigación más importantes y con mayores aplicaciones de la Inteligencia Artificial. Esto

se debe principalmente a que la disponibilidad de sistemas de aprendizaje confiables es de

gran importancia, en cuanto hay demasiadas tareas que no pueden ser resueltas por técnicas

de programación clásicas. Ejemplos de ello son el reconocimiento de caracteres escritos a

mano o el modelamiento de una reacción química, donde las interacciones de los procesos

subyacentes son tan complejas que no existe una descripción explicita para calcular el

resultado deseado. En estos casos, una estrategia alternativa para resolver este tipo de

problemas es que el computador pueda llegar a aprender, a partir de ejemplos, la

funcionalidad tácita entre el conjunto de datos disponibles y la respuesta esperada.

El problema de que las máquinas puedan aprender a partir de un conjunto de datos de

ejemplo ha sido objeto de debate tanto filosófico como técnico. Alan Turing, a mediados

del Siglo XX proponía que las máquinas eran capaces, en cierto grado, de aprender. Desde

entonces, investigadores en los campos de la Estadística y las Redes Neuronales han

desarrollado varios métodos para discriminar entre dos clases de instancias utilizando

funciones lineales. El primer algoritmo iterativo para aprender sobre la base de

clasificación lineal es el perceptron, un procedimiento propuesto por Frank Rosenblatt en

1956. Actualmente, el aprendizaje supervisado es el sub-campo de la teoría del aprendizaje

encargada de estudiar algoritmos que reciben como entrada un conjunto de datos de

entrenamiento donde cada uno de ellos está asociado a una categoría o clase. Típicamente,

en clasificación binaria, el conjunto de datos es representado como vectores 𝑥𝑖 ∈ ℝ𝑑

asociados con una clase 𝑦𝑖 ∈ {−1,1} . En este documento discutiremos el algoritmo

iterativo de clasificación Máquina de Soporte Vectorial propuesto por Vapnik en 1974 [3].

Uno de los aspectos fundamentales de la aplicación práctica de las Máquinas de Soporte

Vectorial es que para obtener la solución exacta no es necesario utilizar todo el conjunto de

datos disponibles, sino que, en realidad, una fracción de los datos es realmente importante:

los Vectores de Soporte. El problema de identificar Vectores de Soporte en conjuntos de

datos grandes ha recibido gran atención en la literatura. En este sentido, varios algoritmos

se han propuesto, entre ellos el de K-nearest neighbors explicado en [4] cuya idea central es

tomar sub-muestras aleatorias, identificar los vectores de soporte en cada sub-muestra e

enriquecer las muestras con vectores cercanos; dando resultados aproximados al problema

de clasificación pero con implementaciones más eficientes. En este trabajo proponemos un

algoritmo en el mismo espíritu, pero utilizando una técnica diferente motivada por

resultados teóricos de las medidas empíricas.

1.1 Descripción general del documento El documento se divide esencialmente en dos partes: la primera parte se constituye

de los primeros cuatro capítulos y allí se introducen los fundamentos teóricos que motivan

nuestro algoritmo. La segunda parte se constituye de los capítulos 5 y 6, en donde se

introducen los fundamentos de las Máquinas de Soporte Vectorial y reportamos los

resultados de nuestras implementaciones computacionales. En el capítulo 1 se motiva el

estudio de Máquinas de Soporte Vectorial y sirve para establecer la notación a lo largo del

documento. En el capítulo 2 se discuten y definen los conceptos de espacios probabilidad

necesarios para enunciar y demostrar teoremas de los capítulos siguientes. Además,

probamos dos resultados fundamentales: La ley Fuerte de los Grandes Números y la

Desigualdad de Hoeffding. En el capítulo 3 introducimos los conceptos de medidas

empíricas y conjuntos de nivel, se prueba un resultado de consistencia tocante a la

estimación empírica de distribuciones de probabilidad. En el capítulo 4 se enuncian y

demuestran varios resultados de generalizaciones uniformes de medidas empíricas.

Posteriormente, en el capitulo 5 enunciamos los conceptos básicos de las Máquinas de

Soporte Vectorial, formalizamos la idea alusiva al rol fundamental de los Vectores de

Soporte y exhibimos nuestro algoritmo. Finalmente, en el capitulo 6 reportamos los

resultados y se presentan las conclusiones respectivas.

1.2 Notación Usamos notación estándar de teoría de conjuntos. Sea 𝛺 un conjunto, 𝐴, 𝐵 ⊂ 𝛺

subconjuntos. Entonces:

𝐴𝑐 = {𝜔 ∈ 𝛺 , 𝜔 ∉ 𝐴} es el complemento de 𝐴.

𝐴\𝐵 = {𝜔 ∈ 𝐴 𝑦 𝜔 ∉ 𝐵} es la diferencia entre conjuntos.

A∆𝐵 = (𝐴\𝐵) ∪ (𝐵\𝐴) es la diferencia simétrica.

|𝐴| denota el cardinal 𝐴.

Sean 𝑎𝑛 ∈ 𝐴, entonces (𝑎𝑛)𝑛∈ℕ ⊂ 𝐴 es una sucesión de elementos de 𝐴. Dadas sucesiones (𝑎𝑛) y (𝑏𝑛) denotamos por 𝑎𝑛 ≫ 𝑏𝑛 ∶⇔ 𝑎𝑛 𝑏𝑛 → ∞,⁄ 𝑛 → ∞.

La función indicadora del conjunto 𝐴 se define como

𝟏𝐴(𝜔) = {1, 𝑠𝑖 𝜔 ∈ 𝐴0, 𝑠𝑖 𝜔 ∉ 𝐴

Denotamos por ∨ y ∧, máximo y mínimo, respectivamente. Así, por ejemplo ∨ (5,2) = 5. Si 𝑓: 𝐴 → 𝐵 es una función, y 𝑎 ∈ 𝐵 y 𝐶 ⊂ 𝐵 denotaremos por:

𝑓 ∈ 𝐶 = {𝜔 ∈ 𝐴: 𝑓(𝜔) ∈ 𝐶}

𝑓 < 𝑎 = {𝜔 ∈ 𝐴: 𝑓(𝜔) < 𝑎}

Si 𝑣 ∈ ℝ𝑑 y 𝐴 ∈ ℝ𝑛×𝑛, sus respectivas transpuestas son 𝑣𝑡 , 𝐴𝑡.

Capitulo 2

Preliminares

En este capitulo se introducen los conceptos básicos que serán utilizados en el

documento. Consideramos inicialmente los espacios de probabilidad y discutimos algunas

desigualdades conocidas como la desigualdad de Chebyshev. Posteriormente enunciamos y

demostramos la ley fuerte de los grandes números en el caso i.i.d. utilizando el lema de

Borel-Cantelli y terminamos con la desigualdad de Hoeffding, todos resultados

fundamentales para el capitulo 4. La mayoría de pruebas son tomadas o adaptadas de

Ash[1] o de Dudley[2].

2.1 Espacios de probabilidad

Definición 2.1: Sea 𝛺 un conjunto. Decimos que la colección de subconjuntos 𝔅 ⊂ 2𝛺 es

una 𝜎-álgebra si:

𝛺 ∈ 𝔅

Si 𝐴 ∈ 𝔅, entonces 𝐴𝑐 ∈ 𝔅

Si (𝐴𝑛)𝑛∈ℕ ∈ 𝔅, entonces ⋃ (𝐴𝑛) ∈ 𝔅𝑛∈ℕ

Con la notación anterior decimos que 𝐴 ∈ 𝔅 es un evento. En el caso especial de que 𝛺 =ℝ, siempre tomamos 𝔅 igual a la 𝜎-algebra de Borel que se define como la 𝜎-algebra más

pequeña que contiene todos los conjuntos abiertos en ℝ. La denotamos por ß.

Definición 2.2: Una función que asigna un número 𝑃(𝐴) para cada conjunto en una

𝜎-algebra 𝔅 es llamada una medida de probabilidad si satisface las siguientes condiciones:

𝑃(𝐴) ≥ 0 , para todo 𝐴 ∈ 𝔅

𝑃(𝛺) = 1

Si 𝐴1, 𝐴2,… son conjuntos disjuntos en 𝔅 entonces 𝑃(𝐴1 ∪ 𝐴2 ∪ … ) = ∑ 𝑃(𝐴𝑛)𝑛∈ℕ

Definición 2.3: Un espacio de probabilidad es una tripla (𝛺, 𝔅, 𝑃) , donde 𝛺 es un

conjunto, 𝔅 es una 𝜎-algebra y 𝑃 es una medida de probabilidad.

Nota 2.3.1 En lo que resta del documento, siempre se entenderá que 𝛺 es un espacio de

probabilidad con una 𝜎- algebra y una medida de probabilidad asociada.

Definición 2.4: Una variable aleatoria en el espacio de probabilidad (𝛺, 𝔅, 𝑃) , es una

función real 𝑋 definida sobre 𝛺, tal que para todo conjunto boreliano 𝐵 ∈ ß, tenemos que

{𝜔: 𝑋(𝜔) ∈ 𝐵} ∈ 𝔅.

Nota 2.4.1: En general tomaremos variables aleatorias con valores vectoriales en ℝ𝑑 y la

definición es análoga sobre los conjuntos borelianos de ℝ𝑑 .

Definición 2.5: Sea 𝑋 una variable aleatoria 𝑋 definida en un espacio de probabilidad

(𝛺, 𝔅, 𝑃), definimos:

El valor esperado de 𝑋 como 𝐸[𝑋] = ∫ 𝑋𝑑𝑃, si la integral existe.

La varianza de 𝑋 como 𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝐸[𝑋])2], si 𝐸[𝑋2] < ∞.

Nota 2.5.1: El valor esperado es un “operador” lineal, en el sentido de que si 𝑋1, … , 𝑋𝑛 son

variables aleatorias entonces 𝐸[𝑋1 + ⋯ + 𝑋𝑛] = 𝐸[𝑋1] + ⋯ + 𝐸[𝑋𝑛]. Esta propiedad será

utilizada repetidamente en el capítulo 3. Asimismo, preserva monotonía en tanto que si

𝑋1 ≤ 𝑋2 ⇒ 𝐸[𝑋1] ≤ 𝐸[𝑋2].

Definición 2.6: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad y sean 𝐴1, … , 𝐴𝑛 ∈ 𝔅 y 𝑋1, … , 𝑋𝑛

variables aleatorias definidas en 𝛺, entonces:

Decimos que 𝐴1, … , 𝐴𝑛 son independientes si, ∀𝑖 ≠ 𝑗 ∈ {1, … , 𝑛}

𝑃(𝐴𝑖 ∩ 𝐴𝑗) = 𝑃(𝐴𝑖)𝑃(𝐴𝑗)

Decimos que 𝑋1, … , 𝑋𝑛 son independientes si para todos los conjuntos borelianos

𝐵1, … , 𝐵𝑛 tenemos que:

𝑃(𝑋1 ∈ 𝐵1, … , 𝑋𝑛 ∈ 𝐵𝑛) = 𝑃(𝑋1 ∈ 𝐵1) ∙ … ∙ 𝑃(𝑋𝑛 ∈ 𝐵𝑛)

Definición 2.7: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad y 𝑋1, … , 𝑋𝑛 variables aleatorias

definidas todas en el mismo espacio de probabilidad 𝛺. Entonces:

La función de distribución de una variable aleatoria 𝑋𝑖 se define por:

𝐹𝑖(𝑥) = 𝑃(𝑋𝑖 ≤ 𝑥)

La función de distribución adjunta de 𝑋1, … , 𝑋𝑛 está definida por:

𝐹12…𝑛(𝑥1, … , 𝑥𝑛) = 𝑃(𝑋1 ≤ 𝑥1, … , 𝑋𝑛 ≤ 𝑥𝑛)

Ejemplo. Para 𝑎 < 𝑏 . La función de distribución de probabilidad 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒[𝑎, 𝑏] se

define por:

𝐹(𝑥) = {

0, 𝑝𝑎𝑟𝑎 𝑥 < 𝑎𝑥 − 𝑎

𝑏 − 𝑎, 𝑝𝑎𝑟𝑎 𝑎 ≤ 𝑥 ≤ 𝑏

1, 𝑝𝑎𝑟𝑎 𝑥 > 𝑏

Nota 2.7.1: En ocasiones escribimos 𝑋 = (𝑋1, … , 𝑋𝑛) una muestra de variables aleatorias,

en ese caso 𝐹𝑋(𝑥) denota la distribución adjunta. Esta notación siempre debe entenderse en

este sentido cuando 𝑋 es escrito como un vector de variables aleatorias.

Teorema 2.8 (desigualdad de Markov): Sea 𝑋 un variable aleatoria y 𝑎 > 0, entonces

𝑃(|𝑋| ≥ 𝑎) ≤𝐸(|𝑋|)

𝑎

Demostración:

Para cualquier evento 𝐴, sea 𝟏𝐴 la función indicadora de 𝐴.

Luego es claro que: 𝑎𝟏|𝑋|≥𝐴 ≤ |𝑋| y por lo tanto, 𝐸[𝑎𝟏|𝑋|≥𝐴] ≤ 𝐸[|𝑋|]. Observando el lado

izquierdo de la desigualdad anterior, vemos que

𝐸[𝑎𝟏|𝑋|≥𝐴] = ∫ 𝑎𝟏|𝑋|≥𝐴 𝑑𝑃 = 𝑎𝑃(|𝑋| ≥ 𝐴)

Luego, 𝑎𝑃(|𝑋| ≥ 𝐴) ≤ 𝐸[|𝑋|], dividiendo por 𝑎 > 0, se obtiene el resultado.

∎

Teorema 2.9 (desigualdad de Chebyshev): Sea 𝑋 una variable aleatoria tal que 𝐸[𝑋] < ∞

y 𝑉𝑎𝑟(𝑋) < ∞. Entonces, para todo 휀 > 0

𝑃(|𝑋 − 𝐸[𝑋]| ≥ 휀) ≤𝑉𝑎𝑟(𝑋)

휀2

Demostración:

Sea 𝑌 = |𝑋 − 𝐸[𝑋]|2 y 𝑎 = 휀2 y aplique la desigualdad de Markov para obtener el

resultado deseado, junto con el hecho de que 𝑃(|𝑋| ≥ 𝑎) = 𝑃(𝑋2 ≥ 𝑎2).

∎

Definición 2.10: Sean 𝑋, 𝑋1, 𝑋2,… variables aleatorias en un espacio de probabilidad 𝛺.

𝑋𝑛 converge casi seguramente (c.s.) a 𝑋 si

𝑃({𝜔: 𝑋𝑛(𝜔) → 𝑋(𝜔)}) = 1

𝑋𝑛 converge en probabilidad a 𝑋, denotado por 𝑋𝑛

𝑝→ 𝑋 si para todo 휀 > 0 ,

lim𝑛→∞

𝑃(|𝑋𝑛 − 𝑋| > 휀) = 0

𝑋𝑛 converge en distribución a 𝑋, denotado por 𝑋𝑛

𝑑→ 𝑋, si para todos los puntos 𝑥

donde 𝐹𝑋(𝑥) es continua, tenemos que

lim𝑛→∞

𝐹𝑛(𝑥) = 𝐹𝑋(𝑥)

Definición 2.11: Sean 𝑋1 y 𝑋2 variables aleatorias y 𝐴, 𝐵 ∈ 𝔉 eventos todos definidos en el

mismo espacio de probabilidad 𝛺.

La probabilidad condicional del evento 𝐵 dado 𝐴:

𝑃(𝐵|𝐴) =𝑃(𝐴 ∩ 𝐵)

𝑃(𝐴) , 𝑠𝑖 𝑃(𝐴) > 0

La función de distribución de probabilidad de 𝑋2 dado 𝑋1 = 𝑥1:

𝐹2(𝑥2|𝑥1) = 𝑃(𝑋2 ≤ 𝑥2|𝑋1 = 𝑥1)

La esperanza condicional de 𝑋2 dada 𝑋1 = 𝑥1

𝐸[𝑋2|𝑋1 = 𝑥1] = ∫ 𝑥2𝑑(𝐹𝑋2|𝑋1=𝑥1(𝑥2))

2.2 Ley fuerte de los grandes números

En esta sección probamos la ley fuerte de los grandes números, primero

presentamos el lema de Borel-Cantelli. Ambos resultados servirán tanto de motivación

como explicación para varios resultados del capítulo 3. Nos basaremos en [9].

Definición 2.12: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad. Si 𝐴1, 𝐴2, … es una sucesión de

eventos, definimos:

limsup𝑛

𝐴𝑛 = ⋂ ⋃ 𝐴𝑘

∞

𝑘=𝑛

∞

𝑛=1

liminf𝑛

𝐴𝑛 = ⋃ ⋂ 𝐴𝑘

∞

𝑘=𝑛

∞

𝑛=1

Nota 2.12.1: De la definición es fácil ver que limsup𝑛

𝐴𝑛 = {𝜔: 𝜔 ∈ 𝐴𝑛 𝑝𝑎𝑟𝑎 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜𝑠 𝑛}

liminf𝑛

𝐴𝑛 = {𝜔: 𝜔 ∈ 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒, 𝑖. 𝑒. 𝑡𝑜𝑑𝑜𝑠 𝑠𝑎𝑙𝑣𝑜 𝑢𝑛𝑎 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑓𝑖𝑛𝑖𝑡𝑎}

Teorema 2.13 (Lema de Borel-Cantelli): Si 𝐴1, 𝐴2, … es una sucesión de eventos en un

espacio de probabilidad y si ∑ 𝑃(𝐴𝑛) < ∞∞𝑛=1 , entonces 𝑃 (limsup

𝑛𝐴𝑛) = 0

Demostración: Sea 휀 > 0. Dado que ∑ 𝑃(𝐴𝑛) < ∞∞𝑛=1 entonces existe 𝑁 ∈ ℕ tal que

∑ 𝑃(𝐴𝑘) < 휀

∞

𝑘=𝑁

Luego,

𝑃 (limsup𝑛

𝐴𝑛) ≤ 𝑃 (⋃ 𝐴𝑘

∞

𝑘=𝑁

) (𝑝𝑜𝑟 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛 ∀𝑁)

≤ ∑ 𝑃(𝐴𝑘)

∞

𝑘=𝑁

(𝑝𝑜𝑟 𝜎 𝑠𝑢𝑏𝑎𝑑𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑)

≤ 휀

Dejando que 휀 → 0, obtenemos el resultado.

Lema 2.14: Sea X una variable aleatoria no negativa. Entonces,

∑ 𝑃(𝑋 > 𝑛) ≤ 𝐸[𝑋]

∞

𝑛=1

Demostración:

Sea 𝑘 ∈ ℕ y definimos 𝐴𝑘 ≔ { 𝑘 < 𝑋 ≤ 𝑘 + 1} y sea 𝑌 ≔ ∑ 𝑘𝟏𝐴𝑘𝑘∈ℕ , donde 𝟏𝐴𝑘es la

función indicadora de 𝐴𝑘. Observe que 𝑃(𝑋 > 𝑛) = ∑ 𝑃(𝐴𝑘)𝑘≥𝑛 , luego

∑ 𝑃(𝑋 > 𝑛) = ∑ ∑ 𝑃(𝐴𝑘)𝑘≥𝑛𝑛∈ℕ𝑛∈ℕ = ∑ (𝑘𝑃(𝐴𝑘))𝑘∈ℕ

En vista de que 𝐸[𝑌] = ∑ 𝑘𝑃(𝐴𝑘)𝑘∈ℕ y dado que 𝑘 < 𝑋(𝜔), 𝜔 ∈ 𝐴𝑘 , entonces

𝐸[𝑌] = ∑ ∫ 𝑘𝑑𝑃𝑘+1

𝑘𝑘≥1 ≤ ∑ ∫ 𝑋(𝜔)𝑑𝑃𝑘+1

𝑘𝑘≥1 = 𝐸[𝑋]

Obtenemos el resultado.

Teorema 2.14 (Ley Fuerte de los Grandes Números): Sea (𝛺, 𝔅, 𝑃) un espacio de

probabilidad y sean 𝑋1, 𝑋2, … variables aleatorias independientes e idénticamente

distribuidas (i.i.d.) en 𝛺 con 𝐸[𝑋1] = 𝐸[𝑋2] = ⋯ = 𝜇 < ∞ 𝑦 𝐸[|𝑋1|] < ∞. Si denotamos por 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛, entonces:

𝑆𝑛

𝑛→ 𝜇 𝑐. 𝑠.

Demostración:

Primero demostraremos el resultado para 𝑋𝑖 no negativas y después daremos un argumento

para 𝑋𝑖 generales. Así que, por ahora, suponga 𝑋𝑖 ≥ 0.

Definimos 𝑌𝑖 =∧ (𝑋𝑖 , 𝑖) = min (𝑋𝑖, 𝑖) y sean 𝑘𝑛 = ⌈𝛼𝑛⌉ el entero superior más cercano a

𝛼𝑛 donde 𝛼 > 1. Probaremos el resultado indexado por 𝑘𝑛 para facilitar los cálculos y

finalmente lo generalizamos para obtener la convergencia casi segura.

Por la desigualdad de Chebyshev obtenemos que:

∑ 𝑃 {|𝑆𝑘𝑛

− 𝐸[𝑆𝑘𝑛]

𝑘𝑛

| > 휀} ≤ 𝑐 ∑𝑉𝑎𝑟 𝑆𝑘𝑛

𝑘𝑛2

∞

𝑛=1

∞

𝑛=1

= 𝑐 ∑1

𝑘𝑛2

∑ 𝑉𝑎𝑟 𝑌𝑖

𝑘𝑛

𝑖=1

∞

𝑛=1

≤ 𝑐 ∑𝐸[𝑌𝑖

2]

𝑖2

∞

𝑖=1

= 𝑐 ∑1

𝑖2∫ 𝑥2𝑑𝐹(𝑥)

𝑖

0

∞

𝑖=1

= 𝑐 ∑1

𝑖2∑ ∫ 𝑥2𝑑𝐹(𝑥)

𝑘+1

𝑘

𝑖−1

𝑘=0

∞

𝑖=1

≤ 𝑐 ∑1

𝑘 + 1∫ 𝑥2𝑑𝐹(𝑥)

𝑘+1

𝑘

∞

𝑘=0

≤ 𝑐 ∑ ∫ 𝑥𝑑𝐹(𝑥)𝑘+1

𝑘

∞

𝑘=0

= 𝑐𝐸[𝑋1] = 𝑐𝜇 < ∞

donde 𝐹(𝑥) es la distribución de 𝑋1 y 𝑐 es una constante positiva sin importancia que

podemos manipular. También tenemos que:

𝐸[𝑋1] = lim𝑛→∞

∫ 𝑥𝑑𝐹(𝑥) = lim𝑛→∞

𝐸[𝑌𝑛] = lim𝑛→∞

𝐸[𝑆𝑘𝑛]

𝑘𝑛

𝑛

0

Por lo tanto, por el lema de Borel-Cantelli:

lim𝑛→∞

𝑆𝑘𝑛

𝑘𝑛= 𝐸[𝑋1] 𝑐. 𝑠.

También por el lema 2.13,

∑ 𝑃{𝑌𝑛 ≠ 𝑋𝑛} = ∑ 𝑃{𝑋𝑛 > 𝑛} ≤ 𝐸[𝑋1] < ∞

∞

𝑛=1

∞

𝑛=1

Por lo tanto, por el lema de Borel-Cantelli solo ocurre un número finito de veces que 𝑋𝑛 ≠

𝑌𝑛. Esto es: lim𝑛→∞

𝑆𝑛

𝑛= 𝐸[𝑋1]

Ahora bien, por la monotonía de 𝑆𝑛, se concluye que: 1

𝛼(𝐸[𝑋1]) ≤ liminf

𝑛

𝑆𝑛

𝑛≤ limsup

𝑛

𝑆𝑛

𝑛≤ 𝛼(𝐸[𝑋1]) 𝑐. 𝑠.

Como este resultado se tiene para todo 𝛼 > 1, concluimos el teorema.

Ahora bien, para 𝑋𝑛 en general, consideramos 𝑋𝑖+ ≔ max {0, 𝑋𝑖} y 𝑋𝑖

− ≔ −min{0, 𝑋𝑖} .

Dado que |𝑋𝑖| tiene valor esperado finito entonces |𝑋𝑖+| y |𝑋𝑖

−| también. Por otra parte, se

sabe que las funciones 𝑚𝑎𝑥 y 𝑚𝑖𝑛 también son variables aleatorias, luego 𝑋𝑖+, 𝑋𝑖

− lo son y

además son independientes. De manera que se distribuyen i.i.d. y cumplen las hipótesis del

teorema. De las ecuación 𝑋𝑖 = 𝑋𝑖+ − 𝑋𝑖

− se sigue que :

𝐸[𝑋𝑖] = 𝐸[𝑋𝑖+] − 𝐸[𝑋𝑖

−] 𝑆𝑛 = 𝑆𝑛

+ − 𝑆𝑛−

Por lo tanto, demostrar que

𝑆𝑛+

𝑛→ 𝐸[𝑋1

+] 𝑐. 𝑠.

Implica la conclusión del teorema y por ello podíamos tomar sin pérdida de generalidad

𝑋𝑛 ≥ 0.

∎

2.3 Desigualdad de Hoeffding

La desigualdad de Hoeffding, como veremos más adelante en el capitulo 4, es una

de las herramientas más importantes para demostrar generalizaciones del teorema de

Glivenko- Cantelli. Es un resultado cuya mayor fortaleza se encuentra en que no depende la

distribución de las observaciones {𝑥1, 𝑥2, … 𝑥𝑛}, aunque si requiere que el soporte de las

observaciones sea acotado.

Lema 2.15: Sea 𝑋 una variable aleatoria con 𝐸[𝑋] = 0 y 𝑋 ∈ [𝑎, 𝑏] con probabilidad uno.

Entonces, para todo 𝜆 > 0, 𝐸(exp (𝜆𝑋)) ≤ exp (𝜆2(𝑏 − 𝑎)2/8)

Demostración:

Por la convexidad de la función exponencial,

𝑒𝑥𝑝(𝜆𝑥) ≤𝑥 − 𝑎

𝑏 − 𝑎exp(𝜆𝑏 ) +

𝑏 − 𝑥

𝑏 − 𝑎exp(𝜆𝑎) , 𝑎 ≤ 𝑥 ≤ 𝑏

Por lo tanto,

𝐸[𝑒𝑥𝑝(𝜆𝑋)] ≤ 𝐸 [𝑋 − 𝑎

𝑏 − 𝑎] exp(𝜆𝑏) + 𝐸[

𝑏 − 𝑋

𝑏 − 𝑎]exp (𝜆𝑎)

=𝑏

𝑏 − 𝑎exp(𝜆𝑎) −

𝑎

𝑏 − 𝑎exp(𝜆𝑏), (𝐸[𝑋] = 0)

= (1 − 휃 + 휃 exp(𝜆(𝑏 − 𝑎))) exp(−θ𝜆(𝑏 − 𝑎)) , 휃 =−𝑎

𝑏 − 𝑎

Ahora, defina 𝑢 = 𝜆(𝑏 − 𝑎) y definimos la función 𝜙(𝑢) = −휃𝑢 + log(1 − 휃 + 휃𝑒𝑢)

Tenemos entonces que

𝐸[𝑒𝑥𝑝(𝜆𝑋)] ≤ 𝑒𝑥𝑝(𝜙(𝑢))

Ahora bien, para minimizar la cota superior vamos a expresar 𝜙(𝑢) en una serie de Taylor

con residuo:

𝜙(𝑢) = 𝜙(0) + 𝑢𝜙′(0) +𝑢2

2𝜙′′(𝑣), 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛 𝑣 ∈ [0, 𝑢]

Luego,

𝜙′(𝑢) = −휃 + 휃𝑒𝑢

1 − 휃 + 휃𝑒𝑢⇒ 𝜙′(0) = 0

𝜙′′(𝑢) = 휃𝑒𝑢

1 − 휃 + 휃𝑒𝑢−

(휃𝑒𝑢)2

(1 − 휃 + 휃𝑒𝑢)2

=휃𝑒𝑢

1 − 휃 + 휃𝑒𝑢(1 −

휃𝑒𝑢

1 − 휃 + 휃𝑒𝑢)

= 𝜌(1 − 𝜌)

Ahora bien, 𝜙′′(𝑢) es maximizado cuando

𝜌 = 휃𝑒𝑢

1 − 휃 + 휃𝑒𝑢=

1

2⇒ 𝜙′′(𝑢) ≤

1

4

Por lo tanto,

𝜙(𝑢) ≤𝑢2

8=

𝜆2(𝑏 − 𝑎)2

8

Luego,

𝐸[exp(𝜆𝑋)] ≤ exp (𝜆2(𝑏 − 𝑎)2

8)

∎

Lema 2.16 (Desigualdad de Hoeffding): Sean 𝑋1, … , 𝑋𝑛 variables aleatorias

independientes tales que 𝑋𝑖 ∈ [𝑎𝑖, 𝑏𝑖] con probabilidad uno. Entonces, tenemos que:

𝑃(|𝑆𝑛 − 𝐸[𝑆𝑛]| ≥ 휂) ≤ 2𝑒𝑥𝑝(−2휂2/ ∑(𝑏𝑖 − 𝑎𝑖)2

𝑛

𝑖=1

)

Demostración:

Para 𝜆, 휂 ≥ 0, la desigualdad de Markov, la independencia de los 𝑋 𝑖 y por lema 2.15

tenemos que:

𝑃(𝑆𝑛 − 𝐸[𝑆𝑛] ≥ 휂) = 𝑃(𝑒𝜆(𝑆𝑛−𝐸[𝑆𝑛]) ≥ 𝑒𝜆𝜂) ≤ 𝑒−𝜆𝜂 𝐸[𝑒𝜆(𝑆𝑛−𝐸[𝑆𝑛]) ]

= 𝑒−𝜆𝜂 ∏ 𝐸[𝑒𝜆(𝑋𝑖−𝐸[𝑋𝑖])]

𝑛

𝑖=1

≤ 𝑒−𝜆𝜂 ∏ 𝑒𝜆2(𝑏𝑖−𝑎𝑖)2

8

𝑛

𝑖=1

= exp (−𝜆휂 + ∑𝜆2(𝑏𝑖−𝑎𝑖)2

8 𝑛

𝑖=1 )

Para obtener la mejor cota posible, encontramos el mínimo del lado derecho de la

desigualdad como una función de 𝜆. Definimos 𝑔: ℝ+ → ℝ tal que

𝑔(𝜆) = exp (−𝜆휂 + ∑𝜆2(𝑏𝑖 − 𝑎𝑖)2

8

𝑛

𝑖=1

)

Note que 𝑔 es una función cuadrática y alcanza su mínimo en 𝜆 = 4𝜂

∑(𝑏𝑖−𝑎𝑖)2. Reemplazando

este resultado, obtenemos la cota deseada. De forma análoga se prueba la cota para 휂 < 0.

∎

Capitulo 3

En el capitulo 2 se demostró la Ley Fuerte de los Grandes Números en el caso i.i.d.

que es un resultado de convergencia empírico del valor promedio de una sucesión de

variables aleatorias. Este capítulo se enfoca en definir los procesos empíricos. Presentamos

el teorema de Glivenko-Cantelli como el resultado clásico de la materia, cuya demostración

aguardará hasta el capítulo 4. En la sección 3.2 definimos los conjuntos de nivel y

demostramos un resultado de consistencia de la estimación empírica de dichos conjuntos.

Las demostraciones son tomadas de Di Bernardino[6].

Distribución acumulada empírica

3.1 Procesos empíricos

Si 𝑋1, … , 𝑋𝑛 son variables aleatorias i.i.d. con función de distribución acumulada

(f.d.a.) 𝐹 entonces la función de distribución empírica acumulada (f.d.e.a.) 𝐹𝑛 es definida

como

𝐹𝑛(𝑥) =1

𝑛∑ 𝟏(−∞,𝑥](𝑋𝑖), 𝑥 ∈ ℝ.

𝑛

𝑖=1

En otras palabras, para cada 𝑥 ∈ ℝ, la cantidad 𝑛𝐹𝑛 simplemente cuenta el número de 𝑋𝑖′s

que son menores o iguales a 𝑥 . La f.d.e.a. es un estimador natural insesgado (i.e.,

𝐸[𝐹𝑛(𝑥)] = 𝐹(𝑥) para todo 𝑥 ∈ ℝ) de 𝐹.

Por la ley fuerte de los grandes números, para cada 𝑥 ∈ ℝ, podemos decir que

𝐹𝑛(𝑥) → 𝐹(𝑥) 𝑐. 𝑠. El resultado clásico de la teoría de procesos empíricos generaliza la ley fuerte de los

grandes números para 𝑥 simultáneamente:

Teorema de Glivenko-Cantelli (Glivenko (1933), Cantelli (1933) ) ‖𝐹𝑛 − 𝐹‖∞ = sup

𝑥∈ℝ|𝐹𝑛(𝑥) − 𝐹(𝑥)| → 0 𝑐. 𝑠.

En el capítulo 4 demostraremos este resultado y lo generalizaremos no solo sobre los

números reales sino sobre conjuntos más interesantes.

La necesidad de generalizaciones del teorema de Glivenko-Cantelli se hizo evidente en las

décadas de 1950 y 1960. En particular, fue evidente que cuando las observaciones toman

valores en un espacio vectorial más general 𝝌 (como por ejemplo ℝ𝑑 o algún espacio de

funciones), entonces la f.d.e.a no es un estimador tan natural. Parece mucho más natural

considerar la medida empírica 𝑃𝑛 indexada por alguna clase de funciones con valores reales

ℱ definidas sobre 𝝌, que de ahora en adelante denotará un espacio vectorial cualquiera.

Suponga ahora que 𝑋1, … , 𝑋𝑛 son i.i.d. con distribución 𝑃 sobre 𝝌 . Entonces la medida

empírica 𝑃𝑛 está definida por

𝑃𝑛 ≔1

𝑛∑ 𝛿𝑋𝑖

𝑛

𝑖=1

,

donde 𝛿𝑥 denota la medida de Dirac en 𝑥 . Para cada 𝑛 ≥ 1 , 𝑃𝑛 denota la medida de

probabilidad discreta que pone igual masa 1/𝑛 en cada uno de los 𝑛 puntos 𝑋1, … , 𝑋𝑛 . Así,

para cada conjunto de Borel 𝐴 ⊂ 𝝌,

𝑃𝑛(𝐴) ≔1

𝑛∑ 𝟏𝐴(𝑋𝑖) =

|{𝑖 ≤ 𝑛: 𝑋𝑖 ∈ 𝐴 }|

𝑛

𝑛

𝑖=1

Para una función con valores reales 𝑓 definida sobre 𝝌, escribimos

𝑃𝑛(𝑓) ≔ ∫ 𝑓 𝑑𝑃𝑛 =1

𝑛∑ 𝑓(𝑋𝑖)

𝑛

𝑖=1

Si ℱ es una colección de funciones reales definidas sobre 𝝌, entonces {𝑃𝑛(𝑓): 𝑓 ∈ ℱ} es la

medida empírica indexada por ℱ. La meta de la teoría empírica es estudiar las propiedades

de aproximación de 𝑃𝑓 por 𝑃𝑛𝑓 , uniformemente en ℱ . Principalmente, estaremos

concentrados en estimar, en probabilidad, la cantidad:

‖𝑃𝑛 − 𝑃‖ℱ ≔ sup𝑓∈ℱ

|𝑃𝑛𝑓 − 𝑃𝑓|

3.2 Estimación de conjuntos de nivel

Denotamos por ℱ el conjunto de funciones de distribución continuas 𝐹: ℝ𝑑 → [0,1] y

consideramos por 𝑿, una observación aleatoria definida sobre ℝ𝑑, con 𝐹𝑿 ∈ ℱ la función de

distribución acumulada de 𝑿. Estamos interesados en estimar los conjuntos de nivel de esta

función de distribución acumulada:

Definición 3.1: El conjunto de nivel 𝛼 de la distribución 𝐹 se define como

𝓛(𝛼) = {𝑥 ∈ ℝ𝑑: 𝐹𝑿(𝑥) > 𝛼} , 𝛼 ∈ (0,1)

Adoptemos la notación {𝐹𝑿 = 𝛼} = {𝑥 ∈ ℝ𝑑: 𝐹𝑿(𝑥) = 𝛼}

Y para 𝑇 > 0, la versión truncada

ℒ(𝛼)𝑇 = {𝑥 ∈ [−𝑇, 𝑇]𝑑: 𝐹𝑋(𝑥) ≥ 𝛼}

{𝐹𝑋 = 𝛼}𝑇 = {𝑥 ∈ [−𝑇, 𝑇]𝑑: 𝐹𝑋(𝑥) = 𝛼}

Estas versiones truncadas son necesarias para tratar con la no compacidad de los conjuntos

de nivel. Además, para 𝐴 ∈ ℝ𝑑 denotamos por 𝜕𝐴 su frontera.

En el espacio métrico (ℝ𝑑 , 𝑑) donde 𝑑 es la distancia Euclídea, nosotros denotamos por

𝐵(𝑥, 𝜌) la bola cerrada centrada en 𝑥 con radio positivo 𝜌.

Sea 𝐵(𝑆, 𝜌) = ∪𝑥∈𝑆 𝐵(𝑥, 𝜌), con 𝑆 un conjunto cerrado de ℝ𝑑.

Definición 3.2: Para 𝑡 > 0, 휁 > 0 y 𝛼 ∈ (0,1). Definimos el engordamiento de 𝐹𝑋:

𝐸 = 𝐵({𝑥 ∈ ℝ𝑑: |𝐹𝑋(𝑥) − 𝛼| ≤ 𝑡} , 휁)

Por comodidad y brevedad en la notación vamos a demostrar resultados válidos para ℝ2.

Estos resultados se pueden generalizar a ℝ𝑑 y las demostraciones se acompañarán de notas

sobre cómo generalizarlos.

Para una función de distribución doblemente diferenciable 𝐹𝑋, definimos

𝑚∇ = inf𝑥∈𝐸

‖(∇𝐹𝑋)𝑥‖

𝑀𝐻 = sup𝑥∈𝐸

‖(𝐻𝐹𝑋)𝑥‖

donde (∇𝐹𝑋)𝑥 es el vector gradiente de 𝐹𝑋 evaluado en 𝑥 y ‖(∇𝐹𝑋)𝑥‖ es la norma euclídea, (𝐻𝐹𝑋)𝑥 es la matriz Hessiana evaluada en 𝑥 y ‖(𝐻𝐹𝑋)𝑥‖ es la norma matricial inducida por

la norma Euclídea.

Vamos a estudiar las propiedades de consistencia de un estimador ℒ𝑛(𝛼)𝑇 de ℒ(𝛼)𝑇.

Distancia de Hausdorff

La distancia de Hausdorff corresponde a una noción intuitiva de proximidad física entre

conjuntos. Recordemos que si 𝐴1y 𝐴2 son conjuntos compactos en (ℝ𝑑, 𝑑 ), la distancia de

Hausdorff entre 𝐴1 y 𝐴2 está definida por:

𝑑𝐻(𝐴1, 𝐴2) = inf{𝜌 > 0: 𝐴1 ⊂ 𝐵(𝐴2, 𝜌), 𝐴2 ⊂ 𝐵(𝐴1, 𝜌)}

La expresión de arriba está bien definida incluso cuando 𝐴1 y 𝐴2 son solo conjuntos

cerrados, pero en este caso el valor de 𝑑𝐻(𝐴1, 𝐴2) podría ser infinito. A fin de evitar estas

situaciones nos restringimos al hipercubo [−𝑇, 𝑇]𝑑 es decir, las versiones truncadas.

A continuación presentamos una hipótesis necesaria y que permite acotar adecuadamente

los resultados del teorema 3.2. Esta hipótesis se logra bajo condiciones no tan restrictivas

sobre 𝐹:

Hipótesis H

H: Existe 𝛾 > 0 y 𝐴 > 0 tales que, si |𝑡 − 𝑐| ≤ 𝛾 entonces para todo 𝑇 > 0 tal que {𝐹𝑋 = 𝑐}𝑇 ≠ ∅,

𝑑𝐻({𝐹𝑋 = 𝑐}𝑇 , {𝐹𝑋 = 𝑡}𝑇) ≤ 𝐴|𝑡 − 𝑐| º

Proposición: Sea 𝑐 ∈ (0,1) . Sea 𝐹 doblemente diferenciable sobre ℝ2 . Suponga que

existen 𝑟 > 0, 휁 > 0 tales que 𝑚∇ > 0 y 𝑀𝐻 < ∞. Entonces, F satisface la hipótesis H con

𝐴 =2

𝑚∇.

Demostración:

Tome 𝑇 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, {𝐹 = 𝑡}𝑇 ≠ ∅ (sabemos que tal 𝑡 existe por las

hipótesis en el enunciado).

Sea 𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| ≤ 𝑟}. Defina para 𝜆 ∈ ℝ

𝑦𝜆 ≡ 𝑦𝜆,𝑥 = 𝑥 + 𝜆(∇𝐹)𝑥

‖(∇𝐹)𝑥‖

de forma que ‖𝑦𝜆 − 𝑥‖ = |𝜆|. De las propiedades de diferenciabilidad de 𝐹 y usando la

formula de Taylor tenemos para |𝜆| < 휁

𝐹(𝑦𝜆) = 𝐹(𝑥) + (∇𝐹)𝑥𝑡 (𝑦𝜆 − 𝑥) +

1

2(𝑦𝜆 − 𝑥)𝑡(𝐻𝐹)𝑣(𝑦𝜆 − 𝑥)

con 𝑣 un punto en el segmento de línea entre 𝑥 y 𝑦𝜆 . Luego,

𝐹(𝑦𝜆) = 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +𝜆2

2‖(∇𝐹)𝑥‖2(∇𝐹)𝑥

𝑡 (𝐻𝐹)𝑣(∇𝐹)𝑥

Por la desigualdad de Cauchy-Schwarz deducimos

𝐹(𝑦𝜆) ≥ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2

2‖(∇𝐹)𝑥‖2‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖

y

𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +𝜆2

2‖(∇𝐹)𝑥‖2‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖

Dado que ‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖ ≤ ‖(𝐻𝐹)𝑣‖‖(∇𝐹)𝑥‖, tenemos entonces que

𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2

2‖(𝐻𝐹)𝑣‖ ≤ 𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +

𝜆2

2‖(𝐻𝐹)𝑣‖

Dado que 𝑣 ∈ 𝐸 y 𝑀𝐻 < ∞ obtenemos:

𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2

2𝑀𝐻 ≤ 𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +

𝜆2

2𝑀𝐻

Para 0 < 𝜆 < 휁, tenemos del lado izquierdo de la anterior desigualdad que:

𝐹(𝑦𝜆) ≥ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2

2𝑀𝐻 ≥ 𝐹(𝑥) + 𝜆𝑚∇ −

𝜆2

2𝑀𝐻

Asumimos ahora que 𝑀𝐻 > 0 (el caso 𝑀𝐻 = 0 es trivial)

Para 𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| ≤ 𝑟} y 0 < 𝜆 < min {휁, 𝑚∇

𝑀𝐻⁄ } obtenemos

𝐹(𝑦𝜆) ≥ 𝐹(𝑥) +𝜆

2𝑚∇

Similarmente para el lado derecho obtenemos que

𝐹(𝑦−𝜆) ≤ 𝐹(𝑥) −𝜆

2𝑚∇

Definimos

𝛾 = min {𝑚𝛻

4𝑚𝑖𝑛 {휁,

𝑚𝛻

𝑀𝐻} , 𝑟 } > 0

Suponga que 𝑡 = 𝑐 + 휀, 0 < 휀 ≤ 𝛾. Sea 𝑥 ∈ [−𝑇, 𝑇]2 tal que 𝐹(𝑥) = 𝑡 = 𝑐 + 휀 entonces

𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| < 휀} Tome ahora,

0 < 𝜆 =2휀

𝑚∇< min {휁,

𝑚𝛻

𝑀𝐻}

Obtenemos por las desigualdades anteriores que

𝐹(𝑦−𝜆) ≤ 𝐹(𝑥) −𝜆

2𝑚∇ = 𝑐 + 휀 − 휀 = 𝑐

De la continuidad de 𝐹, nosotros deducimos que existe 𝑦 entre 𝑥 y 𝑦−𝜆 tal que 𝐹(𝑦) = 𝑐 y

tenemos:

‖𝑥 − 𝑦‖ ≤ ‖𝑥 − 𝑦−𝜆‖ = |𝜆| =2휀

𝑚∇=

2

𝑚∇|𝑡 − 𝑐|

Así que hemos probado que:

sup𝑥∈{𝐹=𝑡}𝑇

𝑑(𝑥, {𝐹 = 𝑐}𝑇) ≤2

𝑚∇|𝑡 − 𝑐|

Similarmente, tome 𝑥 ∈ [−𝑇, 𝑇]2 tal que 𝐹(𝑥) = 𝑐 y use la desigualdad con menor igual

para obtener

sup𝑥∈{𝐹=𝑐}𝑇

𝑑(𝑥, {𝐹 = 𝑡}𝑇) ≤2

𝑚∇|𝑡 − 𝑐|

La prueba en el caso 𝑡 < 𝑐 es completamente análoga. Por lo tanto, 𝐹 satisface la

suposición H con 𝐴 =2

𝑚∇.

Nota 3.2.1: Para la generalización es necesario considerar 𝐹 d-diferenciable (existen y son

continuas todas las derivadas parciales hasta el grado 𝑑) y usar la formula de Taylor en este

caso. El valor 𝑀𝐻 debería reemplazarse por sup𝑥∈𝐸

‖(𝐷𝑑𝐹𝑋)𝑥‖ donde 𝐷𝑑 es la matriz simétrica

de derivadas parciales que acompaña el último término del teorema y la cota pasaría a ser

𝑑!/𝑚∇ . Lo cual nos indica que hay un empeoramiento de los resultados cuando la

dimensión tiende a crecer, por lo cual sería necesario tomar muestras cada vez más grandes.

De ahora en adelante permítanos denotar para 𝑇 > 0 ‖𝐹 − 𝐹𝑛‖∞

𝑇 = sup𝑥∈[𝑇,𝑇]𝑑

|𝐹(𝑥) − 𝐹𝑛(𝑥)|

Teorema 3.2: Sea 𝑐 ∈ (0,1). Sea 𝐹 ∈ ℱ doblemente diferenciable sobre ℝ2. Suponga que

existen 𝑟 > 0, 휁 > 0 tales que 𝑚∇ > 0 y 𝑀𝐻 < ∞. Sea 𝑇1 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤𝑟, 𝜕ℒ(𝑡)𝑇1 ≠ ∅. Sea (𝑇𝑛)𝑛∈ℕ una sucesión creciente de valores positivos. Suponga que,

para cada 𝑛 y para casi todas las muestras de tamaño 𝑛, 𝐹𝑛 es una función continua casi

seguramente y que

‖𝐹 − 𝐹𝑛‖∞ → 0, 𝑐. 𝑠. Entonces,

𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞), 𝑐. 𝑠.

Demostración:

De las hipótesis podemos asumir que 𝑇1 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇1 ≠ ∅.

Entonces para 𝑛, para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇𝑛 es un conjunto no vacío (y compacto)

sobre ℝ2. En cada [– 𝑇𝑛 , 𝑇𝑛]2, de la proposición, la suposición H se satisface con

𝛾 = min {𝑚𝛻

4𝑚𝑖𝑛 {휁,

𝑚𝛻

𝑀𝐻} , 𝑟} > 0

y 𝐴 = 2𝑚∇⁄ .

Primero tenemos que encontrar una cota para sup𝑥∈𝜕ℒ(𝑐)𝑇𝑛

𝑑(𝑥, 𝜕ℒ𝑛(𝑐)𝑇𝑛).

Tome 𝑥 ∈ 𝜕ℒ(𝑐)𝑇𝑛 y defina 휀𝑛 = 2‖𝐹 − 𝐹𝑛‖∞𝑇𝑛. Usando ‖𝐹 − 𝐹𝑛‖∞ → 0, casi seguramente,

𝑛 → ∞. Por lo tanto, 휀𝑛 → 0, 𝑐. 𝑠. para 𝑛 → ∞. Así que con probabilidad uno existe 𝑛0 tal

que para todo 𝑛 ≥ 𝑛0, 휀𝑛 ≤ 𝛾. Dado que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇𝑛 ≠ ∅ de la suposición H, existen

𝑢𝑛 ≡ 𝑢𝑥𝑛

y

𝑙𝑛 ≡ 𝑙𝑥𝑛

en [−𝑇𝑛 , 𝑇𝑛]2 tales que

𝐹(𝑢𝑛) = 𝑐 + 휀𝑛; 𝑑(𝑥, 𝑢𝑛) ≤ 𝐴휀𝑛

𝐹(𝑙𝑛) = 𝑐 − 휀𝑛; 𝑑(𝑥, 𝑙𝑛) ≤ 𝐴휀𝑛

Suponga ahora que ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 > 0 (el otro caso es trivial). En este caso,

𝐹𝑛(𝑢𝑛) = 𝑐 + 휀𝑛 + 𝐹𝑛(𝑢𝑛) − 𝐹(𝑢𝑛) ≥ 𝑐 + 휀𝑛 − ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛

= 𝑐 + 2‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 − ‖𝐹 − 𝐹𝑛‖∞

𝑇𝑛 > 𝑐

y en una manera similar podemos probar que 𝐹𝑛(𝑢𝑛) < 𝑐. En tanto, 𝐹𝑛(𝑙𝑛) < 𝑐 y 𝐹𝑛(𝑢𝑛) > 𝑐, con 𝑢𝑛 y 𝑙𝑛 en [−𝑇𝑛 , 𝑇𝑛]2, entonces existe 𝑧𝑛 ∈𝜕ℒ𝑛 (𝑐)𝑇𝑛 ∩ 𝐵(𝑢𝑛 , 𝑑(𝑢𝑛 , 𝑙𝑛)) con

𝑑(𝑧𝑛 , 𝑥) ≤ 𝑑(𝑧𝑛 , 𝑢𝑛) + 𝑑(𝑢𝑛 , 𝑥) ≤ 𝑑(𝑢𝑛 , 𝑙𝑛) + 𝑑(𝑢𝑛 , 𝑥)

≤ 𝑑(𝑢𝑛 , 𝑥) + 𝑑(𝑥, 𝑙𝑛) + 𝑑(𝑢𝑛 , 𝑥)

≤ 3𝐴휀𝑛 = 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛

Por lo tanto, para 𝑛 ≥ 𝑛0

sup𝑥∈𝜕ℒ(𝑐)𝑇𝑛

𝑑(𝑥, 𝜕ℒ𝑛(𝑐)𝑇𝑛 ) ≤ 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛

Ahora acotemos sup𝑥∈𝜕ℒ𝑛(𝑐)𝑇𝑛

𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛).

Tome 𝑥 ∈ 𝜕ℒ𝑛(𝑐)𝑇𝑛. De la continuidad casi segura de 𝐹𝑛 nosotros obtenemos 𝐹𝑛(𝑥) =𝑐, casi seguramente, entonces

|𝐹(𝑥) − 𝑐| ≤ |𝐹(𝑥) − 𝐹𝑛(𝑥)| ≤ ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 ≤ 휀𝑛 , 𝑐. 𝑠.

Recuerde que para todo 𝑛 ≥ 𝑛0, 휀𝑛 ≤ 𝛾, casi segura. Entonces, de la suposición H

𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛) ≤ 𝐴|𝐹(𝑥) − 𝑐| ≤ 𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛.

Podemos concluir que con probabilidad uno, para 𝑛 ≥ 𝑛0

sup𝑥∈𝜕ℒ𝑛(𝑐)𝑇𝑛

𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛) ≤ 𝐴 ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛

Obtenemos para 𝑛 ≥ 𝑛0, 𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛 , 𝜕ℒ𝑛(𝑐)𝑇𝑛) ≤ 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛, entonces

𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞𝑇𝑛), 𝑐. 𝑠.

Obtenemos el resultado.

Nota 3.2.2: De nuevo, en el caso general debemos tomar 𝐹 d-diferenciable y realizar los

cambios mencionados en la nota 3.2.1.En realidad los cambios esencialmente se dan para

poder satisfacer la hipótesis H. En este caso, la cota tiene un empeoramiento considerable si

la dimensión es muy alta, pues 𝐴 = 𝑘!/𝑚∇.

Nota 3.2.3: En cualquier caso, deseamos resaltar la importancia y utilidad del Teorema

3.2. Dado que el teorema es válido para funciones casi continuas, y por el teorema de

Glivenko-Cantelli, tenemos que se cumplen las hipótesis para la distribución empírica

acumulada! Nótese que esto nos indica la proximidad geométrica entre los conjuntos de

nivel de la distribución real de los datos y los conjuntos de nivel de la distribución

empírica. Si fijamos 𝑇𝑛 = 𝑅𝑛 , donde 𝑅𝑛 es el radio de la bola que contiene todas las

muestras {𝑥1, … , 𝑥𝑛}, entonces tenemos que

𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞𝑇𝑛)

𝐹𝑛 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑚𝑝𝑖𝑟𝑖𝑐𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎

En el capítulo 4 calcularemos la tasa de convergencia de la f.d.e.a.

Capitulo 4

Convergencia uniforme de medidas empíricas

La ley fuerte de los grandes números establece convergencia puntual de la medida

empírica con probabilidad uno. Sin embargo, el teorema de Glivenko-Cantelli asegura aún

más: la convergencia es uniforme. Este teorema es el ejemplo más sencillo de una

generalización uniforme de la ley fuerte de grandes números sobre la colección de

intervalos de los números reales. A lo largo de esta sección presentaremos generalizaciones

uniformes de la ley fuerte sobre clases de conjuntos más interesante, incluyendo clases de

funciones. En la sección 4.1 demostramos el teorema de Glivenko-Cantelli. En la sección

4.2, señalamos como generalizar este resultado a clases de conjuntos con una propiedad

especial: discriminación polinomial. Finalmente en la sección 4.3 damos la tasa de

convergencia de estas generalizaciones. En particular, obtenemos la tasa de convergencia

para el caso de la distribución empírica acumulada. Las demostraciones las tomamos de

Pollard [7].

4.1 Teorema de Glivenko-Cantelli

Teorema 4.1 (Glivenko- Cantelli):

Nos dice que la convergencia no es solo puntual sino uniforme sobre los intervalos, dada

una muestra 𝑋1, … , 𝑋𝑛 independiente e idénticamente distribuida:

sup𝑡

|𝐹𝑛(𝑡) − 𝐹(𝑡)| → 0, 𝑛 → ∞ casi seguramente

= sup𝑓𝑡∈𝔉

|𝑃𝑛(𝑓𝑡) − 𝑃(𝑓𝑡)| → 0 , 𝔉: = {𝑓𝑡 = 𝟏(−∞,𝑡] ∶ 𝑡 ∈ ℝ}

= sup𝐴∈𝔗

|𝑃𝑛(𝐴) − 𝑃(𝐴)| → 0 , 𝔗 ≔ { (−∞, 𝑡]: 𝑡 ∈ ℝ}

Ninguna de las igualdades añade información adicional, sin embargo sugieren que el

supremo puede ser tomado sobre una clase de funciones o sobre una clase de conjuntos y

nos indica el paso subsiguiente en nuestras generalizaciones.

A continuación damos una demostración del teorema de Glivenko-Cantelli basada en una

idea de combinatoria y que es fácilmente generalizable a clases de conjuntos y/o clase de

funciones:

En vez de comparar 𝑃𝑛 con 𝑃 , lo compararemos con una muestra independiente de sí

mismo que llamaremos 𝑃𝑛′ . La medida 𝑃𝑛 − 𝑃𝑛

′ estará determinada por 2𝑛 puntos

aleatorios. Con ideas de combinatoria es posible establecer una cota para ‖𝑃𝑛 − 𝑃𝑛′ ‖ y con

las desigualdades de simetrización que veremos más adelante, se puede obtener una cota

para ‖𝑃𝑛 − 𝑃𝑛′ ‖. A fin de evitar confusiones usaremos ℙ para calcular probabilidades y 𝑃𝑛

para las medidas empíricas.

Primera simetrización:

Sean {𝑍𝑡: 𝑡 ∈ 𝑇} y {𝑍′𝑡: 𝑡 ∈ 𝑇} sucesiones de variables aleatorias independientes. Suponga

que existen 𝛼 y 𝛽 tales que 𝛼, 𝛽 > 0 y ∀𝑡 ∈ 𝑇 ∶ 𝑃{|𝑍′𝑡| ≤ 𝛼} ≥ 𝛽. Se tiene:

𝛽𝑃 {sup𝑡

|𝑍𝑡| > 휀} ≤ 𝑃{ sup𝑡

|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼}

Demostración:

Escoja 𝜏 aleatorio de forma que |𝑍𝜏| > 휀 en el conjunto {𝑡: sup𝑡

|𝑍𝑡| > 휀}. Observe que 𝜏

depende únicamente de 𝑍 y, por tanto, es independiente de 𝑍′. Dicho de otra forma:

𝑃{|𝑍′𝜏| ≤ 𝛼 |𝑍} ≥ 𝛽 Lo cual implica que:

𝛽ℙ {sup𝑡

|𝑍𝑡| > 휀} ≤ ℙ{|𝑍′𝜏| ≤ 𝛼 |𝑍} ∙ ℙ{|𝑍𝜏| > 휀}

= ℙ{|𝑍′𝜏| ≤ 𝛼 , |𝑍𝜏| > 휀}

≤ ℙ{|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼}

≤ ℙ{ sup𝑡

|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼} ∎

Nótese que:

𝐸{𝑥′𝑖 ≤ 𝑡} = 𝑃(−∞, 𝑡] y 𝑉𝑎𝑟{𝑥′𝑖 ≤ 𝑡} = 𝑃(−∞, 𝑡] − 𝑃(−∞, 𝑡]2 ≤ 1,

Luego, por la desigualdad de Chebyshev,

ℙ{(𝑃′𝑛(−∞, 𝑡] − 𝑃(−∞, 𝑡]) ≥ 휀2⁄ } ≤

𝑉𝑎𝑟|𝑃𝑛′|

(휀2⁄ )2⁄

=4

휀2𝑉𝑎𝑟|𝑃𝑛

′|

=4

휀2

1

𝑛(𝑃(−∞, 𝑡] − 𝑃(−∞, 𝑡]2)

≤4

휀2𝑛≤

1

2 , 𝑠𝑖 𝑛 ≥

8

휀2

Es decir, ℙ( {𝑃𝑛,𝑡′ − 𝑃𝑡} ≤ 휀

2⁄ ) ≥ 12⁄ , cuando 𝑛 ≥ 8

휀2⁄ .

Tomando 𝑍′𝑡 = 𝑃′𝑛,𝑡 − 𝑃𝑡, tenemos la hipótesis de la primera simetrización y, por lo tanto,

tomando 𝑍𝑡 = 𝑃𝑛,𝑡 − 𝑃𝑡 y 𝛼 = 2 , 𝛽 =

1

2 , obtenemos que:

ℙ(‖𝑃𝑛 − 𝑃‖ > 휀) ≤ 2ℙ (‖𝑃𝑛−𝑃′𝑛‖ >

2), si 𝑛 ≥ 8

휀2⁄

Definición 4.2: Decimos que una distribución para una variable aleatoria 𝑍 es simétrica

alrededor de 𝛼 si

𝑃(𝑍 ≤ 𝛼 + 𝑧) = 𝑃(𝑍 ≥ 𝛼 − 𝑧), ∀𝑧 ∈ ℝ

Que denotamos por 𝑍~𝑆𝑖𝑚(𝛼).

Segunda simetrización:

Por nuestros resultados anteriores sabemos que 𝑃𝑛 − 𝑃𝑛′ depende de 2𝑛 observaciones, que

son a saber: 𝑥1, … 𝑥𝑛 y 𝑥′1, … , 𝑥′𝑛.

Sean 𝜎𝑖, 𝑖 = 1, … , 𝑛,variables aleatorias de tipo Radamacher i.e. con la propiedad de que

ℙ{𝜎𝑖 = 1} = ℙ{𝜎𝑖 = −1} = 1 2⁄ .

Lema 4.3: Sea 𝑍 = 𝑌 − 𝑌′~𝑆𝑖𝑚(0) y sean 𝜎𝑖 variables aleatorias de tipo Radamacher,

entonces 𝜎𝑖𝑍 y 𝑍 son iguales en distribución.

Demostración:

Para 𝑥 > 0, Pr(𝜎𝑖𝑍 < 𝑥) = Pr(𝑍 < 𝑥, 𝜎𝑖 = 1) + Pr (𝑍 > −𝑥, 𝜎𝑖 = −1)

= Pr(𝑍 < 𝑥)1

2+ Pr(𝑍 > −𝑥)

1

2= Pr (𝑍 < 𝑥)

∎

Por el lema, las variables aleatorias simétricas {𝑥𝑖 ≤ 𝑡} − {𝑥′𝑖 ≤ 𝑡} tienen la misma

distribución conjunta que las variables 𝜎𝑖[{𝑥𝑖 ≤ 𝑡} − {𝑥′𝑖 ≤ 𝑡}]

Así,

ℙ(‖𝑃𝑛 − 𝑃𝑛′‖ > 휀

2⁄ ) = ℙ (sup𝑡

|1

𝑛∑{𝑥𝑖 ≤ 𝑡} − {𝑥′

𝑖 ≤ 𝑡}

𝑛

𝑖=1

| > 휀2⁄ )

= ℙ (sup𝑡

|1

𝑛∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡} − {𝑥′

𝑖 ≤ 𝑡}]

𝑛

𝑖=1

| > 휀2⁄ )

≤ ℙ (sup𝑡

|1

𝑛∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡}]

𝑛

𝑖=1

| > 휀4⁄ ) +

ℙ(sup𝑡

|1

𝑛∑ 𝜎𝑖[{𝑥′

𝑖 ≤ 𝑡}]𝑛𝑖=1 | > 휀

4⁄ )

y así obtenemos la segunda desigualdad.

Ahora definimos:

𝑃𝑛° =

1

𝑛∑ 𝜎𝑖{𝑥𝑖 ≤ 𝑡}

𝑛

𝑖=1

Entonces, por los resultaos de la primera simetrización, para 𝑛 ≥ 8 휀2⁄ :

ℙ{‖𝑃𝑛 − 𝑃‖ > 휀} ≤ 4ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }

La desigualdad anterior es fundamental para lo que sigue. Note que ahora añadimos

información aleatoria proveniente de las variables 𝜎𝑖. Vamos a utilizar una técnica típica de

probabilidad, puesto que los valores de 𝑃𝑛° dependen de las observaciones, asumiremos que

el vector de observaciones 𝑿 = (𝑥1, … , 𝑥𝑛) está dado y después tomamos la probabilidad

condicional sobre 𝑿. Esto nos dará, en valor esperado, una cota al lado derecho de la

desigualdad. Dejando de esta manera toda la aleatoriedad al signo de radamacher.

Desigualdad Maximal:

Deseamos acotar ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }

Note que una vez conocemos las observaciones 𝑿 = (𝑥1, … , 𝑥𝑛) el supremo en 𝑃𝑛° se reduce

a evaluar sobre un conjunto estratégico de puntos. En realidad necesitamos.

𝑡0 < 𝑥1 < 𝑡1 < 𝑥2 < 𝑡2 < ⋯ < 𝑥𝑛 < 𝑡𝑛

Luego sup𝑡

(|𝑃𝑛°(−∞, 𝑡]|) = max

𝑗{|𝑃𝑛

°(−∞, 𝑡𝑗]|} . Es decir el valor de 𝑷𝒏° depende de

evaluar únicamente en (n+1) intervalos. Esta observación es muy importante en tanto que

esta propiedad es especial de los intervalos y hasta ahora es el primer argumento que no

podemos usar directamente en ℝ𝑑 .

Con esta observación, resulta evidente que:

ℙ{‖𝑃𝑛°‖ > 휀 4⁄ |𝑿} ≤ ∑ ℙ{|𝑃𝑛

°𝐼𝑗| > 휀 4⁄ |𝑿}

𝑛

𝑖=0

≤ (𝑛 + 1) max𝑗

{|𝑃𝑛°𝐼𝑗| > 휀 4⁄ |𝑿}

Desigualdad exponencial

A continuación usaremos la desigualdad de Hoeffding demostrada en la sección 2.3.

Tenemos que si 𝑌𝑖 𝑖 = 1, … , 𝑛 son variables aleatorias independientes tales que 𝐸[𝑌𝑖] = 0 y

𝑎𝑖 ≤ 𝑌𝑖 ≤ 𝑏𝑖.

Entonces ∀휂 > 0: ℙ(|𝑌1 + ⋯ + 𝑌𝑛| > 휂) ≤ 2exp (−2휂2 ‖𝒃 − 𝒂‖2⁄ )

Usamos esta desigualdad con las variables aleatorias 𝑌𝑖 = 𝜎𝑖{𝑥𝑖 ≤ 𝑡}. Note que dado 𝑿 =(𝑥1, … , 𝑥𝑛) , esta variable asume únicamente los valores −{𝑥𝑖 ≤ 𝑡} o +{𝑥𝑖 ≤ 𝑡}

Ambos con probabilidad 1 2⁄ . Luego, es evidente que 𝔼𝑌𝑖 = 0

Aplicando la desigualdad obtenemos que:

ℙ (|∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡}]

𝑛

𝑖=1

| >𝑛휀

4 |𝐗) ≤ 2exp (

−2𝑛2휀2

16 ∑ (2{𝑥𝑖 ≤ 𝑡})2𝑛𝑖=1

)

≤ 2 exp (−𝑛2휀2

32 ∑ ({𝑥𝑖 ≤ 𝑡})2𝑛𝑖=1

) ≤ 2exp (−𝑛휀2

32)

Observamos que el lado derecho ya no depende de 𝑿.

Usando la desigualdad maximal para cada 𝑡𝑗 antes, llegamos a que:

ℙ{‖𝑃𝑛°‖ > 휀 4⁄ |𝑿} ≤ 2(𝑛 + 1)exp (

−𝑛휀2

32)

Esperanza con respecto a 𝑿:

Tomamos la esperanza sobre 𝑿 y entonces:

ℙ{‖𝑃𝑛 − 𝑃‖ > 휀} ≤ 4ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }

≤ 8(𝑛 + 1)exp (−𝑛휀2

32)

Dado que, para todo 휀 > 0:

∑ ℙ{‖𝑃𝑛 − 𝑃‖ > 휀}

∞

𝑖=1

≤ ∑ 8(𝑛 + 1) exp (−𝑛휀2

32)

∞

𝑖=1

< ∞

Por el lema de Borel-Cantelli, obtenemos que:

ℙ (limsup𝑛→∞

{‖𝑃𝑛 − 𝑃‖ > 휀}) = 0 , ∀휀

⇒ sup𝑡

‖𝑃𝑛 − 𝑃‖ → 0 , 𝑐. 𝑠.

Finalizando así la demostración del teorema de Glivenko-Cantelli.

∎

4.2 Clases de conjuntos con discriminación polinomial

Un paso muy importante en la demostración de Glivenko-Cantelli era que para evaluar

sup𝑡

|𝑃𝑛°(−∞, 𝑡]|

era suficiente evaluar 𝑃𝑛°(t) en (𝑛 + 1) puntos. Esta propiedad tenía que ver con que la

cantidad de subconjuntos de la muestra {𝑥1, … , 𝑥𝑛} que pueden discriminar los intervalos

son exactamente 𝑛 + 1. A saber:

∅, {𝑥1}, {𝑥1, 𝑥2}, … , {𝑥1, … , 𝑥𝑛} Es decir, si 𝑆0 = {𝑥1, … , 𝑥𝑛} es la muestra, entonces el número de subconjuntos que

intersectan los intervalos son:

#{𝑆0⋂(−∞, 𝑡]: 𝑡 ∈ ℝ} = 𝑛 + 1 Y que este factor era posteriormente desechado por la cota exponencial.

Esto responde a una propiedad más general de los intervalos llamada discriminación

polinomial.

Definición 4.2: Decimos que una colección o clase de conjuntos 𝔇 es una clase con

discriminación polinomial si para todo conjunto con 𝑁 puntos 𝑆0 existe un polinomio 𝑑(∙)

tal que:

#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} ≤ 𝑑(𝑁)

Es decir, el número de subconjuntos que 𝔇 alcanza está acotado por un polinomio.

El polinomio 𝑑(∙) se llama polinomio discriminador de la clase.

Nota 4.2.1: Claramente no todas las clases de conjuntos tienen discriminación polinomial.

Si denotamos por 𝐶𝐶𝑜 los conjuntos cerrados y convexos en ℝ2 , entonces ∀S0 finito de 𝑁

puntos tenemos que:

#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} = 2𝑁

Nótese entonces que para demostrar una generalización del teorema de Glivenko-Cantelli

es suficiente repetir el argumento cambiando únicamente la cota maximal.

Teorema 4.3: Sea 𝔇 una clase con discriminación polinomial de un conjunto 𝑆 y 𝑃 una

medida de probabilidad sobre 𝑆, entonces:

sup𝐷∈𝔇

|𝑃𝑛𝐷 − 𝑃𝐷| → 0 𝑐𝑎𝑠𝑖 𝑠𝑒𝑔𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑒

Demostración: En la cota maximal reemplace (𝑛 + 1 ) por 𝑑(𝑛) ; que será igualmente

consumida por la cota exponencial y cambie toda referencia a intervalos por subconjuntos

de 𝔇.

∎

El problema de obtener convergencia uniforme de medidas empíricas se ha reducido ahora

a encontrar clases de conjuntos con discriminación polinomial.

Ejemplo. Directamente se puede comprobar que los cuadrantes en ℝ2 tienen

discriminación polinomial con polinomio discriminador (𝑛 + 1)2 . Se necesitan (𝑛 + 1)

puntos para cada una de las coordenadas, dando la cota. Similarmente, para ℝ𝑑 tenemos

discriminación polinomial para los hiper-cubos

A modo de aumentar la discusión, una herramienta para construir clases de conjuntos con

discriminación polinomial es el siguiente lema.

Lema 4.4: Sean ℭ y 𝔇 clases con discriminación polinomial, entonces:

𝑖) {𝐷𝑐: 𝐷 ∈ 𝔇 }

𝑖𝑖) {𝐷 ∪ 𝐶: 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ}

𝑖𝑖𝑖) {𝐷 ∩ 𝐶: 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ }

tienen discriminación polinomial.

Demostración:

i) Sean 𝑆0 un conjunto finito de 𝑁 puntos. Por hipótesis sabemos que

#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} ≤ 𝑑(𝑁)

Suponga que los subconjuntos de 𝑆0 que 𝔇 discrimina son: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁). Entonces ∀𝐷 ∈ 𝔇: ∃𝑖 tal que 𝑆0 ∩ 𝐷 = 𝑆𝑖. Usando el hecho de que:

𝑆0 = 𝑆0 ∩ (𝑆) = 𝑆0 ∩ (𝐷 ∪ 𝐷𝑐) = (𝑆0 ∩ 𝐷) ∪ ( 𝑆0 ∩ 𝐷𝑐) = 𝑆𝑖 ∪ ( 𝑆0 ∩ 𝐷𝑐

⇒ 𝑆0\𝑆𝑖 = (𝑆0 ∩ 𝐷𝑐) Al ser la unión disjunta.

Y, por tanto, ∀𝐷 ∈ 𝔇: ∃𝑖 tal que 𝑆0 ∩ 𝐷𝑐 = 𝑆0\𝑆𝑖

⇒ #{𝑆0 ∩ 𝐷𝑐: 𝐷 ∈ 𝔇} = #{𝑆0\𝑆1, … , 𝑆0\𝑆𝑘} = 𝑘 ≤ 𝑑(𝑁) Es decir el mismo polinomio es válido para realizar la discriminación.

ii) Sea 𝑆0 un conjunto finito de 𝑁 puntos arbitrario.

Suponga que 𝔇 discrimina los siguientes subconjuntos de 𝑆0: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁).

Similarmente, suponga que ℭ discrimina los siguientes subconjuntos de 𝑆0: 𝑆1̃, … , 𝑆�̃� con

𝑙 ≤ 𝑐(𝑁).

Sean 𝐷 y 𝐶 arbitrarios, entonces ∃𝑖, 𝑗 ∶ 𝑆0 ∩ 𝐷 = 𝑆𝑖 , 𝑆0 ∩ 𝐶 = 𝑆�̃�

Dejando 𝐷 fijo, entonces #{𝑆0 ∩ (𝐷 ∪ 𝐶): 𝐶 ∈ ℭ} = #{𝑆𝑖 ∪ 𝑆�̃�: 1 ≤ 𝑗 ≤ 𝑙} = 𝑙 ≤ 𝑐(𝑁)

Pero entonces, #{𝑆0 ∩ (𝐷 ∪ 𝐶): 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ}

≤ ∑ #{𝑆𝑖 ∪ (𝑆0 ∩ 𝐶): 𝐶 ∈ ℭ} ≤ ∑ 𝑐(𝑁) ≤ 𝑘 ∙ 𝑐(𝑁) ≤ 𝑑(𝑁)𝑐(𝑁)

𝑘

𝑖=1

𝑘

𝑖=1

y, por tanto, la discriminación es polinomial.

iii) Similarmente, denotamos los polinomios de discriminación por 𝑐(𝑁) y 𝑑(𝑁). Además,

suponga que 𝔇 discrimina los siguientes subconjuntos de 𝑆0: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁).

Suponga que 𝑆𝑖 consiste de 𝑁𝑖 puntos. La clase ℭ discrimina a lo sumo 𝑐(𝑁𝑖) distintos de

𝑆𝑖. Esto da la cota 𝑐(𝑁1) + ⋯ + 𝑐(𝑁𝑘) del tamaño de la clase en el enunciado. Claramente,

esta suma es menor o igual a 𝑐(𝑁)𝑑(𝑁) y, por lo tanto, la discriminación es polinomial.

∎

Es muy fácil que se nos acaben los conjuntos; el poder de construcción del lema anterior

tiene la restricción de una cantidad finita de operaciones.

Similarmente, la clase puede fallar fácilmente en discriminar un subconjunto de los 2𝑁 para

cada conjunto 𝑆0 de 𝑁 puntos, cuando 𝑁 es lo suficientemente grande. Esta es una

propiedad necesaria de las clases polinomiales.

Sorprendentemente es una condición suficiente.

Definición 4.5: Decimos que una clase de conjuntos 𝔇 destroza un conjunto de puntos F si

puede discriminar cada uno de sus 2𝑁 subconjuntos.

Por ejemplo en ℝ2 los discos pueden destrozar cualquier conjunto de 3 puntos, si estos no

son co-lineales. Pero no importa la configuración que tenga un conjunto de 4 puntos. Los

discos no pueden destrozarlos.

Los discos pueden clasificar cualquier subconjunto de tamaño 1 de un conjunto de 3 puntos

en el plano. Similarmente, pueden clasificar cualquier subconjunto de tamaño 2. Sin

embargo, ningún disco puede clasificar todos los subconjunto de tamaño 2 de un conjunto

de 4 puntos en el plano. Por ejemplo, en el caso anterior es imposible obtener el

subconjunto que consiste únicamente de los dos puntos más alejados entre sí.

Teorema 4.6 (Vapnik, Sauer): Sea 𝑆0 un conjunto de 𝑁 puntos en 𝑆. Sea 𝔇 una clase de

conjuntos en 𝑆. Suponga que existe un entero positivo 𝑉 ≤ 𝑁 tal que 𝔇 no destroza ningún

subconjunto de 𝑉 puntos de 𝑆0, entonces 𝔇 no discrimina más de

(𝑁

0) + (

𝑁

1) + ⋯ + (

𝑁

𝑉 − 1)

subconjuntos de 𝑆0.

Demostración:

Sean 𝐹1, … , 𝐹𝑘todos los subconjuntos de 𝑉 puntos de 𝑆0, obviamente 𝑘 = (𝑁𝑉

).

Por hipótesis, existe un subconjunto “oculto” 𝐻𝑖 para cada 𝐹𝑖 que la clase 𝔇 falla en

discriminar. Es decir: ∀𝑖 ∃𝐻𝑖 tal que 𝐷 ∩ 𝐹𝑖 ≠ 𝐻𝑖 ∀𝐷 ∈ 𝔇. En particular, todos los conjuntos de la forma 𝐷 ∩ 𝑆0 cumplen que

(𝐷 ∩ 𝑆0) ∩ 𝐹𝑖 = 𝐷 ∩ (𝑆0 ∩ 𝐹𝑖) = 𝐷 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖 Esta observación, aunque sencilla, nos permite evidenciar:

{𝐷 ∩ 𝑆0: 𝐷 ∈ 𝔇} ⊂ 𝒞0 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖}

Luego, es suficiente acotar el cardinal de 𝒞0.

Caso 1: Hay un caso en el que se puede calcular fácilmente el cardinal de 𝒞0. Cuando 𝐻𝑖 = 𝐹𝑖, ∀𝑖 ⇒ 𝒞0 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐹𝑖, ∀𝑖} ={𝐶: "𝑛𝑜 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑉 𝑝𝑢𝑛𝑡𝑜𝑠"} De lo contrario, al menos tocaría los 𝑉 puntos de algún subconjunto, es decir, 𝐶 contendría

al menos uno de los 𝐹𝑖. Luego, 𝒞0 consiste de todos los subconjuntos de 0 puntos, 1 punto, …, 𝑉 − 1 puntos.

⇒ |𝒞0 | = (𝑁

0) + (

𝑁

1) + ⋯ + (

𝑁

𝑉 − 1)

Caso 2: Cuando no todos los 𝐻𝑖 son 𝐹𝑖 hay una forma de reducirnos al caso 1.

Definimos 𝐻𝑖′ = (𝐻𝑖 ∪ {1}) ∩ 𝐹𝑖 = {

𝐻𝑖 ⊂ 𝐹𝑖

𝐻𝑖 ∪ {1} ⊂ 𝐹𝑖

Es decir, aumentamos 𝐻𝑖 en 1 siempre y cuando 1 ∈ 𝐹𝑖. Ahora, definimos la clase

𝒞1 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖′ , ∀𝑖}

Note que 𝒞1 no tiene mucho que ver con 𝒞0 , solo que os conjuntos son más grandes. Sin

embargo aumenta la posibilidades, es más fácil ser distinto de 𝐻𝑖′ ⇒ es de esperarse

que |𝒞0 | ≤ |𝒞1| (ojo, no decimos que 𝒞0 ⊂ 𝒞1 )

Para probar esto, definimos un mapa inyectivo entre 𝒞0 \𝒞1 → 𝒞1 \𝒞0 ,

a saber: 𝐶 → 𝐶 ∪ {1}.

Si creemos ese argumento podemos asumir que |𝒞0 | ≤ |𝒞1|. Ahora similarmente, definimos 𝐻𝑖

′′ = (𝐻𝑖′ ∪ {2}) ∩ 𝐹𝑖 y 𝒞2 = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖

′}

Y, con el mismo mapa y argumento concluimos que |𝒞1| ≤ |𝒞2|. Similarmente, definimos: 𝒞0, 𝒞1, … , 𝒞𝑁 y eventualmente

𝐻𝑖(𝑁)

= (𝐻𝑖(𝑁−1)

∪ {𝑁}) ∩ 𝐹𝑖 = 𝐹𝑖

𝒞𝑁 = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖(𝑁)

, ∀𝑖} = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐹𝑖, ∀𝑖}

y |𝒞𝑁| = (𝑁0

) + (𝑁1

) + ⋯ + ( 𝑁𝑉−1

).

Detalles del mapa: 𝒞 → 𝒞\{1}: 𝒞0\𝒞1 → 𝒞1\𝒞0 Tome 𝐶 ∈ 𝒞0\𝒞1 ⇒ 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖 Pero existe 𝑗 tal que 𝐶 ∩ 𝐹𝑗 = 𝐻𝑗

′.

Se sigue entonces que 𝐻𝑗′ ≠ 𝐻𝑗 ⇒ 1 ∈ 𝐶 ∩ 𝐹𝑗 pero 1 ∉ 𝐻𝑗 .

Luego 𝐶 \{1} ≠ 𝐶 y si 𝐶, 𝐵 ∈ 𝒞0\𝒞1 y 𝐶 ≠ 𝐵:

⇒ 1 ∈ 𝐶 ∩ 𝐵 ⇒ C \{1} ≠ 𝐵\{1}. De forma que el mapa es inyectivo.

Para ver que 𝐶\{1} ∈ 𝒞1\𝒞0, primero note que:

(𝐶\{1}) ∩ 𝐹𝑗 = 𝐻𝑗′\{1} = 𝐻𝑗 ⇒ C\{1} ∉ 𝒞0

Para ver que 𝐶\{1} ∈ 𝒞1. Considere dos casos.

Caso a): 1 ∈ 𝐹𝑖 ⇒ 1 ∈ 𝐻𝑖′ pero evidentemente 𝐶\{1} no contiene a 1.

Caso b) 1 ∉ 𝐹𝑖 ⇒ (𝐶\{1}) ∩ 𝐹𝑖 = 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 = 𝐻𝑖′

En cualquier caso (𝐶\{1}) ∩ 𝐹𝑖 ≠ 𝐻𝑖′ para todo 𝑖.

∎

Definición 4.7: Sea 𝑉 el mínimo entero que cumple las propiedades del teorema 4.6. El

número 𝑉 − 1 se llama la dimensión de Vapnik de la clase 𝔇.

Corolario 4.8: Si una clase no destroza ningún conjunto de 𝑉 puntos entonces tiene

discriminación polinomial de un grado menor o igual a 𝑉 − 1.

El corolario nos dice que si 𝔇 no destroza ningún conjunto de 𝑉 puntos, entonces para

todo conjunto finito 𝑆0 de 𝑁 puntos, con 𝑉 ≤ 𝑁, entonces 𝔇 no discrimina más de

𝑝(𝑁) = (𝑁

0) + (

𝑁

1) + ⋯ + (

𝑁

𝑉 − 1)

conjuntos.

Luego, 𝔇 tiene discriminación polinomial de un grado menor o igual a 𝑉 − 1. Ahora, el problema de encontrar estas clases de conjuntos se reduce a determinar cuales

“tienen problemas” destrozando conjuntos con una gran cantidad de puntos.

Para terminar esta sección, presentamos un resultado para mostrar clases de conjuntos con

discriminación polinomial que dependen de una amplia gama de funciones. Aumentando la

variedad de conjuntos con discriminación polinomial.

Lema 4.9: Sean 𝔖 = 𝑠𝑝𝑎𝑛{𝑔1, … , 𝑔𝑉−1} donde 𝑔𝑖: 𝑆 → ℝ. Sea 𝑔 ∈ 𝔖 arbitraria. Entonces

la clase de conjuntos de la forma {𝑔 ≥ 0}; 𝑔 ∈ 𝔖 tiene discriminación polinomial de grado

menor o igual a 𝑉. Demostración:

Considere cualquier colección de 𝑉 puntos {𝑠1, … , 𝑠𝑉} y la función lineal:

𝕃: 𝔖 → ℝ𝑉

𝑔 → (𝑔(𝑠1) , … , 𝑔(𝑠𝑉))

es claro que dim 𝕃𝔖 ≤ 𝑉 − 1 y, por lo tanto, existe 𝛾 ∈ ℝ𝑉 que es ortogonal al subespacio

𝕃𝔖.

Es decir, para todo 𝑔 se cumple que ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖)𝑉𝑖=1 = 0 ⇔ ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖){+} = ∑ (−𝛾𝑖 ) ∙{−}

𝑔(𝑠𝑖)

Donde {−} son precisamente los índices donde 𝛾𝑖 < 0. Sin pérdida de generalidad,

asumimos que {−} ≠ ∅ (si es necesario reemplace 𝛾 por −𝛾).

Suponga {𝑔 ≥ 0} separa precisamente los 𝑠𝑖 con 𝑖 ∈ {+}. Entonces existe 𝑔 ∈ 𝔖 tal que

∀𝑖 ∈ {+} 𝑔(𝑠𝑖) ≥ 0 ⇔ ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖){+} ≥ 0.

Sin embargo, este mismo 𝑔 cumple que ∀𝑖 ∈ {−} 𝑔(𝑠𝑖) < 0 ⇒ ∑ (−𝛾𝑖 ) ∙ 𝑔(𝑠𝑖){−} < 0.

Lo cual es una contradicción. Por lo tanto, no puede existir 𝑔 tal que {𝑔 ≥ 0} discrimine el

conjunto {𝑠𝑖: 𝑖 ∈ {+}}. De manera que {{𝑔 ≥ 0}: 𝑔 ∈ 𝔖 } no discrimina ningún conjunto de

𝑉 puntos. Por el lema anterior, no tiene discriminación polinomial.

∎ Note que el último lema se cubre una amplia clase de conjuntos.

Ejemplo.

1. Un caso importante es: Sea ℝ𝑛[𝒙] el conjunto de polinomios con coeficientes reales de

variable real de grado menor o igual a 𝑛. Entonces, si 𝑝(𝑥) ∈ ℝ𝑛[𝒙] y denotamos el conjunto {𝑥: 𝑝(𝑥) ≥ 0} por {𝑝 ≥ 0}.

⇒ {{𝑝 ≥ 0}: 𝑝 ∈ ℝ𝑛[𝒙] } tiene discriminación polinomial de grado menor o igual a 𝑛 + 1.

2. Considere solo la clase de polinomios de grado menor o igual a 2 de dos variables. Todos

ellos tienen discriminación polinomial por el lema 4.9 e incluyen los conjuntos de la

derecha a continuación:

{𝑎𝑥2 + 𝑏𝑥𝑦 + 𝑐𝑦2 + 𝑑𝑥 + 𝑒𝑦 + 𝑓}, 𝑖𝑛𝑐𝑙𝑢𝑦𝑒: {𝑑𝑖𝑠𝑐𝑜𝑠

𝑒𝑙𝑖𝑠𝑝𝑠𝑒𝑠𝑠𝑒𝑚𝑖𝑒𝑠𝑝𝑎𝑐𝑖𝑜𝑠

4.3 Tasa de convergencia sobre clases de funciones

El lema 4.9 nos sirve como introducción a las generalizaciones de las teoremas de

Glivenko-Cantelli en clases de funciones. Debemos dar condiciones suficientes para tener

convergencia uniforme sobre clases de funciones. A lo largo de la sección escribiremos ‖∙‖

para denotar 𝑠𝑢𝑝𝔉|∙|. Una condición de dominación nos prevendrá ante cualquier complicación que pueda surgir

debido a que 𝔉 contenga funciones no acotadas, i.e. que 𝔉 sea permisible. Llamaremos a

cada función medible 𝐹 tal que |𝑓| ≤ 𝐹 para toda 𝑓 ∈ 𝔉 , una envolvente para 𝔉. Usualmente 𝐹 será tomado como el supremo puntual de |𝑓| sobre 𝔉, la envolvente natural.

Asumiremos que 𝑃𝐹 < ∞.

Definición 4.10: Definimos el espacio L 1(𝑄) como el conjunto de funciones integrables

en valor absoluto con respecto a la medida 𝑄. L 1(𝑄) = {𝑓: ∫|𝑓|𝑑𝑄 < ∞}

Definición 4.11: Sea 𝑄 una medida de probabilidad sobre 𝑆 y 𝔉 una clase de funciones

en L 1(𝑄). Para cada 휀 > 0 defina el número de cubrimiento 𝑁1(휀, 𝑄, 𝔉) como el valor más

pequeño 𝑚 para el cual existen funciones 𝑔1, … , 𝑔𝑚 (no necesariamente en 𝔉) tales que

min𝑗

𝑄|𝑓 − 𝑔𝑗| ≤ 휀 , ∀𝑓 ∈ 𝔉

Definición 4.12: La sub-gráfica de una función con valores reales 𝑓 sobre un conjunto 𝑆 se

define como el subconjunto 𝐺𝑓 = {(𝑠, 𝑡): 0 ≤ 𝑡 ≤ 𝑓(𝑠) 𝑜 𝑓(𝑠) ≤ 𝑡 ≤ 0} de 𝑆 × ℝ.

Lema 4.13: Sea 𝔉 una clase de funciones sobre un conjunto 𝑆 con envolvente 𝐹, y 𝑄 una

medida de probabilidad sobre 𝑆 con 0 < 𝑄𝐹 < ∞. Si las gráficas de las funciones en 𝔉

forman una clase de conjuntos con discriminación polinomial entonces

𝑁1(휀𝑄𝐹, 𝑄, 𝔉) ≤ 𝐴휀−𝑊 , 𝑝𝑎𝑟𝑎 0 < 휀 < 1 donde las constantes 𝐴 y 𝑊 dependen únicamente en el polinomio discriminador de la clase

de gráficas.

Demostración: (tomada de Pollard [7], lema 25)

Sean 𝑓1, … , 𝑓𝑚 una colección maximal de funciones en 𝔉 para las cuales se cumple que:

𝑄|𝑓𝑖 − 𝑓𝑗| > 휀𝑄𝐹 𝑠𝑖 𝑖 ≠ 𝑗

Maximalidad en este contexto significa que no existe una colección más grande de

funciones que tengan la misma propiedad; cada 𝑓 debe caer dentro de alguna franja de

tamaño 휀𝑄𝐹 de al menos una de las 𝑓𝑖. Así, es claro que 𝑚 ≥ 𝑁1(휀𝑄𝐹 , 𝑄, 𝔉).

Escogemos puntos independientes (𝑠1, 𝑡1), … . , (𝑠𝑘, 𝑡𝑘) in 𝑆 ⊗ ℝ generados por un

procedimiento en dos pasos. Primero generamos los 𝑠𝑖 de la distribución 𝑄(. 𝐹)/𝑄(𝐹)

sobre S, dada por:

𝑄(. 𝐹)

𝑄(𝐹)=

∫ ∙ 𝑑𝑃𝐹

∫ 𝐹 𝑑𝑃

Una vez dados los 𝑠𝑖 , generamos una muestra de los 𝑡𝑖 a partir de la distribución

condicional 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒[−𝐹(𝑠𝑖 , 𝐹(𝑠𝑖))].

El valor de 𝑘, el cual depende sobre 𝑚 y 휀, será establecido más adelante.

Note que las gráficas 𝐺1 y 𝐺2 correspondientes a 𝑓1 y 𝑓2, discriminan el mismo subconjunto

de esta muestra si y solo si uno de los 𝑘 puntos cae afuera de la región 𝐺1∆𝐺2. Esto ocurre

con probabilidad igual a

∏[1 − 𝑃𝑃{(𝑠𝑖, 𝑡𝑖) ∈ 𝐺1∆𝐺2|𝑠𝑖}] = [1 − 𝑃 (|𝑓1(𝑠1) − 𝑓2(𝑠2)|

2𝐹(𝑠1))]

𝑘𝑘

𝑖=1

= [1 −𝑄|𝑓1 − 𝑓2|

2𝑄(𝐹)]

𝑘

≤ (1 −1

2휀)

𝑘

≤ exp (−1

2𝑘휀)

Aplicando el mismo razonamiento a cada una de los (𝑚2

) pares posibles de funciones 𝑓𝑖 y

𝑓𝑗 . La probabilidad de que al menos un par de gráficas discriminen el mismo conjunto de

puntos de la muestra inicial de tamaño 𝑘 es menor que

(𝑚

2) exp (−

1

2𝑘휀) ≤

1

2exp (2 log 𝑚 −

1

2𝑘휀)

Escogemos 𝑘 como el valor más pequeño que hace la cota superior de la cantidad anterior

estrictamente más pequeña que 1, se puede ver que 𝑘 ≤ (1 + 4 log 𝑚)/휀. Con probabilidad

positiva las gráficas discriminan todos los subconjuntos de la muestra de tamaño 𝑘; existe

un conjunto de 𝑘 puntos en 𝑆 ⨂ ℝ del cual las clases polinomiales de gráficas pueden

discriminar 𝑚 subconjuntos distintos. A partir de la definición de clases con discriminación

polinomial, existen constantes 𝐵 y 𝑉 tales que 𝑚 ≤ 𝐵𝑘𝑉 para todo 𝑘 ≥ 1. Encuentre 𝑛0 de

forma que (1 + 4 log 𝑛)𝑉 ≤ 𝑛1/2 para todo 𝑛 ≥ 𝑛0. Entonces bien 𝑚 < 𝑛0 o 𝑚 ≤ 𝐵𝑚1

2휀−𝑉

Defina 𝑊 = 2𝑉 y 𝐴 = 𝑚𝑎𝑥(𝐵2, 𝑛0). Obtenemos el resultado.

∎

Para mostrar que una clase de sub-gráficas tiene discriminación polinomial podemos llamar

los resultados de la sección 4.2. Construimos gráficas como uniones finitas e intersecciones

(lema 4.4) de clases más simples de conjuntos. Establecemos su propiedad de

discriminación polinomial por un argumento geométrico directo o explotando la

dimensionalidad finita de una clase generadora de funciones (lema 4.9).

Ahora bien, considere los dos pasos fundamentales en la demostración del teorema de

Glivenko-Cantelli. Sin embargo, permitamos esta vez que 휀 y 𝔉 dependan de 𝑛. Como

antes, reemplazamos 𝑃𝑛 − 𝑃 por la medida 𝑃𝑛° que pone masa ±𝑛−1 en cada {𝑥1, … , 𝑥𝑛}.

La desigualdad de simetrización todavía es valida:

𝑃 {sup𝔉𝑛

|𝑃𝑛𝑓 − 𝑃𝑓| > 8휀𝑛} ≤ 4𝑃 {sup𝔉𝑛

|𝑃𝑛°𝑓| > 2휀𝑛}

siempre y cuando 𝑉𝑎𝑟(𝑃𝑛𝑓)/(4휀𝑛)2 sea menor o igual a 1/2 para cada 𝑓 ∈ 𝔉𝑛 . El

argumento de aproximación y la desigualdad de Hoeffding todavía nos llevan a los

resultados:

𝑃 {sup𝔉𝑛

|𝑃𝑛°𝑓| > 2휀𝑛| 𝑿} ≤ 2𝑁1(휀𝑛 , 𝑃𝑛 , 𝔉𝑛)exp [−

1

2𝑛휀𝑛

2/(max𝑗

𝑃𝑛𝑔𝑗2)] (∗)

donde el máximo es tomado sobre todas las 𝑁1(휀𝑛 , 𝑃𝑛 , 𝔉𝑛) funciones {𝑔𝑗} en la clase que

aproxima. El siguiente lema, presentado sin demostración, es un resultado previo necesario

para la demostración del teorema 4.15 que nos da la tasa de convergencia.

Lema 4.14 (lema 33 en Pollard): Sea 𝔉 una clase permisible de funciones con |𝑓| ≤ 1 y

(𝑃𝑓2)1/2 ≤ 𝛿 para cada 𝑓 ∈ 𝔉. Entonces,

𝑃 {sup𝔉

(𝑃𝑛𝑓2)12 > 8𝛿} ≤ 4𝑃{min (𝑁2(𝛿, 𝑃𝑛 , 𝔉)exp (−𝑛𝛿2),1 }

Teorema 4.15: Para cada 𝑛, sea 𝔉𝑛 una clase de funciones cuyos números de cubrimiento

satisfacen que

sup𝑄

𝑁1(휀, 𝑄, 𝔉𝑛) ≤ 𝐴휀−𝑊, 𝑝𝑎𝑟𝑎 0 < 휀 < 1

con constantes 𝐴 y 𝑊 no dependiendo en 𝑛 . Sea {𝛼𝑛} una sucesión no creciente de

números positivos para los cuales 𝑛𝛿𝑛2𝛼𝑛

2 ≫ log 𝑛. Si |𝑓| ≤ 1 y (𝑃𝑓2)1

2⁄ ≤ 𝛿𝑛 para cada

𝑓 ∈ 𝔉𝑛, entonces:

sup𝔉𝑛

|𝑃𝑛𝑓 − 𝑃𝑓| ≪ 𝛿𝑛2𝛼𝑛 𝑐𝑎𝑠𝑖 𝑠𝑒𝑔𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑒

Demostración:(tomada de Pollard [7], teorema 37)

Fije 휀 > 0. Establezca 휀𝑛 = 휀𝛿𝑛2𝛼𝑛. Dado que:

𝑉𝑎𝑟(𝑃𝑛𝑓)

(4휀𝑛)2≤

1

16𝑛휀2𝛿𝑛2𝛼𝑛

2≪

1

log 𝑛

la desigualdad de simetrización se tiene para un 𝑛 lo suficientemente grande:

𝑃 {sup𝔉𝑛

|𝑃𝑛𝑓 − 𝑃𝑓| > 8휀𝑛} ≤ 4𝑃 {sup𝔉𝑛

|𝑃𝑛°𝑓| > 2휀𝑛}

Condicionando sobre 𝑿. Encontramos funciones aproximando {𝑔𝑗}. Debemos asumir que

𝑔𝑗 ∈ 𝔉𝑛 (más formalmente, podemos reemplazar 𝑔𝑗 por 𝑓𝑗 en 𝔉𝑛 para las cuales 𝑄|𝑓𝑗 −

𝑔𝑗| ≤ 휀, después reemplazamos 휀 por 2휀). Por (∗),

𝑃 {sup𝔉𝑛

|𝑃𝑛°𝑓| > 2휀𝑛} ≤ 2𝐴휀𝑛

−𝑊 exp [−𝑛휀𝑛

2

128𝛿𝑛2

] + 𝑃{sup𝔉𝑛

𝑃𝑛𝑓2 > 64𝛿𝑛2}

El primer termino en el lado derecho de la desigualdad es igual a

2𝐴휀𝑛−𝑊 exp [𝑊 log (

1

𝛿𝑛2𝛼𝑛

) −𝑛휀2𝛿𝑛

2𝛼𝑛2

128]

el cual decrece mucho más rápido que cualquier potencia de 𝑛 porque log1

𝛿𝑛2 𝛼𝑛

incrementa

mucho más despacio que log 𝑛 , mientras que 𝑛𝛿𝑛2𝛼𝑛

2 incrementa mucho más rápido que

log 𝑛. El lema 3.13 acota el segundo término por

4𝐴(휀𝛿𝑛2𝛼𝑛)−𝑊exp (−𝑛𝛿𝑛

2)

lo cual converge a cero mucho más rápido que el primero término. Una aplicación del lema

de Borel-Cantelli termina la demostración.

∎ Nota 4.15.1: Note que el lema 4.13 da las condiciones suficientes para aplicar el teorema

4.15. Considere el caso particular de 𝔉𝑛 = 𝔉ℋ como la clase de funciones indicadoras de

los hipercubos en ℝ𝑑. Es decir, dado un punto 𝒙 = (𝑥1, … , 𝑥𝑑), escribimos el hipercubo

“abajo y a la izquierda” de 𝒙 por ℋ𝒙 = (−∞, 𝑥1]⨂ … ⨂(−∞, 𝑥𝑑] . Similarmente,

denotamos por 𝟏𝓗𝒙 la función indicadora del hipercubo. Entonces, 𝔉ℋ = {𝟏𝓗𝒙

: 𝒙 ∈ ℝ𝑑}.

Claramente la gráfica para cualquier 𝑓 ∈ 𝔉ℋ es un subconjunto de ℋ𝑑⨂{0,1} donde ℋ𝑑

denota los hipercubos en ℝ𝑑 . Es claro, de las observaciones de la sección 4.2 que las

gráficas de las funciones en 𝔉ℋ tienen discriminación polinomial con polinomio

discriminatorio (𝑛 + 1)𝑑+1. Luego se cumplen las condiciones del lema 4.13. Además,

tomando 𝛿𝑛 = 1 para todo 𝑛 , 𝛼𝑛 =log 𝑛

√𝑛, (𝑛 ≥ 9) en las hipótesis del teorema 4.15

obtenemos la tasa de convergencia para la distribución empírica acumulada:

log 𝑛

√𝑛

Capitulo 5

En este capítulo presentamos brevemente los aspectos fundamentales de las Máquinas de

Soporte Vectorial. Enunciamos el algoritmo que proponemos con sus respectivas

implementaciones. Las ideas principales son tomadas de [4] y [5].

Máquinas de Soporte Vectorial

5.1 Máquinas de Soporte Vectorial

La máquina de soporte vectorial (SVM) es una técnica de clasificación ampliamente

utilizada en la teoría de aprendizaje supervisado. En el caso de clasificación binaria, la

metodología de SVM consiste en lo siguiente: Dado un conjunto de datos

𝑆 = {𝑥𝑖 ∈ ℝ𝑑: 𝑖 = 1, … , 𝑛}

donde cada 𝑥𝑖 está etiquetado una clase 𝑦𝑖 ∈ {−1,1} decimos que el conjunto 𝑆 es

linealmente separable si existe un hiperplano que divide los datos de acuerdo a su

categoría. Es decir, existen w ∈ ℝ𝑑 y 𝑏 ∈ ℝ llamados vectores de peso y sesgo,

respectivamente, tales que: Si 𝑦𝑖 = 1 ⇒ ⟨𝑤, 𝑥𝑖⟩ + 𝑏 > 0 o bien, si 𝑦𝑖 = −1 ⇒ ⟨𝑤, 𝑥𝑖⟩ +𝑏 > 0. Equivalentemente tenemos la restricción de que

∃𝛾 > 0 ∶ 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 𝛾

para cada 𝑖 = 1, … , 𝑛.

La ecuación del hiperplano separador es entonces ⟨𝑤, 𝑥⟩ + 𝑏 = 0. Definimos el margen del

hiperplano con respecto a 𝑆 como la distancia euclídea mínima entre el hiperplano y los

puntos de 𝑆. La SVM busca encontrar el hiperplano separador con margen maximal.

Para encontrar el margen maximal, dos hiperplanos paralelos son encontrados que toquen

los datos más cercanos de cada clase. Estos puntos más cercanos se llaman vectores de

soporte (resaltados en negro en la figura). Los dos hiperplanos paralelos están definidos,

después de una normalización, por las ecuaciones

⟨𝑤, 𝑥⟩ + 𝑏 = 1 ⟨𝑤, 𝑥⟩ + 𝑏 = −1

Lo cual da un margen de 2

‖𝑤‖ . De manera que el problema SVM constituye en maximizar el

margen 2

‖𝑤‖, o equivalentemente minimizar

‖𝑤‖2

2. El problema de optimización de encontrar

el margen maximal en su forma primal, que después de una normalización se expresa:

min‖𝑤‖2

2

𝑠. 𝑎. 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 1, 𝑖 = 1, … , 𝑛

En el caso no linealmente separable se consideran dos acercamientos. El primero consiste

en introducir variables de holgura y permitir que puntos de entrenamiento caigan dentro de

un margen a cambio de un costo. Esto se puede traducir en malas clasificaciones cuando las

clases están superpuestas, pero permite encontrar una frontera óptima de clasificación

minimizando un costo asociado. A saber añadimos 𝑧𝑖 ≥ 0, 𝑖 = 1, … , 𝑛. El problema se

reescribe como:

min𝑤

1

2‖𝑤‖2 + 𝐶 ∑ 𝑧𝑖

2

𝑛

𝑖=1

𝑠. 𝑎. 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 1 − 𝑧𝑖 , 𝑧𝑖 ≥ 0, 𝑖 = 1, … , 𝑛. Donde 𝐶 es una variable de costo que permite controlar el tamaño del margen.

Para obtener la formulación del problema dual con variables de holgura consideramos el

lagrangiano de la formulación primal anterior. El lagrangiano está dado por:

ℒ(𝑤, 𝑏, 𝑧, 𝜆, 𝛽) = 1

2‖𝑤‖2 + 𝐶 ∑ 𝑧𝑖

2

𝑛

𝑖=1

− ∑ 𝜆𝑖(𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) − 1 + 𝑧𝑖)

𝑛

𝑖=1

− ∑ 𝛽𝑖𝑧𝑖

𝑛

𝑖=1

con multiplicadores 𝜆𝑖 ≥ 0, 𝛽𝑖 ≥ 0. Igualando las derivadas parciales a 0 con respecto a las

variables primales 𝑤, 𝑏 y 𝑧𝑖, obtenemos:

𝑤 = ∑ 𝜆𝑖𝑦𝑖 𝑥𝑖

𝑛

𝑖=1

∑ 𝜆𝑖𝑦𝑖

𝑛

𝑖=1

= 0

𝛽𝑖 = 𝐶 − 𝜆𝑖 Con estos resultados, el programa dual está dado por:

min𝜆𝑖

1

2∑ ∑ 𝜆𝑖𝜆𝑗𝑦𝑖𝑦𝑗⟨𝑥𝑖, 𝑥𝑗⟩

𝑛

𝑗=1

𝑛

𝑖=1

− ∑ 𝜆𝑖

𝑛

𝑖=1

𝑠. 𝑎. 0 ≤ 𝜆𝑖 ≤ 𝐶, ∑ 𝜆𝑖𝑦𝑖 = 0

𝑛

𝑖=1

donde las restricciones 0 ≤ 𝜆𝑖 ≤ 𝐶 se obtiene al exigir 𝛽𝑖 ≥ 0.

En este caso la función de decisión para una observación no vista 𝑥, está dada por:

𝑓(𝑥) = 𝑠𝑔𝑛(∑ 𝜆𝑖𝑦𝑖⟨𝑥𝑖, 𝑥⟩

𝑛

𝑖=1

+ 𝑏)

La segunda posibilidad es extender el algoritmo SVM a clasificadores no lineales mediante

el uso de Kernels. Formalmente, un Kernel es una función 𝐾, tal que para todo 𝑥, 𝑧 ∈ 𝑋

𝐾(𝑥, 𝑧) = ⟨𝜙(𝑥), 𝜙(𝑧)⟩ donde 𝜙 es una función de 𝑋a un espacio de Hilbert ℱ. La idea central es que los datos pueden ser separados por alguna superficie no lineal, y tal

superficie puede ser calculada mapeando las variables de entrada a un espacio de

“características” de dimensión mayor y realizar una clasificación lineal en ese espacio. Es

decir, 𝑥𝑖 ∈ ℝ𝑑 es enviado a 𝜙(𝑥𝑖) = ( 𝜙1(𝑥𝑖), 𝜙2(𝑥𝑖) , … ) ∈ ℱ donde ℱ es un espacio de

Hilbert de dimensión mayor y {𝜙𝑚}𝑚=1𝑚=𝑙 son funciones reales y 𝑙 puede ser ∞.

Un hecho sobresaliente es que el calculo explicito de 𝜙 no es necesario dado que el

problema de optimización puede ser resuelto considerando el problema dual. Para el

problema dual, lo que realmente es importante son los productos internos de los vectores

del conjunto 𝑆. Cabe notar que bajo la transformación 𝜙, esto último es equivalente al

producto interno en el espacio ℱ. De acuerdo a lo anterior, lo más importante es contar con

una función que preserve, en espacios de dimensión alta, las propiedades de un producto

interno. Este es el caso de una función de tipo Kernel!

Ejemplos

Kernel lineal

𝐾(𝑥𝑖, 𝑥𝑗) = ⟨𝑥𝑖, 𝑥𝑗⟩

Kernel Polinomial de grado d

𝐾(𝑥𝑖, 𝑥𝑗) = (1 + ⟨𝑥𝑖, 𝑥𝑗⟩)𝑑

Kernel radial

𝐾(𝑥𝑖, 𝑥𝑗) = exp (−𝛾 ∑(𝑥𝑖(𝑘) − 𝑥𝑗(𝑘))2

𝑑

𝑘=1

)

donde 𝛾 > 0 es una constante que en cuanto mayor sea, mayor flexibilidad en la

clasificación tendrá la SVM.

En estos términos, el problema dual considerado en el espacio de dimensión más alta está

dado por:

max ∑ 𝜆𝑖 −1

2𝜆𝑡𝑄𝜆

𝑛

𝑖=1

𝑠. 𝑎. 𝑦𝑡𝜆 = 0 , 0 ≤ 𝜆𝑖 ≤ 𝐶 , 𝑖 = 1, … , 𝑛

Donde 𝐶 es una constante positiva y es 𝑄 ∈ ℝ𝑛𝑥𝑛 una matriz simétrica semidefinida

positiva, dada por 𝑄𝑖𝑗 = 𝑦𝑖𝑦𝑗𝐾(𝑥𝑖, 𝑥𝑗).

Sea 𝜆𝑖∗>0 una solución al problema anterior, debido a las condiciones optimales entre el

problema primal y dual se sabe que si 𝑤∗ y 𝑏∗son soluciones al problema en dimensión más

alta, entonces se satisface que

𝑤∗ = ∑ 𝜆𝑖∗𝑦𝑖 𝜙(𝑥𝑖)

𝑛

𝑖=1

y que

𝑏∗ = 1 − max(𝑦𝑗 = 1)(𝜔∗)𝑡𝜙(𝑥𝑗)

Con esta información, para un nuevo vector no observado, la función de decisión es

𝑓(𝑥) = 𝑠𝑖𝑔𝑛(∑ 𝑦𝑖𝜆𝑖∗𝐾(𝑥, 𝑥𝑖)

𝑛

𝑖=1

+ 𝑏∗)

Observe que en esta suma solo los 𝜆𝑖∗ > 0 son relevantes. Debido a las condiciones

optimales, también se sabe que estas componentes corresponden a los vectores de soporte.

Por lo tanto, el objetivo principal de la SVM es encontrar los vectores de soporte (SV).

Un inconveniente crucial de las SVM radica en su alta complejidad computacional para

conjuntos de bases de datos grandes. En entrenamiento, la SVM presenta un gasto en

memoria de tipo 𝑂(𝑁3) y en tiempo de 𝑂(𝑁2). Este problema ha sido tratado

extensivamente en la literatura al punto de que se han desarrollado dos técnicas principales

para su solución. La primera tiene como objetivo mejorar la fase de entrenamiento

utilizando diferentes técnicas de optimización y programación convexa. La segunda

consiste en extraer conjuntos de entrenamiento de SVM reducidos (significativamente más

pequeños), a partir de los cuales es probable que se determinen los SV. Para mayor

información sobre las diferentes técnicas estudiadas en la literatura, consultar [10] que

contiene una completa descripción del estado del arte de las técnicas para la aceleración del

entrenamiento de las SVM.

En la literatura existen diversos métodos cuyo objetivo es reducir el tamaño del conjunto de

entrenamiento a través de distintas técnicas de selección. Dentro de este marco de

referencia existe un principio común: los vectores de soporte de una sub-muestra son

cercanos (es decir, en distancia euclídea) a los SV de la SVM al tomar el conjunto de

entrenamiento total. Por ejemplo, al tomar una sub-muestra y realizar un entrenamiento

sobre dicho subconjunto se obtienen SV que, si bien no son necesariamente SV para la

muestra total, son cercanos a los SV del conjunto completo de datos (esto se debe

principalmente a que el hiperplano de separación con margen maximal de la submuestra

aproxima el hiperplano de separación maximal del conjunto de entrenamiento). El

procedimiento posterior consiste en seleccionar, bajo algún criterio matemático y muchas

veces de forma iterativa, vectores cercanos a los SV obtenidos por la sub-muestra y realizar

un entrenamiento final que aproxima la solución exacta. Una implementación de estas ideas

se encuentra expuesta en [4] bajo el criterio de k-nearest neighbors.

En este trabajo asumiremos que los datos de entrenamiento cuentan con una distribución

subyacente (y que cumple ciertas condiciones de regularidad) y usaremos un criterio de

selección basado en la proximidad de los SV con subconjuntos definidos por la distribución

empírica acumulada. La idea es: dado que la distribución de los datos se aproxima bien

(precisamente para datos grandes) por la distribución empírica acumulada, usaremos la

última para definir regiones en el conjunto de datos de entrenamiento. Naturalmente dicha

regiones representarán conjuntos de datos cuyas funciones de probabilidad acumulada

tienen valores cercanos y, por consiguiente, serán conjuntos de datos cercanos entre sí en

un sentido probabilístico. Sin embargo, por los resultados del capítulo 3 sabemos que

también serán regiones cercanas geométricamente! Además, por los resultados del capítulo

4 conocemos el valor de la tasa de error de estimación de la distancia de Hausdorff entre

estas regiones. La buena noticia es que este error es pequeño, precisamente para conjuntos

de datos grandes. A continuación explicamos más detalles de nuestro método a través de un

ejemplo ilustrativo.

La imagen anterior es una ilustración de nuestro método en dos dimensiones. Por las

propiedades de la distribución empírica acumulada sabemos que la frontera de los

conjuntos de nivel lucen como escaleras (ver imagen) cuyos escalones están definidos por

los puntos en que se alcanza el valor umbral dado. En este caso, se eligieron 4 valores

límite. Se sabe que la escalera inferior corresponde al umbral inferior y la escalera superior

corresponde al valor umbral superior, en notación del capítulo 3, las 4 escaleras podrían

corresponder a los conjuntos ℒ𝑛(0.2), ℒ𝑛(0.4), ℒ𝑛(0.6), ℒ𝑛(0.8); siendo la última la que se

encuentra más arriba. Como se ve, las frontera dividen el espacio ℝ2 en 5 regiones dadas

por los subconjuntos cuyas fronteras son cada una de las escaleras. Estas 5 regiones las

llamaremos franjas. Además sabemos que en cada una de estas franjas contienen

aproximadamente un 20% de los datos. Con base a esto, proponemos un método que

consiste en tomar una sub-muestra del conjunto de datos, realizar un entrenamiento de

SVM y construimos las franjas empíricas. Posteriormente, calculamos los SV

correspondientes a la sub-muestra y contamos cuántos de ellos caen en cada franja.

Después seleccionamos aleatoriamente una cantidad de vectores proporcionalmente al

número de SV en cada franja. Por ende, obtendremos más vectores (y cercamos) de las

regiones que tienen mayor probabilidad (en distribución) de tener SV de la muestra total.

5.2 Algoritmo Como se discutió al final de la sección anterior un acercamiento típico para entrenar

SVM en conjunto de datos grandes consiste en utilizar algoritmos de sub-muestreo y

detección de vectores de soporte en conjuntos reducidos de datos y luego volver a tomar

muestras en regiones cercanas a los 𝑆𝑉 encontrados. Por los resultados de los capítulos 3 y

4 (ver notas 3.2.3 y 4.15.1), tenemos que los conjuntos de nivel de la distribución empírica

guardan una estrecha relación con la distribución real de los datos. De hecho, podemos

decir que la distribución empírica estima con un error de 6𝐴log 𝑛

√𝑛, donde 𝐴 es una constante,

la proximidad geométrica con respecto a los conjuntos de nivel de la distribución real de los

datos. Dado que el espacio ℝ𝑑 está naturalmente dividido por los conjuntos de nivel de la

distribución de los datos, proponemos un algoritmo cuya ‘medida de cercanía’ es caer en

las mismas regiones definidas por la distribución acumulada empírica. Así generaremos

más datos en aquellas regiones con una mayor proporción de vectores de Soporte.

A continuación enunciamos el algoritmo con el que trabajaremos. Es importante señalar

que todas las implementaciones se realizaron con un kernel polinomial de grado 3 y coste 1.

Algoritmo 1: Enriquecimiento muestral de acuerdo a proporción de SV en franjas

empíricas

1. Del conjunto de datos, calculamos las 4 coordenadas con mayor correlación en

valor absoluto con la respuesta 𝑎𝑟𝑔𝑚𝑎𝑥𝑖 = |𝑐𝑜𝑟(𝑋[, 𝑖], 𝑌)| y reducimos los datos a

estas 4 coordenadas únicamente. Formando el conjunto de entrenamiento 𝒯 en

dimensión 4.

2. Dado el conjunto de entrenamiento 𝒯 , tomamos una sub-muestra aleatoria de

tamaño 10%, 𝒮1. Realizamos un entrenamiento de SVM sobre 𝒮1 y reportamos el

número de SV y el porcentaje en cada categoría (%𝑆𝑉1 y %𝑆𝑉−1).

3. A partir 𝒮1𝑐 seleccionamos una cantidad de 𝑛𝑖 = (%𝑆𝑉𝑖 ) ∗ 𝜌 ∗ |𝒯| vectores de cada

categoría, i.e. un 𝜌% de los datos y formamos los conjuntos 𝔗1 e 𝔗−1.

4. Con los vectores en 𝔗𝑖 calculamos la función de distribución acumulada 𝐹𝑖 de cada

categoría. Construimos los vectores 휂1 = (𝐹1(𝑥1,𝑗))𝑗

, 𝑥1,𝑗 ∈ 𝔗1 y 휂−1=()

5. Extraemos los cuantiles empíricos del 33% y 66% de cada uno de estos vectores,

obteniendo las cantidades 𝑞31 , 𝑞6

1 , 𝑞3−1, 𝑞6

−1. Creamos las franjas 𝐹𝑗1, 𝐹𝑗

−1 𝑗 = 1,2,3.

6. Calculamos el porcentaje de 𝑆𝑉 que caen en cada franja %𝑆𝑉𝑖𝑗 .

7. Enriquecemos la muestra con (%𝑆𝑉𝑖𝑗) ∗ (%𝑆𝑉𝑖 ) (𝜌

3) ∗ |𝒯| vectores de cada franja,

para obtener la muestra 𝒮𝑓𝑖𝑛𝑎𝑙. Entrenamos una máquina de SVM sobre 𝒮𝑓𝑖𝑛𝑎𝑙 ,

testeamos y reportamos.

Aclaraciones:

𝜌 es un parámetro que definimos y decide qué porcentaje de los vectores usaremos

para construir las franjas empíricas.

Una franja 𝐹𝑗𝑖 es el conjunto de puntos que se encuentran entre dos valores umbral

en el valor de la distribución empírica acumulada. Con la notación del capítulo 3,

𝐹𝑗𝑖 = {𝑥: 𝑦 = 𝑖,

𝑗 − 1

3≤ 𝐹𝑛(𝑥) ≤

𝑗

3} = ℒ𝑛𝑖

(1 −𝑗 − 1

3) ∩ ℒ𝑛𝑖

(1 −𝑗

3)

La cantidad (%𝑆𝑉𝑖𝑗) indica la proporción de 𝑆𝑉 de categoría 𝑖 en la franja 𝐹𝑗𝑖

Los cuantiles empíricos nos permiten estimar la proporción de vectores que

geométricamente están “arriba y la derecha” (todas las coordenadas superiores). Por

ejemplo, para un vector 𝑣, si 𝐹1(𝑣) < 𝑞31 nos dice que 𝑣 tiene por lo menos un 66%

de los datos de categoría 1 arriba y a la derecha.

El cálculo de la f.d.e.a. se realiza de forma directa (fuerza bruta) que tiene una

complejidad computacional del orden 𝑂(𝑁2).

5.3 Implementaciones El algoritmo se implementó en 6 bases de datos que se describen a continuación. Las bases

de datos fueron tomadas de (https://github.com/EpistasisLab/pmlb/tree/master/datasets) y

de UCI: Machine Learning Repository. Todas las implementaciones se corrieron con los

parámetros de coste 𝐶 = 1 y kernel polinomial de grado 𝑑 = 3.

Tabla 1: Descripción de las bases de datos

Base de datos # de instancias # de atributos Porcentaje en cada categoría (-1:1) Magic 19020 10 65%-35%

Phoneme 5404 5 71%-29%

Ring 7400 20 50%-50%

HTRU_2 17897 8 91%-9%

Skin No Skin 245056 3 21%-79%

Default Credit 30000 23 78%-22%

Tabla 2: Tiempos de computo y tasas de error para SVM con entrenamiento completo

https://github.com/EpistasisLab/pmlb/tree/master/datasets

Base de datos Tiempo (s) %Tasas de error Magic 2144.981 18.43

Phoneme 136.604 21.3

Ring 639.745 3.11

HTRU_2 377.297 2.32

Skin No Skin 200201.059 5.16

Default Credit 8091.241 20.44

Tabla 3: Tiempos de computo y tasas de error Algoritmo 1 𝜌 = 0.15


Phoneme 72.033 27.41

Ring 151.295 36.11

HTRU_2 268.894 2.57

Skin No Skin 80489.870 9.55

Default Credit 5586.644 23.98

Histogramas de correlaciones

Se hicieron pruebas adicionales para las bases de datos que tenían pocas variables

con correlación alta. En particular, para Magic (tres variables en correlación alta) y

para Phoneme, obteniendo resultados muy similares a los de 4 variables.

Respectivamente obtuvimos tiempos de 827.83 y 61.669 y tases de % en el error de

clasificación de 24.43 y 27.41. Lo cual supone una mejora apenas del 4% y del 15%

del tiempo y un empeoramiento de la tasa de error del 6% y del 0%. Este cambió

resultó efectivo en la base de datos Phoneme, pero no tanto en la base de datos

Magic.

Se hicieron pruebas en las que no se consideraban las correlaciones, se corría sobre

todas las variables (i.e. el Algoritmo 1 sin considerar el paso 1). Resumidas a

continuación en la tabla 4:

Tabla 4: Tiempos de computo y tasas de error Algoritmo 1 𝜌 = 0.15, todas las variables


Phoneme 352.810 23.06

Ring 3267.274 20.94

HTRU_2 456.753 2.38

Capitulo 6

Conclusiones

En este trabajo se propuso un método para encontrar Vectores de Soporte en bases de datos

grandes, a partir de una búsqueda en regiones definidas por la distribución empírica

acumulada. La idea fue generar un mayor número de datos de aquellas regiones con una

mayor proporción de Vectores de Soporte. Ensayamos el algoritmo en 6 bases de datos de

distinto tamaño y número de atributos. Teniendo en cuenta el costo computacional de los

cálculos se propuso disminuir los conjuntos de datos a dimensión 4 (excepto para la base de

datos Skin No Skin que ya está dimensión 3). Esto también funcionó como una medida para

reducir el conjunto de datos a únicamente las 4 variables con mayor influencia en la

variable de respuesta “𝑌" . Los resultados son variados y en cualquier caso regulares.

Naturalmente, se redujo el tiempo de computo a niveles cercanos a la mitad. Pero se

incrementó (en algunos casos) considerablemente la tasa de error en comparación al

entrenamiento SVM con el conjunto completo de entrenamiento.

Según nuestras implementaciones se puede concluir:

El método no es igualmente eficiente en todos los casos. El tamaño y el balance de

los datos influye en los resultados finales. Se observaron mejores resultados en las

bases de datos más desbalanceadas (i.e. las bases de datos con un alto porcentaje de

datos de una categoría en especial ) y de tamaños inferiores a 30000. Una (posible)

explicación a esto se debe a que las bases de datos más desbalanceadas tienden a

acumular más vectores de soporte de una sola categoría dándole un peso importante

a una o dos franjas en especifico. Mientras que en las bases de datos balanceadas el

método no logra capturar la información deseada al tener franjas con pesos muy

similares.

El método es inferior al propuesto en [4] que reporta reducciones de tiempo entre el

80 y 90% (nuestro método llega como máximo a reducciones del 60%).

El método es más eficiente en las bases de datos que tienen pocas variables con

correlación alta. El número de 4 variables, que en principio es arbitrario, puede

funcionar o no, dependiendo de los valores de las correlaciones. En el caso de Ring

falló porque son muchas las variables con correlaciones altas y solo tomar 4 puede

resultar muy restrictivo. Por otra parte los mejores resultados se obtuvieron en las

bases de datos Magic, Skin No Skin y Phoneme que tienen pocas variables de

correlación alta. Sin embargo, se esperaban mejores resultados en la base de datos

Default Credit. Frente a esto se puede decir que esta última base de datos tiene

demasiadas variables con correlación baja que en conjunto pueden tomar peso en

relación a la respuesta.

El método falla en dimensiones altas, el costo computacional de calcular la f.d.e.a.

es demasiado alto. Resulta eficiente en dimensiones bajas ≤ 10 . Como se vió,

utilizar todas las variables no mejora mucho las tasas de error, pero sí dispara los

tiempos, por lo que el acercamiento de las correlaciones es válido. Sería necesario

introducir una medida para definir el conjunto minimal de variables necesarias.

Algunos comentarios finales:

Como trabajo futuro indicamos que el tiempo de computo puede reducirse drásticamente

utilizando un algoritmo alternativo para calcular la función de distribución acumulada

empírica. La complejidad computacional expuesta aquí es del orden 𝑂(𝑁2). Sin embargo,

hacia el final del trabajo de grado se encontraron algoritmos alternativos en un paper

reciente: [8]. En este documento se exponen algoritmos con complejidad computacional

𝑂(𝑁𝑙𝑜𝑔𝑁) u 𝑂(𝑁𝑙𝑜𝑔(𝑁)𝑑−1). También se considera la posibilidad de tomar un mayor

número de franjas, y hacerlas cada vez más finas (a un nivel del 10%, por ejemplo). De esta

forma la información tocante a la ubicación geométrica de los vectores de soporte es más

especifica y se espera que la búsqueda sea aún más eficiente.

Referencias [1] R.B. Ash. Basic probability theory. Dover Books on Mathematics. Dover Publications, 2008.

[2] R.M. Dudley. Real analysis and Probability. Cambridge University Press, 2002.

[3] V. Vapnik and A. Chervonenkis. Theory of Pattern Recognition. Nauka, 1974.

[4] S.A. Camelo, M.D. González-Lima, and A.J. Quiroz. Nearest neighbors methods for support

vector machines. Ann Oper Res, 235:85–101, 2015.

[5] Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and

Other Kernel-based Learning Methods. Cambridge University Press, 2000.

[6] Elena Di Bernardino, Thomas Laloë, Véronique Maume-Deschamps, and Clémentine Prieur. Plug-in estimation of level sets in a non-compact setting with applications in multivariate risk

theory. ESAIM: Probability and Statistics, 17:236–256, 2013.

[7] D. Pollard. Convergence Of Stochastic Processes. Springer-Verlag, New York, 1984.

[8] N. Langrené and Xavier Warin. Fast multivariate empirical cumulative distribution function

with connection to kernel density estimation. In: ArXiv e-prints (May 2020). arXiv: 2005.03246

[9] N. Etemadi. An Elementary Proof of the Strong Law of Large Numbers. Z. Wahrschein-

lichkeitstheorie verw Gebiete 55, 119–122 (1981).

[10] Nalepa, J., Kawulok, M. Selecting training sets for support vector machines: a review. Artif

Intell Rev 52, 857–900 (2019).

Documents

Método de conjuntos de nivel para Máquinas de Soporte