Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
_________________________________________________
Método de conjuntos de nivel para
Máquinas de Soporte Vectorial
_________________________________________________
Proyecto de grado
Juan Diego Pérez Sierra
Director: Adolfo José Quiroz
Departamento de Matemáticas
Facultad de Ciencias
Universidad de Los Andes
Diciembre 2020
Método de conjuntos
de nivel para
Máquinas de Soporte
Vectorial
Juan Diego Pérez Sierra
Director: Adolfo José Quiroz
Departamento de Matemáticas
Facultad de Ciencias
Universidad de Los Andes
Agradecimientos Agradezco a Adolfo Quiroz por asesorar este proyecto y ser parte fundamental
de su desarrollo. En especial por su paciencia y compromiso. A Juan, Luz
Marina y Karen, por su apoyo.
“No desdeñes nuestro poder
nos hemos insinuado;
al infinito”
Robert Frost
Índice
1. Introducción ............................................................................................................... 7 1.1 Descripción general del documento ...................................................................................... 8 1.2 Notación .............................................................................................................................. 8
2. Preliminares ............................................................................................................... 9 2.1 Espacios de probabilidad ...................................................................................................... 9 2.2 Ley fuerte de los grandes números ..................................................................................... 11 2.3 Desigualdad de Hoeffding .................................................................................................. 14
3. Distribución acumulada empírica ........................................................................... 16 3.1 Procesos empíricos............................................................................................................. 16 3.2 Estimación de conjuntos de nivel ....................................................................................... 18
4. Convergencia uniforme de medidas empíricas ....................................................... 22 4.1 Teorema de Glivenko-Cantelli ........................................................................................... 23 4.2 Clases de conjuntos con discriminación polinomial ............................................................ 26 4.3 Tasa de convergencia sobre clases de funciones ................................................................. 31
5. Máquinas de Soporte Vectorial ............................................................................... 34 5.1 Máquinas de Soporte Vectorial........................................................................................... 34 5.2 Algoritmo .......................................................................................................................... 39 5.3 Implementaciones .............................................................................................................. 40
6. Conclusiones ............................................................................................................. 42
7. Referencias ............................................................................................................... 44
Capitulo 1
Introducción
La teoría computacional del aprendizaje se ha convertido en uno de los campos de
investigación más importantes y con mayores aplicaciones de la Inteligencia Artificial. Esto
se debe principalmente a que la disponibilidad de sistemas de aprendizaje confiables es de
gran importancia, en cuanto hay demasiadas tareas que no pueden ser resueltas por técnicas
de programación clásicas. Ejemplos de ello son el reconocimiento de caracteres escritos a
mano o el modelamiento de una reacción química, donde las interacciones de los procesos
subyacentes son tan complejas que no existe una descripción explicita para calcular el
resultado deseado. En estos casos, una estrategia alternativa para resolver este tipo de
problemas es que el computador pueda llegar a aprender, a partir de ejemplos, la
funcionalidad tácita entre el conjunto de datos disponibles y la respuesta esperada.
El problema de que las máquinas puedan aprender a partir de un conjunto de datos de
ejemplo ha sido objeto de debate tanto filosófico como técnico. Alan Turing, a mediados
del Siglo XX proponía que las máquinas eran capaces, en cierto grado, de aprender. Desde
entonces, investigadores en los campos de la Estadística y las Redes Neuronales han
desarrollado varios métodos para discriminar entre dos clases de instancias utilizando
funciones lineales. El primer algoritmo iterativo para aprender sobre la base de
clasificación lineal es el perceptron, un procedimiento propuesto por Frank Rosenblatt en
1956. Actualmente, el aprendizaje supervisado es el sub-campo de la teoría del aprendizaje
encargada de estudiar algoritmos que reciben como entrada un conjunto de datos de
entrenamiento donde cada uno de ellos está asociado a una categoría o clase. Típicamente,
en clasificación binaria, el conjunto de datos es representado como vectores 𝑥𝑖 ∈ ℝ𝑑
asociados con una clase 𝑦𝑖 ∈ {−1,1} . En este documento discutiremos el algoritmo
iterativo de clasificación Máquina de Soporte Vectorial propuesto por Vapnik en 1974 [3].
Uno de los aspectos fundamentales de la aplicación práctica de las Máquinas de Soporte
Vectorial es que para obtener la solución exacta no es necesario utilizar todo el conjunto de
datos disponibles, sino que, en realidad, una fracción de los datos es realmente importante:
los Vectores de Soporte. El problema de identificar Vectores de Soporte en conjuntos de
datos grandes ha recibido gran atención en la literatura. En este sentido, varios algoritmos
se han propuesto, entre ellos el de K-nearest neighbors explicado en [4] cuya idea central es
tomar sub-muestras aleatorias, identificar los vectores de soporte en cada sub-muestra e
enriquecer las muestras con vectores cercanos; dando resultados aproximados al problema
de clasificación pero con implementaciones más eficientes. En este trabajo proponemos un
algoritmo en el mismo espíritu, pero utilizando una técnica diferente motivada por
resultados teóricos de las medidas empíricas.
1.1 Descripción general del documento El documento se divide esencialmente en dos partes: la primera parte se constituye
de los primeros cuatro capítulos y allí se introducen los fundamentos teóricos que motivan
nuestro algoritmo. La segunda parte se constituye de los capítulos 5 y 6, en donde se
introducen los fundamentos de las Máquinas de Soporte Vectorial y reportamos los
resultados de nuestras implementaciones computacionales. En el capítulo 1 se motiva el
estudio de Máquinas de Soporte Vectorial y sirve para establecer la notación a lo largo del
documento. En el capítulo 2 se discuten y definen los conceptos de espacios probabilidad
necesarios para enunciar y demostrar teoremas de los capítulos siguientes. Además,
probamos dos resultados fundamentales: La ley Fuerte de los Grandes Números y la
Desigualdad de Hoeffding. En el capítulo 3 introducimos los conceptos de medidas
empíricas y conjuntos de nivel, se prueba un resultado de consistencia tocante a la
estimación empírica de distribuciones de probabilidad. En el capítulo 4 se enuncian y
demuestran varios resultados de generalizaciones uniformes de medidas empíricas.
Posteriormente, en el capitulo 5 enunciamos los conceptos básicos de las Máquinas de
Soporte Vectorial, formalizamos la idea alusiva al rol fundamental de los Vectores de
Soporte y exhibimos nuestro algoritmo. Finalmente, en el capitulo 6 reportamos los
resultados y se presentan las conclusiones respectivas.
1.2 Notación Usamos notación estándar de teoría de conjuntos. Sea 𝛺 un conjunto, 𝐴, 𝐵 ⊂ 𝛺
subconjuntos. Entonces:
𝐴𝑐 = {𝜔 ∈ 𝛺 , 𝜔 ∉ 𝐴} es el complemento de 𝐴.
𝐴\𝐵 = {𝜔 ∈ 𝐴 𝑦 𝜔 ∉ 𝐵} es la diferencia entre conjuntos.
A∆𝐵 = (𝐴\𝐵) ∪ (𝐵\𝐴) es la diferencia simétrica.
|𝐴| denota el cardinal 𝐴.
Sean 𝑎𝑛 ∈ 𝐴, entonces (𝑎𝑛)𝑛∈ℕ ⊂ 𝐴 es una sucesión de elementos de 𝐴. Dadas sucesiones (𝑎𝑛) y (𝑏𝑛) denotamos por 𝑎𝑛 ≫ 𝑏𝑛 ∶⇔ 𝑎𝑛 𝑏𝑛 → ∞,⁄ 𝑛 → ∞.
La función indicadora del conjunto 𝐴 se define como
𝟏𝐴(𝜔) = {1, 𝑠𝑖 𝜔 ∈ 𝐴0, 𝑠𝑖 𝜔 ∉ 𝐴
Denotamos por ∨ y ∧, máximo y mínimo, respectivamente. Así, por ejemplo ∨ (5,2) = 5. Si 𝑓: 𝐴 → 𝐵 es una función, y 𝑎 ∈ 𝐵 y 𝐶 ⊂ 𝐵 denotaremos por:
𝑓 ∈ 𝐶 = {𝜔 ∈ 𝐴: 𝑓(𝜔) ∈ 𝐶}
𝑓 < 𝑎 = {𝜔 ∈ 𝐴: 𝑓(𝜔) < 𝑎}
Si 𝑣 ∈ ℝ𝑑 y 𝐴 ∈ ℝ𝑛×𝑛, sus respectivas transpuestas son 𝑣𝑡 , 𝐴𝑡.
Capitulo 2
Preliminares
En este capitulo se introducen los conceptos básicos que serán utilizados en el
documento. Consideramos inicialmente los espacios de probabilidad y discutimos algunas
desigualdades conocidas como la desigualdad de Chebyshev. Posteriormente enunciamos y
demostramos la ley fuerte de los grandes números en el caso i.i.d. utilizando el lema de
Borel-Cantelli y terminamos con la desigualdad de Hoeffding, todos resultados
fundamentales para el capitulo 4. La mayoría de pruebas son tomadas o adaptadas de
Ash[1] o de Dudley[2].
2.1 Espacios de probabilidad
Definición 2.1: Sea 𝛺 un conjunto. Decimos que la colección de subconjuntos 𝔅 ⊂ 2𝛺 es
una 𝜎-álgebra si:
𝛺 ∈ 𝔅
Si 𝐴 ∈ 𝔅, entonces 𝐴𝑐 ∈ 𝔅
Si (𝐴𝑛)𝑛∈ℕ ∈ 𝔅, entonces ⋃ (𝐴𝑛) ∈ 𝔅𝑛∈ℕ
Con la notación anterior decimos que 𝐴 ∈ 𝔅 es un evento. En el caso especial de que 𝛺 =ℝ, siempre tomamos 𝔅 igual a la 𝜎-algebra de Borel que se define como la 𝜎-algebra más
pequeña que contiene todos los conjuntos abiertos en ℝ. La denotamos por ß.
Definición 2.2: Una función que asigna un número 𝑃(𝐴) para cada conjunto en una
𝜎-algebra 𝔅 es llamada una medida de probabilidad si satisface las siguientes condiciones:
𝑃(𝐴) ≥ 0 , para todo 𝐴 ∈ 𝔅
𝑃(𝛺) = 1
Si 𝐴1, 𝐴2,… son conjuntos disjuntos en 𝔅 entonces 𝑃(𝐴1 ∪ 𝐴2 ∪ … ) = ∑ 𝑃(𝐴𝑛)𝑛∈ℕ
Definición 2.3: Un espacio de probabilidad es una tripla (𝛺, 𝔅, 𝑃) , donde 𝛺 es un
conjunto, 𝔅 es una 𝜎-algebra y 𝑃 es una medida de probabilidad.
Nota 2.3.1 En lo que resta del documento, siempre se entenderá que 𝛺 es un espacio de
probabilidad con una 𝜎- algebra y una medida de probabilidad asociada.
Definición 2.4: Una variable aleatoria en el espacio de probabilidad (𝛺, 𝔅, 𝑃) , es una
función real 𝑋 definida sobre 𝛺, tal que para todo conjunto boreliano 𝐵 ∈ ß, tenemos que
{𝜔: 𝑋(𝜔) ∈ 𝐵} ∈ 𝔅.
Nota 2.4.1: En general tomaremos variables aleatorias con valores vectoriales en ℝ𝑑 y la
definición es análoga sobre los conjuntos borelianos de ℝ𝑑 .
Definición 2.5: Sea 𝑋 una variable aleatoria 𝑋 definida en un espacio de probabilidad
(𝛺, 𝔅, 𝑃), definimos:
El valor esperado de 𝑋 como 𝐸[𝑋] = ∫ 𝑋𝑑𝑃, si la integral existe.
La varianza de 𝑋 como 𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝐸[𝑋])2], si 𝐸[𝑋2] < ∞.
Nota 2.5.1: El valor esperado es un “operador” lineal, en el sentido de que si 𝑋1, … , 𝑋𝑛 son
variables aleatorias entonces 𝐸[𝑋1 + ⋯ + 𝑋𝑛] = 𝐸[𝑋1] + ⋯ + 𝐸[𝑋𝑛]. Esta propiedad será
utilizada repetidamente en el capítulo 3. Asimismo, preserva monotonía en tanto que si
𝑋1 ≤ 𝑋2 ⇒ 𝐸[𝑋1] ≤ 𝐸[𝑋2].
Definición 2.6: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad y sean 𝐴1, … , 𝐴𝑛 ∈ 𝔅 y 𝑋1, … , 𝑋𝑛
variables aleatorias definidas en 𝛺, entonces:
Decimos que 𝐴1, … , 𝐴𝑛 son independientes si, ∀𝑖 ≠ 𝑗 ∈ {1, … , 𝑛}
𝑃(𝐴𝑖 ∩ 𝐴𝑗) = 𝑃(𝐴𝑖)𝑃(𝐴𝑗)
Decimos que 𝑋1, … , 𝑋𝑛 son independientes si para todos los conjuntos borelianos
𝐵1, … , 𝐵𝑛 tenemos que:
𝑃(𝑋1 ∈ 𝐵1, … , 𝑋𝑛 ∈ 𝐵𝑛) = 𝑃(𝑋1 ∈ 𝐵1) ∙ … ∙ 𝑃(𝑋𝑛 ∈ 𝐵𝑛)
Definición 2.7: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad y 𝑋1, … , 𝑋𝑛 variables aleatorias
definidas todas en el mismo espacio de probabilidad 𝛺. Entonces:
La función de distribución de una variable aleatoria 𝑋𝑖 se define por:
𝐹𝑖(𝑥) = 𝑃(𝑋𝑖 ≤ 𝑥)
La función de distribución adjunta de 𝑋1, … , 𝑋𝑛 está definida por:
𝐹12…𝑛(𝑥1, … , 𝑥𝑛) = 𝑃(𝑋1 ≤ 𝑥1, … , 𝑋𝑛 ≤ 𝑥𝑛)
Ejemplo. Para 𝑎 < 𝑏 . La función de distribución de probabilidad 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒[𝑎, 𝑏] se
define por:
𝐹(𝑥) = {
0, 𝑝𝑎𝑟𝑎 𝑥 < 𝑎𝑥 − 𝑎
𝑏 − 𝑎, 𝑝𝑎𝑟𝑎 𝑎 ≤ 𝑥 ≤ 𝑏
1, 𝑝𝑎𝑟𝑎 𝑥 > 𝑏
Nota 2.7.1: En ocasiones escribimos 𝑋 = (𝑋1, … , 𝑋𝑛) una muestra de variables aleatorias,
en ese caso 𝐹𝑋(𝑥) denota la distribución adjunta. Esta notación siempre debe entenderse en
este sentido cuando 𝑋 es escrito como un vector de variables aleatorias.
Teorema 2.8 (desigualdad de Markov): Sea 𝑋 un variable aleatoria y 𝑎 > 0, entonces
𝑃(|𝑋| ≥ 𝑎) ≤𝐸(|𝑋|)
𝑎
Demostración:
Para cualquier evento 𝐴, sea 𝟏𝐴 la función indicadora de 𝐴.
Luego es claro que: 𝑎𝟏|𝑋|≥𝐴 ≤ |𝑋| y por lo tanto, 𝐸[𝑎𝟏|𝑋|≥𝐴] ≤ 𝐸[|𝑋|]. Observando el lado
izquierdo de la desigualdad anterior, vemos que
𝐸[𝑎𝟏|𝑋|≥𝐴] = ∫ 𝑎𝟏|𝑋|≥𝐴 𝑑𝑃 = 𝑎𝑃(|𝑋| ≥ 𝐴)
Luego, 𝑎𝑃(|𝑋| ≥ 𝐴) ≤ 𝐸[|𝑋|], dividiendo por 𝑎 > 0, se obtiene el resultado.
∎
Teorema 2.9 (desigualdad de Chebyshev): Sea 𝑋 una variable aleatoria tal que 𝐸[𝑋] < ∞
y 𝑉𝑎𝑟(𝑋) < ∞. Entonces, para todo 휀 > 0
𝑃(|𝑋 − 𝐸[𝑋]| ≥ 휀) ≤𝑉𝑎𝑟(𝑋)
휀2
Demostración:
Sea 𝑌 = |𝑋 − 𝐸[𝑋]|2 y 𝑎 = 휀2 y aplique la desigualdad de Markov para obtener el
resultado deseado, junto con el hecho de que 𝑃(|𝑋| ≥ 𝑎) = 𝑃(𝑋2 ≥ 𝑎2).
∎
Definición 2.10: Sean 𝑋, 𝑋1, 𝑋2,… variables aleatorias en un espacio de probabilidad 𝛺.
𝑋𝑛 converge casi seguramente (c.s.) a 𝑋 si
𝑃({𝜔: 𝑋𝑛(𝜔) → 𝑋(𝜔)}) = 1
𝑋𝑛 converge en probabilidad a 𝑋, denotado por 𝑋𝑛
𝑝→ 𝑋 si para todo 휀 > 0 ,
lim𝑛→∞
𝑃(|𝑋𝑛 − 𝑋| > 휀) = 0
𝑋𝑛 converge en distribución a 𝑋, denotado por 𝑋𝑛
𝑑→ 𝑋, si para todos los puntos 𝑥
donde 𝐹𝑋(𝑥) es continua, tenemos que
lim𝑛→∞
𝐹𝑛(𝑥) = 𝐹𝑋(𝑥)
Definición 2.11: Sean 𝑋1 y 𝑋2 variables aleatorias y 𝐴, 𝐵 ∈ 𝔉 eventos todos definidos en el
mismo espacio de probabilidad 𝛺.
La probabilidad condicional del evento 𝐵 dado 𝐴:
𝑃(𝐵|𝐴) =𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴) , 𝑠𝑖 𝑃(𝐴) > 0
La función de distribución de probabilidad de 𝑋2 dado 𝑋1 = 𝑥1:
𝐹2(𝑥2|𝑥1) = 𝑃(𝑋2 ≤ 𝑥2|𝑋1 = 𝑥1)
La esperanza condicional de 𝑋2 dada 𝑋1 = 𝑥1
𝐸[𝑋2|𝑋1 = 𝑥1] = ∫ 𝑥2𝑑(𝐹𝑋2|𝑋1=𝑥1(𝑥2))
2.2 Ley fuerte de los grandes números
En esta sección probamos la ley fuerte de los grandes números, primero
presentamos el lema de Borel-Cantelli. Ambos resultados servirán tanto de motivación
como explicación para varios resultados del capítulo 3. Nos basaremos en [9].
Definición 2.12: Sea (𝛺, 𝔅, 𝑃) un espacio de probabilidad. Si 𝐴1, 𝐴2, … es una sucesión de
eventos, definimos:
limsup𝑛
𝐴𝑛 = ⋂ ⋃ 𝐴𝑘
∞
𝑘=𝑛
∞
𝑛=1
liminf𝑛
𝐴𝑛 = ⋃ ⋂ 𝐴𝑘
∞
𝑘=𝑛
∞
𝑛=1
Nota 2.12.1: De la definición es fácil ver que limsup𝑛
𝐴𝑛 = {𝜔: 𝜔 ∈ 𝐴𝑛 𝑝𝑎𝑟𝑎 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜𝑠 𝑛}
liminf𝑛
𝐴𝑛 = {𝜔: 𝜔 ∈ 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒, 𝑖. 𝑒. 𝑡𝑜𝑑𝑜𝑠 𝑠𝑎𝑙𝑣𝑜 𝑢𝑛𝑎 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑓𝑖𝑛𝑖𝑡𝑎}
Teorema 2.13 (Lema de Borel-Cantelli): Si 𝐴1, 𝐴2, … es una sucesión de eventos en un
espacio de probabilidad y si ∑ 𝑃(𝐴𝑛) < ∞∞𝑛=1 , entonces 𝑃 (limsup
𝑛𝐴𝑛) = 0
Demostración: Sea 휀 > 0. Dado que ∑ 𝑃(𝐴𝑛) < ∞∞𝑛=1 entonces existe 𝑁 ∈ ℕ tal que
∑ 𝑃(𝐴𝑘) < 휀
∞
𝑘=𝑁
Luego,
𝑃 (limsup𝑛
𝐴𝑛) ≤ 𝑃 (⋃ 𝐴𝑘
∞
𝑘=𝑁
) (𝑝𝑜𝑟 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛 ∀𝑁)
≤ ∑ 𝑃(𝐴𝑘)
∞
𝑘=𝑁
(𝑝𝑜𝑟 𝜎 𝑠𝑢𝑏𝑎𝑑𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑)
≤ 휀
Dejando que 휀 → 0, obtenemos el resultado.
Lema 2.14: Sea X una variable aleatoria no negativa. Entonces,
∑ 𝑃(𝑋 > 𝑛) ≤ 𝐸[𝑋]
∞
𝑛=1
Demostración:
Sea 𝑘 ∈ ℕ y definimos 𝐴𝑘 ≔ { 𝑘 < 𝑋 ≤ 𝑘 + 1} y sea 𝑌 ≔ ∑ 𝑘𝟏𝐴𝑘𝑘∈ℕ , donde 𝟏𝐴𝑘es la
función indicadora de 𝐴𝑘. Observe que 𝑃(𝑋 > 𝑛) = ∑ 𝑃(𝐴𝑘)𝑘≥𝑛 , luego
∑ 𝑃(𝑋 > 𝑛) = ∑ ∑ 𝑃(𝐴𝑘)𝑘≥𝑛𝑛∈ℕ𝑛∈ℕ = ∑ (𝑘𝑃(𝐴𝑘))𝑘∈ℕ
En vista de que 𝐸[𝑌] = ∑ 𝑘𝑃(𝐴𝑘)𝑘∈ℕ y dado que 𝑘 < 𝑋(𝜔), 𝜔 ∈ 𝐴𝑘 , entonces
𝐸[𝑌] = ∑ ∫ 𝑘𝑑𝑃𝑘+1
𝑘𝑘≥1 ≤ ∑ ∫ 𝑋(𝜔)𝑑𝑃𝑘+1
𝑘𝑘≥1 = 𝐸[𝑋]
Obtenemos el resultado.
Teorema 2.14 (Ley Fuerte de los Grandes Números): Sea (𝛺, 𝔅, 𝑃) un espacio de
probabilidad y sean 𝑋1, 𝑋2, … variables aleatorias independientes e idénticamente
distribuidas (i.i.d.) en 𝛺 con 𝐸[𝑋1] = 𝐸[𝑋2] = ⋯ = 𝜇 < ∞ 𝑦 𝐸[|𝑋1|] < ∞. Si denotamos por 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛, entonces:
𝑆𝑛
𝑛→ 𝜇 𝑐. 𝑠.
Demostración:
Primero demostraremos el resultado para 𝑋𝑖 no negativas y después daremos un argumento
para 𝑋𝑖 generales. Así que, por ahora, suponga 𝑋𝑖 ≥ 0.
Definimos 𝑌𝑖 =∧ (𝑋𝑖 , 𝑖) = min (𝑋𝑖, 𝑖) y sean 𝑘𝑛 = ⌈𝛼𝑛⌉ el entero superior más cercano a
𝛼𝑛 donde 𝛼 > 1. Probaremos el resultado indexado por 𝑘𝑛 para facilitar los cálculos y
finalmente lo generalizamos para obtener la convergencia casi segura.
Por la desigualdad de Chebyshev obtenemos que:
∑ 𝑃 {|𝑆𝑘𝑛
− 𝐸[𝑆𝑘𝑛]
𝑘𝑛
| > 휀} ≤ 𝑐 ∑𝑉𝑎𝑟 𝑆𝑘𝑛
𝑘𝑛2
∞
𝑛=1
∞
𝑛=1
= 𝑐 ∑1
𝑘𝑛2
∑ 𝑉𝑎𝑟 𝑌𝑖
𝑘𝑛
𝑖=1
∞
𝑛=1
≤ 𝑐 ∑𝐸[𝑌𝑖
2]
𝑖2
∞
𝑖=1
= 𝑐 ∑1
𝑖2∫ 𝑥2𝑑𝐹(𝑥)
𝑖
0
∞
𝑖=1
= 𝑐 ∑1
𝑖2∑ ∫ 𝑥2𝑑𝐹(𝑥)
𝑘+1
𝑘
𝑖−1
𝑘=0
∞
𝑖=1
≤ 𝑐 ∑1
𝑘 + 1∫ 𝑥2𝑑𝐹(𝑥)
𝑘+1
𝑘
∞
𝑘=0
≤ 𝑐 ∑ ∫ 𝑥𝑑𝐹(𝑥)𝑘+1
𝑘
∞
𝑘=0
= 𝑐𝐸[𝑋1] = 𝑐𝜇 < ∞
donde 𝐹(𝑥) es la distribución de 𝑋1 y 𝑐 es una constante positiva sin importancia que
podemos manipular. También tenemos que:
𝐸[𝑋1] = lim𝑛→∞
∫ 𝑥𝑑𝐹(𝑥) = lim𝑛→∞
𝐸[𝑌𝑛] = lim𝑛→∞
𝐸[𝑆𝑘𝑛]
𝑘𝑛
𝑛
0
Por lo tanto, por el lema de Borel-Cantelli:
lim𝑛→∞
𝑆𝑘𝑛
𝑘𝑛= 𝐸[𝑋1] 𝑐. 𝑠.
También por el lema 2.13,
∑ 𝑃{𝑌𝑛 ≠ 𝑋𝑛} = ∑ 𝑃{𝑋𝑛 > 𝑛} ≤ 𝐸[𝑋1] < ∞
∞
𝑛=1
∞
𝑛=1
Por lo tanto, por el lema de Borel-Cantelli solo ocurre un número finito de veces que 𝑋𝑛 ≠
𝑌𝑛. Esto es: lim𝑛→∞
𝑆𝑛
𝑛= 𝐸[𝑋1]
Ahora bien, por la monotonía de 𝑆𝑛, se concluye que: 1
𝛼(𝐸[𝑋1]) ≤ liminf
𝑛
𝑆𝑛
𝑛≤ limsup
𝑛
𝑆𝑛
𝑛≤ 𝛼(𝐸[𝑋1]) 𝑐. 𝑠.
Como este resultado se tiene para todo 𝛼 > 1, concluimos el teorema.
Ahora bien, para 𝑋𝑛 en general, consideramos 𝑋𝑖+ ≔ max {0, 𝑋𝑖} y 𝑋𝑖
− ≔ −min{0, 𝑋𝑖} .
Dado que |𝑋𝑖| tiene valor esperado finito entonces |𝑋𝑖+| y |𝑋𝑖
−| también. Por otra parte, se
sabe que las funciones 𝑚𝑎𝑥 y 𝑚𝑖𝑛 también son variables aleatorias, luego 𝑋𝑖+, 𝑋𝑖
− lo son y
además son independientes. De manera que se distribuyen i.i.d. y cumplen las hipótesis del
teorema. De las ecuación 𝑋𝑖 = 𝑋𝑖+ − 𝑋𝑖
− se sigue que :
𝐸[𝑋𝑖] = 𝐸[𝑋𝑖+] − 𝐸[𝑋𝑖
−] 𝑆𝑛 = 𝑆𝑛
+ − 𝑆𝑛−
Por lo tanto, demostrar que
𝑆𝑛+
𝑛→ 𝐸[𝑋1
+] 𝑐. 𝑠.
Implica la conclusión del teorema y por ello podíamos tomar sin pérdida de generalidad
𝑋𝑛 ≥ 0.
∎
2.3 Desigualdad de Hoeffding
La desigualdad de Hoeffding, como veremos más adelante en el capitulo 4, es una
de las herramientas más importantes para demostrar generalizaciones del teorema de
Glivenko- Cantelli. Es un resultado cuya mayor fortaleza se encuentra en que no depende la
distribución de las observaciones {𝑥1, 𝑥2, … 𝑥𝑛}, aunque si requiere que el soporte de las
observaciones sea acotado.
Lema 2.15: Sea 𝑋 una variable aleatoria con 𝐸[𝑋] = 0 y 𝑋 ∈ [𝑎, 𝑏] con probabilidad uno.
Entonces, para todo 𝜆 > 0, 𝐸(exp (𝜆𝑋)) ≤ exp (𝜆2(𝑏 − 𝑎)2/8)
Demostración:
Por la convexidad de la función exponencial,
𝑒𝑥𝑝(𝜆𝑥) ≤𝑥 − 𝑎
𝑏 − 𝑎exp(𝜆𝑏 ) +
𝑏 − 𝑥
𝑏 − 𝑎exp(𝜆𝑎) , 𝑎 ≤ 𝑥 ≤ 𝑏
Por lo tanto,
𝐸[𝑒𝑥𝑝(𝜆𝑋)] ≤ 𝐸 [𝑋 − 𝑎
𝑏 − 𝑎] exp(𝜆𝑏) + 𝐸[
𝑏 − 𝑋
𝑏 − 𝑎]exp (𝜆𝑎)
=𝑏
𝑏 − 𝑎exp(𝜆𝑎) −
𝑎
𝑏 − 𝑎exp(𝜆𝑏), (𝐸[𝑋] = 0)
= (1 − 휃 + 휃 exp(𝜆(𝑏 − 𝑎))) exp(−θ𝜆(𝑏 − 𝑎)) , 휃 =−𝑎
𝑏 − 𝑎
Ahora, defina 𝑢 = 𝜆(𝑏 − 𝑎) y definimos la función 𝜙(𝑢) = −휃𝑢 + log(1 − 휃 + 휃𝑒𝑢)
Tenemos entonces que
𝐸[𝑒𝑥𝑝(𝜆𝑋)] ≤ 𝑒𝑥𝑝(𝜙(𝑢))
Ahora bien, para minimizar la cota superior vamos a expresar 𝜙(𝑢) en una serie de Taylor
con residuo:
𝜙(𝑢) = 𝜙(0) + 𝑢𝜙′(0) +𝑢2
2𝜙′′(𝑣), 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛 𝑣 ∈ [0, 𝑢]
Luego,
𝜙′(𝑢) = −휃 + 휃𝑒𝑢
1 − 휃 + 휃𝑒𝑢⇒ 𝜙′(0) = 0
𝜙′′(𝑢) = 휃𝑒𝑢
1 − 휃 + 휃𝑒𝑢−
(휃𝑒𝑢)2
(1 − 휃 + 휃𝑒𝑢)2
=휃𝑒𝑢
1 − 휃 + 휃𝑒𝑢(1 −
휃𝑒𝑢
1 − 휃 + 휃𝑒𝑢)
= 𝜌(1 − 𝜌)
Ahora bien, 𝜙′′(𝑢) es maximizado cuando
𝜌 = 휃𝑒𝑢
1 − 휃 + 휃𝑒𝑢=
1
2⇒ 𝜙′′(𝑢) ≤
1
4
Por lo tanto,
𝜙(𝑢) ≤𝑢2
8=
𝜆2(𝑏 − 𝑎)2
8
Luego,
𝐸[exp(𝜆𝑋)] ≤ exp (𝜆2(𝑏 − 𝑎)2
8)
∎
Lema 2.16 (Desigualdad de Hoeffding): Sean 𝑋1, … , 𝑋𝑛 variables aleatorias
independientes tales que 𝑋𝑖 ∈ [𝑎𝑖, 𝑏𝑖] con probabilidad uno. Entonces, tenemos que:
𝑃(|𝑆𝑛 − 𝐸[𝑆𝑛]| ≥ 휂) ≤ 2𝑒𝑥𝑝(−2휂2/ ∑(𝑏𝑖 − 𝑎𝑖)2
𝑛
𝑖=1
)
Demostración:
Para 𝜆, 휂 ≥ 0, la desigualdad de Markov, la independencia de los 𝑋 𝑖 y por lema 2.15
tenemos que:
𝑃(𝑆𝑛 − 𝐸[𝑆𝑛] ≥ 휂) = 𝑃(𝑒𝜆(𝑆𝑛−𝐸[𝑆𝑛]) ≥ 𝑒𝜆𝜂) ≤ 𝑒−𝜆𝜂 𝐸[𝑒𝜆(𝑆𝑛−𝐸[𝑆𝑛]) ]
= 𝑒−𝜆𝜂 ∏ 𝐸[𝑒𝜆(𝑋𝑖−𝐸[𝑋𝑖])]
𝑛
𝑖=1
≤ 𝑒−𝜆𝜂 ∏ 𝑒𝜆2(𝑏𝑖−𝑎𝑖)2
8
𝑛
𝑖=1
= exp (−𝜆휂 + ∑𝜆2(𝑏𝑖−𝑎𝑖)2
8 𝑛
𝑖=1 )
Para obtener la mejor cota posible, encontramos el mínimo del lado derecho de la
desigualdad como una función de 𝜆. Definimos 𝑔: ℝ+ → ℝ tal que
𝑔(𝜆) = exp (−𝜆휂 + ∑𝜆2(𝑏𝑖 − 𝑎𝑖)2
8
𝑛
𝑖=1
)
Note que 𝑔 es una función cuadrática y alcanza su mínimo en 𝜆 = 4𝜂
∑(𝑏𝑖−𝑎𝑖)2. Reemplazando
este resultado, obtenemos la cota deseada. De forma análoga se prueba la cota para 휂 < 0.
∎
Capitulo 3
En el capitulo 2 se demostró la Ley Fuerte de los Grandes Números en el caso i.i.d.
que es un resultado de convergencia empírico del valor promedio de una sucesión de
variables aleatorias. Este capítulo se enfoca en definir los procesos empíricos. Presentamos
el teorema de Glivenko-Cantelli como el resultado clásico de la materia, cuya demostración
aguardará hasta el capítulo 4. En la sección 3.2 definimos los conjuntos de nivel y
demostramos un resultado de consistencia de la estimación empírica de dichos conjuntos.
Las demostraciones son tomadas de Di Bernardino[6].
Distribución acumulada empírica
3.1 Procesos empíricos
Si 𝑋1, … , 𝑋𝑛 son variables aleatorias i.i.d. con función de distribución acumulada
(f.d.a.) 𝐹 entonces la función de distribución empírica acumulada (f.d.e.a.) 𝐹𝑛 es definida
como
𝐹𝑛(𝑥) =1
𝑛∑ 𝟏(−∞,𝑥](𝑋𝑖), 𝑥 ∈ ℝ.
𝑛
𝑖=1
En otras palabras, para cada 𝑥 ∈ ℝ, la cantidad 𝑛𝐹𝑛 simplemente cuenta el número de 𝑋𝑖′s
que son menores o iguales a 𝑥 . La f.d.e.a. es un estimador natural insesgado (i.e.,
𝐸[𝐹𝑛(𝑥)] = 𝐹(𝑥) para todo 𝑥 ∈ ℝ) de 𝐹.
Por la ley fuerte de los grandes números, para cada 𝑥 ∈ ℝ, podemos decir que
𝐹𝑛(𝑥) → 𝐹(𝑥) 𝑐. 𝑠. El resultado clásico de la teoría de procesos empíricos generaliza la ley fuerte de los
grandes números para 𝑥 simultáneamente:
Teorema de Glivenko-Cantelli (Glivenko (1933), Cantelli (1933) ) ‖𝐹𝑛 − 𝐹‖∞ = sup
𝑥∈ℝ|𝐹𝑛(𝑥) − 𝐹(𝑥)| → 0 𝑐. 𝑠.
En el capítulo 4 demostraremos este resultado y lo generalizaremos no solo sobre los
números reales sino sobre conjuntos más interesantes.
La necesidad de generalizaciones del teorema de Glivenko-Cantelli se hizo evidente en las
décadas de 1950 y 1960. En particular, fue evidente que cuando las observaciones toman
valores en un espacio vectorial más general 𝝌 (como por ejemplo ℝ𝑑 o algún espacio de
funciones), entonces la f.d.e.a no es un estimador tan natural. Parece mucho más natural
considerar la medida empírica 𝑃𝑛 indexada por alguna clase de funciones con valores reales
ℱ definidas sobre 𝝌, que de ahora en adelante denotará un espacio vectorial cualquiera.
Suponga ahora que 𝑋1, … , 𝑋𝑛 son i.i.d. con distribución 𝑃 sobre 𝝌 . Entonces la medida
empírica 𝑃𝑛 está definida por
𝑃𝑛 ≔1
𝑛∑ 𝛿𝑋𝑖
𝑛
𝑖=1
,
donde 𝛿𝑥 denota la medida de Dirac en 𝑥 . Para cada 𝑛 ≥ 1 , 𝑃𝑛 denota la medida de
probabilidad discreta que pone igual masa 1/𝑛 en cada uno de los 𝑛 puntos 𝑋1, … , 𝑋𝑛 . Así,
para cada conjunto de Borel 𝐴 ⊂ 𝝌,
𝑃𝑛(𝐴) ≔1
𝑛∑ 𝟏𝐴(𝑋𝑖) =
|{𝑖 ≤ 𝑛: 𝑋𝑖 ∈ 𝐴 }|
𝑛
𝑛
𝑖=1
Para una función con valores reales 𝑓 definida sobre 𝝌, escribimos
𝑃𝑛(𝑓) ≔ ∫ 𝑓 𝑑𝑃𝑛 =1
𝑛∑ 𝑓(𝑋𝑖)
𝑛
𝑖=1
Si ℱ es una colección de funciones reales definidas sobre 𝝌, entonces {𝑃𝑛(𝑓): 𝑓 ∈ ℱ} es la
medida empírica indexada por ℱ. La meta de la teoría empírica es estudiar las propiedades
de aproximación de 𝑃𝑓 por 𝑃𝑛𝑓 , uniformemente en ℱ . Principalmente, estaremos
concentrados en estimar, en probabilidad, la cantidad:
‖𝑃𝑛 − 𝑃‖ℱ ≔ sup𝑓∈ℱ
|𝑃𝑛𝑓 − 𝑃𝑓|
3.2 Estimación de conjuntos de nivel
Denotamos por ℱ el conjunto de funciones de distribución continuas 𝐹: ℝ𝑑 → [0,1] y
consideramos por 𝑿, una observación aleatoria definida sobre ℝ𝑑, con 𝐹𝑿 ∈ ℱ la función de
distribución acumulada de 𝑿. Estamos interesados en estimar los conjuntos de nivel de esta
función de distribución acumulada:
Definición 3.1: El conjunto de nivel 𝛼 de la distribución 𝐹 se define como
𝓛(𝛼) = {𝑥 ∈ ℝ𝑑: 𝐹𝑿(𝑥) > 𝛼} , 𝛼 ∈ (0,1)
Adoptemos la notación {𝐹𝑿 = 𝛼} = {𝑥 ∈ ℝ𝑑: 𝐹𝑿(𝑥) = 𝛼}
Y para 𝑇 > 0, la versión truncada
ℒ(𝛼)𝑇 = {𝑥 ∈ [−𝑇, 𝑇]𝑑: 𝐹𝑋(𝑥) ≥ 𝛼}
{𝐹𝑋 = 𝛼}𝑇 = {𝑥 ∈ [−𝑇, 𝑇]𝑑: 𝐹𝑋(𝑥) = 𝛼}
Estas versiones truncadas son necesarias para tratar con la no compacidad de los conjuntos
de nivel. Además, para 𝐴 ∈ ℝ𝑑 denotamos por 𝜕𝐴 su frontera.
En el espacio métrico (ℝ𝑑 , 𝑑) donde 𝑑 es la distancia Euclídea, nosotros denotamos por
𝐵(𝑥, 𝜌) la bola cerrada centrada en 𝑥 con radio positivo 𝜌.
Sea 𝐵(𝑆, 𝜌) = ∪𝑥∈𝑆 𝐵(𝑥, 𝜌), con 𝑆 un conjunto cerrado de ℝ𝑑.
Definición 3.2: Para 𝑡 > 0, 휁 > 0 y 𝛼 ∈ (0,1). Definimos el engordamiento de 𝐹𝑋:
𝐸 = 𝐵({𝑥 ∈ ℝ𝑑: |𝐹𝑋(𝑥) − 𝛼| ≤ 𝑡} , 휁)
Por comodidad y brevedad en la notación vamos a demostrar resultados válidos para ℝ2.
Estos resultados se pueden generalizar a ℝ𝑑 y las demostraciones se acompañarán de notas
sobre cómo generalizarlos.
Para una función de distribución doblemente diferenciable 𝐹𝑋, definimos
𝑚∇ = inf𝑥∈𝐸
‖(∇𝐹𝑋)𝑥‖
𝑀𝐻 = sup𝑥∈𝐸
‖(𝐻𝐹𝑋)𝑥‖
donde (∇𝐹𝑋)𝑥 es el vector gradiente de 𝐹𝑋 evaluado en 𝑥 y ‖(∇𝐹𝑋)𝑥‖ es la norma euclídea, (𝐻𝐹𝑋)𝑥 es la matriz Hessiana evaluada en 𝑥 y ‖(𝐻𝐹𝑋)𝑥‖ es la norma matricial inducida por
la norma Euclídea.
Vamos a estudiar las propiedades de consistencia de un estimador ℒ𝑛(𝛼)𝑇 de ℒ(𝛼)𝑇.
Distancia de Hausdorff
La distancia de Hausdorff corresponde a una noción intuitiva de proximidad física entre
conjuntos. Recordemos que si 𝐴1y 𝐴2 son conjuntos compactos en (ℝ𝑑, 𝑑 ), la distancia de
Hausdorff entre 𝐴1 y 𝐴2 está definida por:
𝑑𝐻(𝐴1, 𝐴2) = inf{𝜌 > 0: 𝐴1 ⊂ 𝐵(𝐴2, 𝜌), 𝐴2 ⊂ 𝐵(𝐴1, 𝜌)}
La expresión de arriba está bien definida incluso cuando 𝐴1 y 𝐴2 son solo conjuntos
cerrados, pero en este caso el valor de 𝑑𝐻(𝐴1, 𝐴2) podría ser infinito. A fin de evitar estas
situaciones nos restringimos al hipercubo [−𝑇, 𝑇]𝑑 es decir, las versiones truncadas.
A continuación presentamos una hipótesis necesaria y que permite acotar adecuadamente
los resultados del teorema 3.2. Esta hipótesis se logra bajo condiciones no tan restrictivas
sobre 𝐹:
Hipótesis H
H: Existe 𝛾 > 0 y 𝐴 > 0 tales que, si |𝑡 − 𝑐| ≤ 𝛾 entonces para todo 𝑇 > 0 tal que {𝐹𝑋 = 𝑐}𝑇 ≠ ∅,
𝑑𝐻({𝐹𝑋 = 𝑐}𝑇 , {𝐹𝑋 = 𝑡}𝑇) ≤ 𝐴|𝑡 − 𝑐| º
Proposición: Sea 𝑐 ∈ (0,1) . Sea 𝐹 doblemente diferenciable sobre ℝ2 . Suponga que
existen 𝑟 > 0, 휁 > 0 tales que 𝑚∇ > 0 y 𝑀𝐻 < ∞. Entonces, F satisface la hipótesis H con
𝐴 =2
𝑚∇.
Demostración:
Tome 𝑇 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, {𝐹 = 𝑡}𝑇 ≠ ∅ (sabemos que tal 𝑡 existe por las
hipótesis en el enunciado).
Sea 𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| ≤ 𝑟}. Defina para 𝜆 ∈ ℝ
𝑦𝜆 ≡ 𝑦𝜆,𝑥 = 𝑥 + 𝜆(∇𝐹)𝑥
‖(∇𝐹)𝑥‖
de forma que ‖𝑦𝜆 − 𝑥‖ = |𝜆|. De las propiedades de diferenciabilidad de 𝐹 y usando la
formula de Taylor tenemos para |𝜆| < 휁
𝐹(𝑦𝜆) = 𝐹(𝑥) + (∇𝐹)𝑥𝑡 (𝑦𝜆 − 𝑥) +
1
2(𝑦𝜆 − 𝑥)𝑡(𝐻𝐹)𝑣(𝑦𝜆 − 𝑥)
con 𝑣 un punto en el segmento de línea entre 𝑥 y 𝑦𝜆 . Luego,
𝐹(𝑦𝜆) = 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +𝜆2
2‖(∇𝐹)𝑥‖2(∇𝐹)𝑥
𝑡 (𝐻𝐹)𝑣(∇𝐹)𝑥
Por la desigualdad de Cauchy-Schwarz deducimos
𝐹(𝑦𝜆) ≥ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2
2‖(∇𝐹)𝑥‖2‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖
y
𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +𝜆2
2‖(∇𝐹)𝑥‖2‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖
Dado que ‖(𝐻𝐹)𝑣(∇𝐹)𝑥‖ ≤ ‖(𝐻𝐹)𝑣‖‖(∇𝐹)𝑥‖, tenemos entonces que
𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2
2‖(𝐻𝐹)𝑣‖ ≤ 𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +
𝜆2
2‖(𝐻𝐹)𝑣‖
Dado que 𝑣 ∈ 𝐸 y 𝑀𝐻 < ∞ obtenemos:
𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2
2𝑀𝐻 ≤ 𝐹(𝑦𝜆) ≤ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ +
𝜆2
2𝑀𝐻
Para 0 < 𝜆 < 휁, tenemos del lado izquierdo de la anterior desigualdad que:
𝐹(𝑦𝜆) ≥ 𝐹(𝑥) + 𝜆‖(∇𝐹)𝑥‖ −𝜆2
2𝑀𝐻 ≥ 𝐹(𝑥) + 𝜆𝑚∇ −
𝜆2
2𝑀𝐻
Asumimos ahora que 𝑀𝐻 > 0 (el caso 𝑀𝐻 = 0 es trivial)
Para 𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| ≤ 𝑟} y 0 < 𝜆 < min {휁, 𝑚∇
𝑀𝐻⁄ } obtenemos
𝐹(𝑦𝜆) ≥ 𝐹(𝑥) +𝜆
2𝑚∇
Similarmente para el lado derecho obtenemos que
𝐹(𝑦−𝜆) ≤ 𝐹(𝑥) −𝜆
2𝑚∇
Definimos
𝛾 = min {𝑚𝛻
4𝑚𝑖𝑛 {휁,
𝑚𝛻
𝑀𝐻} , 𝑟 } > 0
Suponga que 𝑡 = 𝑐 + 휀, 0 < 휀 ≤ 𝛾. Sea 𝑥 ∈ [−𝑇, 𝑇]2 tal que 𝐹(𝑥) = 𝑡 = 𝑐 + 휀 entonces
𝑥 ∈ {𝑧 ∈ [−𝑇, 𝑇]2: |𝐹(𝑧) − 𝑐| < 휀} Tome ahora,
0 < 𝜆 =2휀
𝑚∇< min {휁,
𝑚𝛻
𝑀𝐻}
Obtenemos por las desigualdades anteriores que
𝐹(𝑦−𝜆) ≤ 𝐹(𝑥) −𝜆
2𝑚∇ = 𝑐 + 휀 − 휀 = 𝑐
De la continuidad de 𝐹, nosotros deducimos que existe 𝑦 entre 𝑥 y 𝑦−𝜆 tal que 𝐹(𝑦) = 𝑐 y
tenemos:
‖𝑥 − 𝑦‖ ≤ ‖𝑥 − 𝑦−𝜆‖ = |𝜆| =2휀
𝑚∇=
2
𝑚∇|𝑡 − 𝑐|
Así que hemos probado que:
sup𝑥∈{𝐹=𝑡}𝑇
𝑑(𝑥, {𝐹 = 𝑐}𝑇) ≤2
𝑚∇|𝑡 − 𝑐|
Similarmente, tome 𝑥 ∈ [−𝑇, 𝑇]2 tal que 𝐹(𝑥) = 𝑐 y use la desigualdad con menor igual
para obtener
sup𝑥∈{𝐹=𝑐}𝑇
𝑑(𝑥, {𝐹 = 𝑡}𝑇) ≤2
𝑚∇|𝑡 − 𝑐|
La prueba en el caso 𝑡 < 𝑐 es completamente análoga. Por lo tanto, 𝐹 satisface la
suposición H con 𝐴 =2
𝑚∇.
Nota 3.2.1: Para la generalización es necesario considerar 𝐹 d-diferenciable (existen y son
continuas todas las derivadas parciales hasta el grado 𝑑) y usar la formula de Taylor en este
caso. El valor 𝑀𝐻 debería reemplazarse por sup𝑥∈𝐸
‖(𝐷𝑑𝐹𝑋)𝑥‖ donde 𝐷𝑑 es la matriz simétrica
de derivadas parciales que acompaña el último término del teorema y la cota pasaría a ser
𝑑!/𝑚∇ . Lo cual nos indica que hay un empeoramiento de los resultados cuando la
dimensión tiende a crecer, por lo cual sería necesario tomar muestras cada vez más grandes.
De ahora en adelante permítanos denotar para 𝑇 > 0 ‖𝐹 − 𝐹𝑛‖∞
𝑇 = sup𝑥∈[𝑇,𝑇]𝑑
|𝐹(𝑥) − 𝐹𝑛(𝑥)|
Teorema 3.2: Sea 𝑐 ∈ (0,1). Sea 𝐹 ∈ ℱ doblemente diferenciable sobre ℝ2. Suponga que
existen 𝑟 > 0, 휁 > 0 tales que 𝑚∇ > 0 y 𝑀𝐻 < ∞. Sea 𝑇1 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤𝑟, 𝜕ℒ(𝑡)𝑇1 ≠ ∅. Sea (𝑇𝑛)𝑛∈ℕ una sucesión creciente de valores positivos. Suponga que,
para cada 𝑛 y para casi todas las muestras de tamaño 𝑛, 𝐹𝑛 es una función continua casi
seguramente y que
‖𝐹 − 𝐹𝑛‖∞ → 0, 𝑐. 𝑠. Entonces,
𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞), 𝑐. 𝑠.
Demostración:
De las hipótesis podemos asumir que 𝑇1 > 0 tal que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇1 ≠ ∅.
Entonces para 𝑛, para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇𝑛 es un conjunto no vacío (y compacto)
sobre ℝ2. En cada [– 𝑇𝑛 , 𝑇𝑛]2, de la proposición, la suposición H se satisface con
𝛾 = min {𝑚𝛻
4𝑚𝑖𝑛 {휁,
𝑚𝛻
𝑀𝐻} , 𝑟} > 0
y 𝐴 = 2𝑚∇⁄ .
Primero tenemos que encontrar una cota para sup𝑥∈𝜕ℒ(𝑐)𝑇𝑛
𝑑(𝑥, 𝜕ℒ𝑛(𝑐)𝑇𝑛).
Tome 𝑥 ∈ 𝜕ℒ(𝑐)𝑇𝑛 y defina 휀𝑛 = 2‖𝐹 − 𝐹𝑛‖∞𝑇𝑛. Usando ‖𝐹 − 𝐹𝑛‖∞ → 0, casi seguramente,
𝑛 → ∞. Por lo tanto, 휀𝑛 → 0, 𝑐. 𝑠. para 𝑛 → ∞. Así que con probabilidad uno existe 𝑛0 tal
que para todo 𝑛 ≥ 𝑛0, 휀𝑛 ≤ 𝛾. Dado que para todo 𝑡: |𝑡 − 𝑐| ≤ 𝑟, 𝜕ℒ(𝑡)𝑇𝑛 ≠ ∅ de la suposición H, existen
𝑢𝑛 ≡ 𝑢𝑥𝑛
y
𝑙𝑛 ≡ 𝑙𝑥𝑛
en [−𝑇𝑛 , 𝑇𝑛]2 tales que
𝐹(𝑢𝑛) = 𝑐 + 휀𝑛; 𝑑(𝑥, 𝑢𝑛) ≤ 𝐴휀𝑛
𝐹(𝑙𝑛) = 𝑐 − 휀𝑛; 𝑑(𝑥, 𝑙𝑛) ≤ 𝐴휀𝑛
Suponga ahora que ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 > 0 (el otro caso es trivial). En este caso,
𝐹𝑛(𝑢𝑛) = 𝑐 + 휀𝑛 + 𝐹𝑛(𝑢𝑛) − 𝐹(𝑢𝑛) ≥ 𝑐 + 휀𝑛 − ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛
= 𝑐 + 2‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 − ‖𝐹 − 𝐹𝑛‖∞
𝑇𝑛 > 𝑐
y en una manera similar podemos probar que 𝐹𝑛(𝑢𝑛) < 𝑐. En tanto, 𝐹𝑛(𝑙𝑛) < 𝑐 y 𝐹𝑛(𝑢𝑛) > 𝑐, con 𝑢𝑛 y 𝑙𝑛 en [−𝑇𝑛 , 𝑇𝑛]2, entonces existe 𝑧𝑛 ∈𝜕ℒ𝑛 (𝑐)𝑇𝑛 ∩ 𝐵(𝑢𝑛 , 𝑑(𝑢𝑛 , 𝑙𝑛)) con
𝑑(𝑧𝑛 , 𝑥) ≤ 𝑑(𝑧𝑛 , 𝑢𝑛) + 𝑑(𝑢𝑛 , 𝑥) ≤ 𝑑(𝑢𝑛 , 𝑙𝑛) + 𝑑(𝑢𝑛 , 𝑥)
≤ 𝑑(𝑢𝑛 , 𝑥) + 𝑑(𝑥, 𝑙𝑛) + 𝑑(𝑢𝑛 , 𝑥)
≤ 3𝐴휀𝑛 = 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛
Por lo tanto, para 𝑛 ≥ 𝑛0
sup𝑥∈𝜕ℒ(𝑐)𝑇𝑛
𝑑(𝑥, 𝜕ℒ𝑛(𝑐)𝑇𝑛 ) ≤ 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛
Ahora acotemos sup𝑥∈𝜕ℒ𝑛(𝑐)𝑇𝑛
𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛).
Tome 𝑥 ∈ 𝜕ℒ𝑛(𝑐)𝑇𝑛. De la continuidad casi segura de 𝐹𝑛 nosotros obtenemos 𝐹𝑛(𝑥) =𝑐, casi seguramente, entonces
|𝐹(𝑥) − 𝑐| ≤ |𝐹(𝑥) − 𝐹𝑛(𝑥)| ≤ ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛 ≤ 휀𝑛 , 𝑐. 𝑠.
Recuerde que para todo 𝑛 ≥ 𝑛0, 휀𝑛 ≤ 𝛾, casi segura. Entonces, de la suposición H
𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛) ≤ 𝐴|𝐹(𝑥) − 𝑐| ≤ 𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛.
Podemos concluir que con probabilidad uno, para 𝑛 ≥ 𝑛0
sup𝑥∈𝜕ℒ𝑛(𝑐)𝑇𝑛
𝑑(𝑥, 𝜕ℒ(𝑐)𝑇𝑛) ≤ 𝐴 ‖𝐹 − 𝐹𝑛‖∞𝑇𝑛
Obtenemos para 𝑛 ≥ 𝑛0, 𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛 , 𝜕ℒ𝑛(𝑐)𝑇𝑛) ≤ 6𝐴‖𝐹 − 𝐹𝑛‖∞𝑇𝑛, entonces
𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞𝑇𝑛), 𝑐. 𝑠.
Obtenemos el resultado.
Nota 3.2.2: De nuevo, en el caso general debemos tomar 𝐹 d-diferenciable y realizar los
cambios mencionados en la nota 3.2.1.En realidad los cambios esencialmente se dan para
poder satisfacer la hipótesis H. En este caso, la cota tiene un empeoramiento considerable si
la dimensión es muy alta, pues 𝐴 = 𝑘!/𝑚∇.
Nota 3.2.3: En cualquier caso, deseamos resaltar la importancia y utilidad del Teorema
3.2. Dado que el teorema es válido para funciones casi continuas, y por el teorema de
Glivenko-Cantelli, tenemos que se cumplen las hipótesis para la distribución empírica
acumulada! Nótese que esto nos indica la proximidad geométrica entre los conjuntos de
nivel de la distribución real de los datos y los conjuntos de nivel de la distribución
empírica. Si fijamos 𝑇𝑛 = 𝑅𝑛 , donde 𝑅𝑛 es el radio de la bola que contiene todas las
muestras {𝑥1, … , 𝑥𝑛}, entonces tenemos que
𝑑𝐻(𝜕ℒ(𝑐)𝑇𝑛, 𝜕ℒ𝑛(𝑐)𝑇𝑛) = 𝑂(‖𝐹 − 𝐹𝑛‖∞𝑇𝑛)
𝐹𝑛 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑚𝑝𝑖𝑟𝑖𝑐𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎
En el capítulo 4 calcularemos la tasa de convergencia de la f.d.e.a.
Capitulo 4
Convergencia uniforme de medidas empíricas
La ley fuerte de los grandes números establece convergencia puntual de la medida
empírica con probabilidad uno. Sin embargo, el teorema de Glivenko-Cantelli asegura aún
más: la convergencia es uniforme. Este teorema es el ejemplo más sencillo de una
generalización uniforme de la ley fuerte de grandes números sobre la colección de
intervalos de los números reales. A lo largo de esta sección presentaremos generalizaciones
uniformes de la ley fuerte sobre clases de conjuntos más interesante, incluyendo clases de
funciones. En la sección 4.1 demostramos el teorema de Glivenko-Cantelli. En la sección
4.2, señalamos como generalizar este resultado a clases de conjuntos con una propiedad
especial: discriminación polinomial. Finalmente en la sección 4.3 damos la tasa de
convergencia de estas generalizaciones. En particular, obtenemos la tasa de convergencia
para el caso de la distribución empírica acumulada. Las demostraciones las tomamos de
Pollard [7].
4.1 Teorema de Glivenko-Cantelli
Teorema 4.1 (Glivenko- Cantelli):
Nos dice que la convergencia no es solo puntual sino uniforme sobre los intervalos, dada
una muestra 𝑋1, … , 𝑋𝑛 independiente e idénticamente distribuida:
sup𝑡
|𝐹𝑛(𝑡) − 𝐹(𝑡)| → 0, 𝑛 → ∞ casi seguramente
= sup𝑓𝑡∈𝔉
|𝑃𝑛(𝑓𝑡) − 𝑃(𝑓𝑡)| → 0 , 𝔉: = {𝑓𝑡 = 𝟏(−∞,𝑡] ∶ 𝑡 ∈ ℝ}
= sup𝐴∈𝔗
|𝑃𝑛(𝐴) − 𝑃(𝐴)| → 0 , 𝔗 ≔ { (−∞, 𝑡]: 𝑡 ∈ ℝ}
Ninguna de las igualdades añade información adicional, sin embargo sugieren que el
supremo puede ser tomado sobre una clase de funciones o sobre una clase de conjuntos y
nos indica el paso subsiguiente en nuestras generalizaciones.
A continuación damos una demostración del teorema de Glivenko-Cantelli basada en una
idea de combinatoria y que es fácilmente generalizable a clases de conjuntos y/o clase de
funciones:
En vez de comparar 𝑃𝑛 con 𝑃 , lo compararemos con una muestra independiente de sí
mismo que llamaremos 𝑃𝑛′ . La medida 𝑃𝑛 − 𝑃𝑛
′ estará determinada por 2𝑛 puntos
aleatorios. Con ideas de combinatoria es posible establecer una cota para ‖𝑃𝑛 − 𝑃𝑛′ ‖ y con
las desigualdades de simetrización que veremos más adelante, se puede obtener una cota
para ‖𝑃𝑛 − 𝑃𝑛′ ‖. A fin de evitar confusiones usaremos ℙ para calcular probabilidades y 𝑃𝑛
para las medidas empíricas.
Primera simetrización:
Sean {𝑍𝑡: 𝑡 ∈ 𝑇} y {𝑍′𝑡: 𝑡 ∈ 𝑇} sucesiones de variables aleatorias independientes. Suponga
que existen 𝛼 y 𝛽 tales que 𝛼, 𝛽 > 0 y ∀𝑡 ∈ 𝑇 ∶ 𝑃{|𝑍′𝑡| ≤ 𝛼} ≥ 𝛽. Se tiene:
𝛽𝑃 {sup𝑡
|𝑍𝑡| > 휀} ≤ 𝑃{ sup𝑡
|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼}
Demostración:
Escoja 𝜏 aleatorio de forma que |𝑍𝜏| > 휀 en el conjunto {𝑡: sup𝑡
|𝑍𝑡| > 휀}. Observe que 𝜏
depende únicamente de 𝑍 y, por tanto, es independiente de 𝑍′. Dicho de otra forma:
𝑃{|𝑍′𝜏| ≤ 𝛼 |𝑍} ≥ 𝛽 Lo cual implica que:
𝛽ℙ {sup𝑡
|𝑍𝑡| > 휀} ≤ ℙ{|𝑍′𝜏| ≤ 𝛼 |𝑍} ∙ ℙ{|𝑍𝜏| > 휀}
= ℙ{|𝑍′𝜏| ≤ 𝛼 , |𝑍𝜏| > 휀}
≤ ℙ{|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼}
≤ ℙ{ sup𝑡
|𝑍𝑡 − 𝑍′𝑡| > 휀 − 𝛼} ∎
Nótese que:
𝐸{𝑥′𝑖 ≤ 𝑡} = 𝑃(−∞, 𝑡] y 𝑉𝑎𝑟{𝑥′𝑖 ≤ 𝑡} = 𝑃(−∞, 𝑡] − 𝑃(−∞, 𝑡]2 ≤ 1,
Luego, por la desigualdad de Chebyshev,
ℙ{(𝑃′𝑛(−∞, 𝑡] − 𝑃(−∞, 𝑡]) ≥ 휀2⁄ } ≤
𝑉𝑎𝑟|𝑃𝑛′|
(휀2⁄ )2⁄
=4
휀2𝑉𝑎𝑟|𝑃𝑛
′|
=4
휀2
1
𝑛(𝑃(−∞, 𝑡] − 𝑃(−∞, 𝑡]2)
≤4
휀2𝑛≤
1
2 , 𝑠𝑖 𝑛 ≥
8
휀2
Es decir, ℙ( {𝑃𝑛,𝑡′ − 𝑃𝑡} ≤ 휀
2⁄ ) ≥ 12⁄ , cuando 𝑛 ≥ 8
휀2⁄ .
Tomando 𝑍′𝑡 = 𝑃′𝑛,𝑡 − 𝑃𝑡, tenemos la hipótesis de la primera simetrización y, por lo tanto,
tomando 𝑍𝑡 = 𝑃𝑛,𝑡 − 𝑃𝑡 y 𝛼 = 2 , 𝛽 =
1
2 , obtenemos que:
ℙ(‖𝑃𝑛 − 𝑃‖ > 휀) ≤ 2ℙ (‖𝑃𝑛−𝑃′𝑛‖ >
2), si 𝑛 ≥ 8
휀2⁄
Definición 4.2: Decimos que una distribución para una variable aleatoria 𝑍 es simétrica
alrededor de 𝛼 si
𝑃(𝑍 ≤ 𝛼 + 𝑧) = 𝑃(𝑍 ≥ 𝛼 − 𝑧), ∀𝑧 ∈ ℝ
Que denotamos por 𝑍~𝑆𝑖𝑚(𝛼).
Segunda simetrización:
Por nuestros resultados anteriores sabemos que 𝑃𝑛 − 𝑃𝑛′ depende de 2𝑛 observaciones, que
son a saber: 𝑥1, … 𝑥𝑛 y 𝑥′1, … , 𝑥′𝑛.
Sean 𝜎𝑖, 𝑖 = 1, … , 𝑛,variables aleatorias de tipo Radamacher i.e. con la propiedad de que
ℙ{𝜎𝑖 = 1} = ℙ{𝜎𝑖 = −1} = 1 2⁄ .
Lema 4.3: Sea 𝑍 = 𝑌 − 𝑌′~𝑆𝑖𝑚(0) y sean 𝜎𝑖 variables aleatorias de tipo Radamacher,
entonces 𝜎𝑖𝑍 y 𝑍 son iguales en distribución.
Demostración:
Para 𝑥 > 0, Pr(𝜎𝑖𝑍 < 𝑥) = Pr(𝑍 < 𝑥, 𝜎𝑖 = 1) + Pr (𝑍 > −𝑥, 𝜎𝑖 = −1)
= Pr(𝑍 < 𝑥)1
2+ Pr(𝑍 > −𝑥)
1
2= Pr (𝑍 < 𝑥)
∎
Por el lema, las variables aleatorias simétricas {𝑥𝑖 ≤ 𝑡} − {𝑥′𝑖 ≤ 𝑡} tienen la misma
distribución conjunta que las variables 𝜎𝑖[{𝑥𝑖 ≤ 𝑡} − {𝑥′𝑖 ≤ 𝑡}]
Así,
ℙ(‖𝑃𝑛 − 𝑃𝑛′‖ > 휀
2⁄ ) = ℙ (sup𝑡
|1
𝑛∑{𝑥𝑖 ≤ 𝑡} − {𝑥′
𝑖 ≤ 𝑡}
𝑛
𝑖=1
| > 휀2⁄ )
= ℙ (sup𝑡
|1
𝑛∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡} − {𝑥′
𝑖 ≤ 𝑡}]
𝑛
𝑖=1
| > 휀2⁄ )
≤ ℙ (sup𝑡
|1
𝑛∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡}]
𝑛
𝑖=1
| > 휀4⁄ ) +
ℙ(sup𝑡
|1
𝑛∑ 𝜎𝑖[{𝑥′
𝑖 ≤ 𝑡}]𝑛𝑖=1 | > 휀
4⁄ )
y así obtenemos la segunda desigualdad.
Ahora definimos:
𝑃𝑛° =
1
𝑛∑ 𝜎𝑖{𝑥𝑖 ≤ 𝑡}
𝑛
𝑖=1
Entonces, por los resultaos de la primera simetrización, para 𝑛 ≥ 8 휀2⁄ :
ℙ{‖𝑃𝑛 − 𝑃‖ > 휀} ≤ 4ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }
La desigualdad anterior es fundamental para lo que sigue. Note que ahora añadimos
información aleatoria proveniente de las variables 𝜎𝑖. Vamos a utilizar una técnica típica de
probabilidad, puesto que los valores de 𝑃𝑛° dependen de las observaciones, asumiremos que
el vector de observaciones 𝑿 = (𝑥1, … , 𝑥𝑛) está dado y después tomamos la probabilidad
condicional sobre 𝑿. Esto nos dará, en valor esperado, una cota al lado derecho de la
desigualdad. Dejando de esta manera toda la aleatoriedad al signo de radamacher.
Desigualdad Maximal:
Deseamos acotar ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }
Note que una vez conocemos las observaciones 𝑿 = (𝑥1, … , 𝑥𝑛) el supremo en 𝑃𝑛° se reduce
a evaluar sobre un conjunto estratégico de puntos. En realidad necesitamos.
𝑡0 < 𝑥1 < 𝑡1 < 𝑥2 < 𝑡2 < ⋯ < 𝑥𝑛 < 𝑡𝑛
Luego sup𝑡
(|𝑃𝑛°(−∞, 𝑡]|) = max
𝑗{|𝑃𝑛
°(−∞, 𝑡𝑗]|} . Es decir el valor de 𝑷𝒏° depende de
evaluar únicamente en (n+1) intervalos. Esta observación es muy importante en tanto que
esta propiedad es especial de los intervalos y hasta ahora es el primer argumento que no
podemos usar directamente en ℝ𝑑 .
Con esta observación, resulta evidente que:
ℙ{‖𝑃𝑛°‖ > 휀 4⁄ |𝑿} ≤ ∑ ℙ{|𝑃𝑛
°𝐼𝑗| > 휀 4⁄ |𝑿}
𝑛
𝑖=0
≤ (𝑛 + 1) max𝑗
{|𝑃𝑛°𝐼𝑗| > 휀 4⁄ |𝑿}
Desigualdad exponencial
A continuación usaremos la desigualdad de Hoeffding demostrada en la sección 2.3.
Tenemos que si 𝑌𝑖 𝑖 = 1, … , 𝑛 son variables aleatorias independientes tales que 𝐸[𝑌𝑖] = 0 y
𝑎𝑖 ≤ 𝑌𝑖 ≤ 𝑏𝑖.
Entonces ∀휂 > 0: ℙ(|𝑌1 + ⋯ + 𝑌𝑛| > 휂) ≤ 2exp (−2휂2 ‖𝒃 − 𝒂‖2⁄ )
Usamos esta desigualdad con las variables aleatorias 𝑌𝑖 = 𝜎𝑖{𝑥𝑖 ≤ 𝑡}. Note que dado 𝑿 =(𝑥1, … , 𝑥𝑛) , esta variable asume únicamente los valores −{𝑥𝑖 ≤ 𝑡} o +{𝑥𝑖 ≤ 𝑡}
Ambos con probabilidad 1 2⁄ . Luego, es evidente que 𝔼𝑌𝑖 = 0
Aplicando la desigualdad obtenemos que:
ℙ (|∑ 𝜎𝑖[{𝑥𝑖 ≤ 𝑡}]
𝑛
𝑖=1
| >𝑛휀
4 |𝐗) ≤ 2exp (
−2𝑛2휀2
16 ∑ (2{𝑥𝑖 ≤ 𝑡})2𝑛𝑖=1
)
≤ 2 exp (−𝑛2휀2
32 ∑ ({𝑥𝑖 ≤ 𝑡})2𝑛𝑖=1
) ≤ 2exp (−𝑛휀2
32)
Observamos que el lado derecho ya no depende de 𝑿.
Usando la desigualdad maximal para cada 𝑡𝑗 antes, llegamos a que:
ℙ{‖𝑃𝑛°‖ > 휀 4⁄ |𝑿} ≤ 2(𝑛 + 1)exp (
−𝑛휀2
32)
Esperanza con respecto a 𝑿:
Tomamos la esperanza sobre 𝑿 y entonces:
ℙ{‖𝑃𝑛 − 𝑃‖ > 휀} ≤ 4ℙ{‖𝑃𝑛°‖ > 휀 4⁄ }
≤ 8(𝑛 + 1)exp (−𝑛휀2
32)
Dado que, para todo 휀 > 0:
∑ ℙ{‖𝑃𝑛 − 𝑃‖ > 휀}
∞
𝑖=1
≤ ∑ 8(𝑛 + 1) exp (−𝑛휀2
32)
∞
𝑖=1
< ∞
Por el lema de Borel-Cantelli, obtenemos que:
ℙ (limsup𝑛→∞
{‖𝑃𝑛 − 𝑃‖ > 휀}) = 0 , ∀휀
⇒ sup𝑡
‖𝑃𝑛 − 𝑃‖ → 0 , 𝑐. 𝑠.
Finalizando así la demostración del teorema de Glivenko-Cantelli.
∎
4.2 Clases de conjuntos con discriminación polinomial
Un paso muy importante en la demostración de Glivenko-Cantelli era que para evaluar
sup𝑡
|𝑃𝑛°(−∞, 𝑡]|
era suficiente evaluar 𝑃𝑛°(t) en (𝑛 + 1) puntos. Esta propiedad tenía que ver con que la
cantidad de subconjuntos de la muestra {𝑥1, … , 𝑥𝑛} que pueden discriminar los intervalos
son exactamente 𝑛 + 1. A saber:
∅, {𝑥1}, {𝑥1, 𝑥2}, … , {𝑥1, … , 𝑥𝑛} Es decir, si 𝑆0 = {𝑥1, … , 𝑥𝑛} es la muestra, entonces el número de subconjuntos que
intersectan los intervalos son:
#{𝑆0⋂(−∞, 𝑡]: 𝑡 ∈ ℝ} = 𝑛 + 1 Y que este factor era posteriormente desechado por la cota exponencial.
Esto responde a una propiedad más general de los intervalos llamada discriminación
polinomial.
Definición 4.2: Decimos que una colección o clase de conjuntos 𝔇 es una clase con
discriminación polinomial si para todo conjunto con 𝑁 puntos 𝑆0 existe un polinomio 𝑑(∙)
tal que:
#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} ≤ 𝑑(𝑁)
Es decir, el número de subconjuntos que 𝔇 alcanza está acotado por un polinomio.
El polinomio 𝑑(∙) se llama polinomio discriminador de la clase.
Nota 4.2.1: Claramente no todas las clases de conjuntos tienen discriminación polinomial.
Si denotamos por 𝐶𝐶𝑜 los conjuntos cerrados y convexos en ℝ2 , entonces ∀S0 finito de 𝑁
puntos tenemos que:
#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} = 2𝑁
Nótese entonces que para demostrar una generalización del teorema de Glivenko-Cantelli
es suficiente repetir el argumento cambiando únicamente la cota maximal.
Teorema 4.3: Sea 𝔇 una clase con discriminación polinomial de un conjunto 𝑆 y 𝑃 una
medida de probabilidad sobre 𝑆, entonces:
sup𝐷∈𝔇
|𝑃𝑛𝐷 − 𝑃𝐷| → 0 𝑐𝑎𝑠𝑖 𝑠𝑒𝑔𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑒
Demostración: En la cota maximal reemplace (𝑛 + 1 ) por 𝑑(𝑛) ; que será igualmente
consumida por la cota exponencial y cambie toda referencia a intervalos por subconjuntos
de 𝔇.
∎
El problema de obtener convergencia uniforme de medidas empíricas se ha reducido ahora
a encontrar clases de conjuntos con discriminación polinomial.
Ejemplo. Directamente se puede comprobar que los cuadrantes en ℝ2 tienen
discriminación polinomial con polinomio discriminador (𝑛 + 1)2 . Se necesitan (𝑛 + 1)
puntos para cada una de las coordenadas, dando la cota. Similarmente, para ℝ𝑑 tenemos
discriminación polinomial para los hiper-cubos
A modo de aumentar la discusión, una herramienta para construir clases de conjuntos con
discriminación polinomial es el siguiente lema.
Lema 4.4: Sean ℭ y 𝔇 clases con discriminación polinomial, entonces:
𝑖) {𝐷𝑐: 𝐷 ∈ 𝔇 }
𝑖𝑖) {𝐷 ∪ 𝐶: 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ}
𝑖𝑖𝑖) {𝐷 ∩ 𝐶: 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ }
tienen discriminación polinomial.
Demostración:
i) Sean 𝑆0 un conjunto finito de 𝑁 puntos. Por hipótesis sabemos que
#{𝑆0 ∩ 𝐷: 𝐷 ∈ 𝔇} ≤ 𝑑(𝑁)
Suponga que los subconjuntos de 𝑆0 que 𝔇 discrimina son: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁). Entonces ∀𝐷 ∈ 𝔇: ∃𝑖 tal que 𝑆0 ∩ 𝐷 = 𝑆𝑖. Usando el hecho de que:
𝑆0 = 𝑆0 ∩ (𝑆) = 𝑆0 ∩ (𝐷 ∪ 𝐷𝑐) = (𝑆0 ∩ 𝐷) ∪ ( 𝑆0 ∩ 𝐷𝑐) = 𝑆𝑖 ∪ ( 𝑆0 ∩ 𝐷𝑐
⇒ 𝑆0\𝑆𝑖 = (𝑆0 ∩ 𝐷𝑐) Al ser la unión disjunta.
Y, por tanto, ∀𝐷 ∈ 𝔇: ∃𝑖 tal que 𝑆0 ∩ 𝐷𝑐 = 𝑆0\𝑆𝑖
⇒ #{𝑆0 ∩ 𝐷𝑐: 𝐷 ∈ 𝔇} = #{𝑆0\𝑆1, … , 𝑆0\𝑆𝑘} = 𝑘 ≤ 𝑑(𝑁) Es decir el mismo polinomio es válido para realizar la discriminación.
ii) Sea 𝑆0 un conjunto finito de 𝑁 puntos arbitrario.
Suponga que 𝔇 discrimina los siguientes subconjuntos de 𝑆0: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁).
Similarmente, suponga que ℭ discrimina los siguientes subconjuntos de 𝑆0: 𝑆1̃, … , 𝑆�̃� con
𝑙 ≤ 𝑐(𝑁).
Sean 𝐷 y 𝐶 arbitrarios, entonces ∃𝑖, 𝑗 ∶ 𝑆0 ∩ 𝐷 = 𝑆𝑖 , 𝑆0 ∩ 𝐶 = 𝑆�̃�
Dejando 𝐷 fijo, entonces #{𝑆0 ∩ (𝐷 ∪ 𝐶): 𝐶 ∈ ℭ} = #{𝑆𝑖 ∪ 𝑆�̃�: 1 ≤ 𝑗 ≤ 𝑙} = 𝑙 ≤ 𝑐(𝑁)
Pero entonces, #{𝑆0 ∩ (𝐷 ∪ 𝐶): 𝐷 ∈ 𝔇, 𝐶 ∈ ℭ}
≤ ∑ #{𝑆𝑖 ∪ (𝑆0 ∩ 𝐶): 𝐶 ∈ ℭ} ≤ ∑ 𝑐(𝑁) ≤ 𝑘 ∙ 𝑐(𝑁) ≤ 𝑑(𝑁)𝑐(𝑁)
𝑘
𝑖=1
𝑘
𝑖=1
y, por tanto, la discriminación es polinomial.
iii) Similarmente, denotamos los polinomios de discriminación por 𝑐(𝑁) y 𝑑(𝑁). Además,
suponga que 𝔇 discrimina los siguientes subconjuntos de 𝑆0: 𝑆1, … , 𝑆𝑘 con 𝑘 ≤ 𝑑(𝑁).
Suponga que 𝑆𝑖 consiste de 𝑁𝑖 puntos. La clase ℭ discrimina a lo sumo 𝑐(𝑁𝑖) distintos de
𝑆𝑖. Esto da la cota 𝑐(𝑁1) + ⋯ + 𝑐(𝑁𝑘) del tamaño de la clase en el enunciado. Claramente,
esta suma es menor o igual a 𝑐(𝑁)𝑑(𝑁) y, por lo tanto, la discriminación es polinomial.
∎
Es muy fácil que se nos acaben los conjuntos; el poder de construcción del lema anterior
tiene la restricción de una cantidad finita de operaciones.
Similarmente, la clase puede fallar fácilmente en discriminar un subconjunto de los 2𝑁 para
cada conjunto 𝑆0 de 𝑁 puntos, cuando 𝑁 es lo suficientemente grande. Esta es una
propiedad necesaria de las clases polinomiales.
Sorprendentemente es una condición suficiente.
Definición 4.5: Decimos que una clase de conjuntos 𝔇 destroza un conjunto de puntos F si
puede discriminar cada uno de sus 2𝑁 subconjuntos.
Por ejemplo en ℝ2 los discos pueden destrozar cualquier conjunto de 3 puntos, si estos no
son co-lineales. Pero no importa la configuración que tenga un conjunto de 4 puntos. Los
discos no pueden destrozarlos.
Los discos pueden clasificar cualquier subconjunto de tamaño 1 de un conjunto de 3 puntos
en el plano. Similarmente, pueden clasificar cualquier subconjunto de tamaño 2. Sin
embargo, ningún disco puede clasificar todos los subconjunto de tamaño 2 de un conjunto
de 4 puntos en el plano. Por ejemplo, en el caso anterior es imposible obtener el
subconjunto que consiste únicamente de los dos puntos más alejados entre sí.
Teorema 4.6 (Vapnik, Sauer): Sea 𝑆0 un conjunto de 𝑁 puntos en 𝑆. Sea 𝔇 una clase de
conjuntos en 𝑆. Suponga que existe un entero positivo 𝑉 ≤ 𝑁 tal que 𝔇 no destroza ningún
subconjunto de 𝑉 puntos de 𝑆0, entonces 𝔇 no discrimina más de
(𝑁
0) + (
𝑁
1) + ⋯ + (
𝑁
𝑉 − 1)
subconjuntos de 𝑆0.
Demostración:
Sean 𝐹1, … , 𝐹𝑘todos los subconjuntos de 𝑉 puntos de 𝑆0, obviamente 𝑘 = (𝑁𝑉
).
Por hipótesis, existe un subconjunto “oculto” 𝐻𝑖 para cada 𝐹𝑖 que la clase 𝔇 falla en
discriminar. Es decir: ∀𝑖 ∃𝐻𝑖 tal que 𝐷 ∩ 𝐹𝑖 ≠ 𝐻𝑖 ∀𝐷 ∈ 𝔇. En particular, todos los conjuntos de la forma 𝐷 ∩ 𝑆0 cumplen que
(𝐷 ∩ 𝑆0) ∩ 𝐹𝑖 = 𝐷 ∩ (𝑆0 ∩ 𝐹𝑖) = 𝐷 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖 Esta observación, aunque sencilla, nos permite evidenciar:
{𝐷 ∩ 𝑆0: 𝐷 ∈ 𝔇} ⊂ 𝒞0 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖}
Luego, es suficiente acotar el cardinal de 𝒞0.
Caso 1: Hay un caso en el que se puede calcular fácilmente el cardinal de 𝒞0. Cuando 𝐻𝑖 = 𝐹𝑖, ∀𝑖 ⇒ 𝒞0 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐹𝑖, ∀𝑖} ={𝐶: "𝑛𝑜 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑉 𝑝𝑢𝑛𝑡𝑜𝑠"} De lo contrario, al menos tocaría los 𝑉 puntos de algún subconjunto, es decir, 𝐶 contendría
al menos uno de los 𝐹𝑖. Luego, 𝒞0 consiste de todos los subconjuntos de 0 puntos, 1 punto, …, 𝑉 − 1 puntos.
⇒ |𝒞0 | = (𝑁
0) + (
𝑁
1) + ⋯ + (
𝑁
𝑉 − 1)
Caso 2: Cuando no todos los 𝐻𝑖 son 𝐹𝑖 hay una forma de reducirnos al caso 1.
Definimos 𝐻𝑖′ = (𝐻𝑖 ∪ {1}) ∩ 𝐹𝑖 = {
𝐻𝑖 ⊂ 𝐹𝑖
𝐻𝑖 ∪ {1} ⊂ 𝐹𝑖
Es decir, aumentamos 𝐻𝑖 en 1 siempre y cuando 1 ∈ 𝐹𝑖. Ahora, definimos la clase
𝒞1 = {𝐶 ⊂ 𝑆0: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖′ , ∀𝑖}
Note que 𝒞1 no tiene mucho que ver con 𝒞0 , solo que os conjuntos son más grandes. Sin
embargo aumenta la posibilidades, es más fácil ser distinto de 𝐻𝑖′ ⇒ es de esperarse
que |𝒞0 | ≤ |𝒞1| (ojo, no decimos que 𝒞0 ⊂ 𝒞1 )
Para probar esto, definimos un mapa inyectivo entre 𝒞0 \𝒞1 → 𝒞1 \𝒞0 ,
a saber: 𝐶 → 𝐶 ∪ {1}.
Si creemos ese argumento podemos asumir que |𝒞0 | ≤ |𝒞1|. Ahora similarmente, definimos 𝐻𝑖
′′ = (𝐻𝑖′ ∪ {2}) ∩ 𝐹𝑖 y 𝒞2 = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖
′}
Y, con el mismo mapa y argumento concluimos que |𝒞1| ≤ |𝒞2|. Similarmente, definimos: 𝒞0, 𝒞1, … , 𝒞𝑁 y eventualmente
𝐻𝑖(𝑁)
= (𝐻𝑖(𝑁−1)
∪ {𝑁}) ∩ 𝐹𝑖 = 𝐹𝑖
𝒞𝑁 = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖(𝑁)
, ∀𝑖} = {𝐶: 𝐶 ∩ 𝐹𝑖 ≠ 𝐹𝑖, ∀𝑖}
y |𝒞𝑁| = (𝑁0
) + (𝑁1
) + ⋯ + ( 𝑁𝑉−1
).
Detalles del mapa: 𝒞 → 𝒞\{1}: 𝒞0\𝒞1 → 𝒞1\𝒞0 Tome 𝐶 ∈ 𝒞0\𝒞1 ⇒ 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 , ∀𝑖 Pero existe 𝑗 tal que 𝐶 ∩ 𝐹𝑗 = 𝐻𝑗
′.
Se sigue entonces que 𝐻𝑗′ ≠ 𝐻𝑗 ⇒ 1 ∈ 𝐶 ∩ 𝐹𝑗 pero 1 ∉ 𝐻𝑗 .
Luego 𝐶 \{1} ≠ 𝐶 y si 𝐶, 𝐵 ∈ 𝒞0\𝒞1 y 𝐶 ≠ 𝐵:
⇒ 1 ∈ 𝐶 ∩ 𝐵 ⇒ C \{1} ≠ 𝐵\{1}. De forma que el mapa es inyectivo.
Para ver que 𝐶\{1} ∈ 𝒞1\𝒞0, primero note que:
(𝐶\{1}) ∩ 𝐹𝑗 = 𝐻𝑗′\{1} = 𝐻𝑗 ⇒ C\{1} ∉ 𝒞0
Para ver que 𝐶\{1} ∈ 𝒞1. Considere dos casos.
Caso a): 1 ∈ 𝐹𝑖 ⇒ 1 ∈ 𝐻𝑖′ pero evidentemente 𝐶\{1} no contiene a 1.
Caso b) 1 ∉ 𝐹𝑖 ⇒ (𝐶\{1}) ∩ 𝐹𝑖 = 𝐶 ∩ 𝐹𝑖 ≠ 𝐻𝑖 = 𝐻𝑖′
En cualquier caso (𝐶\{1}) ∩ 𝐹𝑖 ≠ 𝐻𝑖′ para todo 𝑖.
∎
Definición 4.7: Sea 𝑉 el mínimo entero que cumple las propiedades del teorema 4.6. El
número 𝑉 − 1 se llama la dimensión de Vapnik de la clase 𝔇.
Corolario 4.8: Si una clase no destroza ningún conjunto de 𝑉 puntos entonces tiene
discriminación polinomial de un grado menor o igual a 𝑉 − 1.
El corolario nos dice que si 𝔇 no destroza ningún conjunto de 𝑉 puntos, entonces para
todo conjunto finito 𝑆0 de 𝑁 puntos, con 𝑉 ≤ 𝑁, entonces 𝔇 no discrimina más de
𝑝(𝑁) = (𝑁
0) + (
𝑁
1) + ⋯ + (
𝑁
𝑉 − 1)
conjuntos.
Luego, 𝔇 tiene discriminación polinomial de un grado menor o igual a 𝑉 − 1. Ahora, el problema de encontrar estas clases de conjuntos se reduce a determinar cuales
“tienen problemas” destrozando conjuntos con una gran cantidad de puntos.
Para terminar esta sección, presentamos un resultado para mostrar clases de conjuntos con
discriminación polinomial que dependen de una amplia gama de funciones. Aumentando la
variedad de conjuntos con discriminación polinomial.
Lema 4.9: Sean 𝔖 = 𝑠𝑝𝑎𝑛{𝑔1, … , 𝑔𝑉−1} donde 𝑔𝑖: 𝑆 → ℝ. Sea 𝑔 ∈ 𝔖 arbitraria. Entonces
la clase de conjuntos de la forma {𝑔 ≥ 0}; 𝑔 ∈ 𝔖 tiene discriminación polinomial de grado
menor o igual a 𝑉. Demostración:
Considere cualquier colección de 𝑉 puntos {𝑠1, … , 𝑠𝑉} y la función lineal:
𝕃: 𝔖 → ℝ𝑉
𝑔 → (𝑔(𝑠1) , … , 𝑔(𝑠𝑉))
es claro que dim 𝕃𝔖 ≤ 𝑉 − 1 y, por lo tanto, existe 𝛾 ∈ ℝ𝑉 que es ortogonal al subespacio
𝕃𝔖.
Es decir, para todo 𝑔 se cumple que ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖)𝑉𝑖=1 = 0 ⇔ ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖){+} = ∑ (−𝛾𝑖 ) ∙{−}
𝑔(𝑠𝑖)
Donde {−} son precisamente los índices donde 𝛾𝑖 < 0. Sin pérdida de generalidad,
asumimos que {−} ≠ ∅ (si es necesario reemplace 𝛾 por −𝛾).
Suponga {𝑔 ≥ 0} separa precisamente los 𝑠𝑖 con 𝑖 ∈ {+}. Entonces existe 𝑔 ∈ 𝔖 tal que
∀𝑖 ∈ {+} 𝑔(𝑠𝑖) ≥ 0 ⇔ ∑ 𝛾𝑖 ∙ 𝑔(𝑠𝑖){+} ≥ 0.
Sin embargo, este mismo 𝑔 cumple que ∀𝑖 ∈ {−} 𝑔(𝑠𝑖) < 0 ⇒ ∑ (−𝛾𝑖 ) ∙ 𝑔(𝑠𝑖){−} < 0.
Lo cual es una contradicción. Por lo tanto, no puede existir 𝑔 tal que {𝑔 ≥ 0} discrimine el
conjunto {𝑠𝑖: 𝑖 ∈ {+}}. De manera que {{𝑔 ≥ 0}: 𝑔 ∈ 𝔖 } no discrimina ningún conjunto de
𝑉 puntos. Por el lema anterior, no tiene discriminación polinomial.
∎ Note que el último lema se cubre una amplia clase de conjuntos.
Ejemplo.
1. Un caso importante es: Sea ℝ𝑛[𝒙] el conjunto de polinomios con coeficientes reales de
variable real de grado menor o igual a 𝑛. Entonces, si 𝑝(𝑥) ∈ ℝ𝑛[𝒙] y denotamos el conjunto {𝑥: 𝑝(𝑥) ≥ 0} por {𝑝 ≥ 0}.
⇒ {{𝑝 ≥ 0}: 𝑝 ∈ ℝ𝑛[𝒙] } tiene discriminación polinomial de grado menor o igual a 𝑛 + 1.
2. Considere solo la clase de polinomios de grado menor o igual a 2 de dos variables. Todos
ellos tienen discriminación polinomial por el lema 4.9 e incluyen los conjuntos de la
derecha a continuación:
{𝑎𝑥2 + 𝑏𝑥𝑦 + 𝑐𝑦2 + 𝑑𝑥 + 𝑒𝑦 + 𝑓}, 𝑖𝑛𝑐𝑙𝑢𝑦𝑒: {𝑑𝑖𝑠𝑐𝑜𝑠
𝑒𝑙𝑖𝑠𝑝𝑠𝑒𝑠𝑠𝑒𝑚𝑖𝑒𝑠𝑝𝑎𝑐𝑖𝑜𝑠
4.3 Tasa de convergencia sobre clases de funciones
El lema 4.9 nos sirve como introducción a las generalizaciones de las teoremas de
Glivenko-Cantelli en clases de funciones. Debemos dar condiciones suficientes para tener
convergencia uniforme sobre clases de funciones. A lo largo de la sección escribiremos ‖∙‖
para denotar 𝑠𝑢𝑝𝔉|∙|. Una condición de dominación nos prevendrá ante cualquier complicación que pueda surgir
debido a que 𝔉 contenga funciones no acotadas, i.e. que 𝔉 sea permisible. Llamaremos a
cada función medible 𝐹 tal que |𝑓| ≤ 𝐹 para toda 𝑓 ∈ 𝔉 , una envolvente para 𝔉. Usualmente 𝐹 será tomado como el supremo puntual de |𝑓| sobre 𝔉, la envolvente natural.
Asumiremos que 𝑃𝐹 < ∞.
Definición 4.10: Definimos el espacio L 1(𝑄) como el conjunto de funciones integrables
en valor absoluto con respecto a la medida 𝑄. L 1(𝑄) = {𝑓: ∫|𝑓|𝑑𝑄 < ∞}
Definición 4.11: Sea 𝑄 una medida de probabilidad sobre 𝑆 y 𝔉 una clase de funciones
en L 1(𝑄). Para cada 휀 > 0 defina el número de cubrimiento 𝑁1(휀, 𝑄, 𝔉) como el valor más
pequeño 𝑚 para el cual existen funciones 𝑔1, … , 𝑔𝑚 (no necesariamente en 𝔉) tales que
min𝑗
𝑄|𝑓 − 𝑔𝑗| ≤ 휀 , ∀𝑓 ∈ 𝔉
Definición 4.12: La sub-gráfica de una función con valores reales 𝑓 sobre un conjunto 𝑆 se
define como el subconjunto 𝐺𝑓 = {(𝑠, 𝑡): 0 ≤ 𝑡 ≤ 𝑓(𝑠) 𝑜 𝑓(𝑠) ≤ 𝑡 ≤ 0} de 𝑆 × ℝ.
Lema 4.13: Sea 𝔉 una clase de funciones sobre un conjunto 𝑆 con envolvente 𝐹, y 𝑄 una
medida de probabilidad sobre 𝑆 con 0 < 𝑄𝐹 < ∞. Si las gráficas de las funciones en 𝔉
forman una clase de conjuntos con discriminación polinomial entonces
𝑁1(휀𝑄𝐹, 𝑄, 𝔉) ≤ 𝐴휀−𝑊 , 𝑝𝑎𝑟𝑎 0 < 휀 < 1 donde las constantes 𝐴 y 𝑊 dependen únicamente en el polinomio discriminador de la clase
de gráficas.
Demostración: (tomada de Pollard [7], lema 25)
Sean 𝑓1, … , 𝑓𝑚 una colección maximal de funciones en 𝔉 para las cuales se cumple que:
𝑄|𝑓𝑖 − 𝑓𝑗| > 휀𝑄𝐹 𝑠𝑖 𝑖 ≠ 𝑗
Maximalidad en este contexto significa que no existe una colección más grande de
funciones que tengan la misma propiedad; cada 𝑓 debe caer dentro de alguna franja de
tamaño 휀𝑄𝐹 de al menos una de las 𝑓𝑖. Así, es claro que 𝑚 ≥ 𝑁1(휀𝑄𝐹 , 𝑄, 𝔉).
Escogemos puntos independientes (𝑠1, 𝑡1), … . , (𝑠𝑘, 𝑡𝑘) in 𝑆 ⊗ ℝ generados por un
procedimiento en dos pasos. Primero generamos los 𝑠𝑖 de la distribución 𝑄(. 𝐹)/𝑄(𝐹)
sobre S, dada por:
𝑄(. 𝐹)
𝑄(𝐹)=
∫ ∙ 𝑑𝑃𝐹
∫ 𝐹 𝑑𝑃
Una vez dados los 𝑠𝑖 , generamos una muestra de los 𝑡𝑖 a partir de la distribución
condicional 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒[−𝐹(𝑠𝑖 , 𝐹(𝑠𝑖))].
El valor de 𝑘, el cual depende sobre 𝑚 y 휀, será establecido más adelante.
Note que las gráficas 𝐺1 y 𝐺2 correspondientes a 𝑓1 y 𝑓2, discriminan el mismo subconjunto
de esta muestra si y solo si uno de los 𝑘 puntos cae afuera de la región 𝐺1∆𝐺2. Esto ocurre
con probabilidad igual a
∏[1 − 𝑃𝑃{(𝑠𝑖, 𝑡𝑖) ∈ 𝐺1∆𝐺2|𝑠𝑖}] = [1 − 𝑃 (|𝑓1(𝑠1) − 𝑓2(𝑠2)|
2𝐹(𝑠1))]
𝑘𝑘
𝑖=1
= [1 −𝑄|𝑓1 − 𝑓2|
2𝑄(𝐹)]
𝑘
≤ (1 −1
2휀)
𝑘
≤ exp (−1
2𝑘휀)
Aplicando el mismo razonamiento a cada una de los (𝑚2
) pares posibles de funciones 𝑓𝑖 y
𝑓𝑗 . La probabilidad de que al menos un par de gráficas discriminen el mismo conjunto de
puntos de la muestra inicial de tamaño 𝑘 es menor que
(𝑚
2) exp (−
1
2𝑘휀) ≤
1
2exp (2 log 𝑚 −
1
2𝑘휀)
Escogemos 𝑘 como el valor más pequeño que hace la cota superior de la cantidad anterior
estrictamente más pequeña que 1, se puede ver que 𝑘 ≤ (1 + 4 log 𝑚)/휀. Con probabilidad
positiva las gráficas discriminan todos los subconjuntos de la muestra de tamaño 𝑘; existe
un conjunto de 𝑘 puntos en 𝑆 ⨂ ℝ del cual las clases polinomiales de gráficas pueden
discriminar 𝑚 subconjuntos distintos. A partir de la definición de clases con discriminación
polinomial, existen constantes 𝐵 y 𝑉 tales que 𝑚 ≤ 𝐵𝑘𝑉 para todo 𝑘 ≥ 1. Encuentre 𝑛0 de
forma que (1 + 4 log 𝑛)𝑉 ≤ 𝑛1/2 para todo 𝑛 ≥ 𝑛0. Entonces bien 𝑚 < 𝑛0 o 𝑚 ≤ 𝐵𝑚1
2휀−𝑉
Defina 𝑊 = 2𝑉 y 𝐴 = 𝑚𝑎𝑥(𝐵2, 𝑛0). Obtenemos el resultado.
∎
Para mostrar que una clase de sub-gráficas tiene discriminación polinomial podemos llamar
los resultados de la sección 4.2. Construimos gráficas como uniones finitas e intersecciones
(lema 4.4) de clases más simples de conjuntos. Establecemos su propiedad de
discriminación polinomial por un argumento geométrico directo o explotando la
dimensionalidad finita de una clase generadora de funciones (lema 4.9).
Ahora bien, considere los dos pasos fundamentales en la demostración del teorema de
Glivenko-Cantelli. Sin embargo, permitamos esta vez que 휀 y 𝔉 dependan de 𝑛. Como
antes, reemplazamos 𝑃𝑛 − 𝑃 por la medida 𝑃𝑛° que pone masa ±𝑛−1 en cada {𝑥1, … , 𝑥𝑛}.
La desigualdad de simetrización todavía es valida:
𝑃 {sup𝔉𝑛
|𝑃𝑛𝑓 − 𝑃𝑓| > 8휀𝑛} ≤ 4𝑃 {sup𝔉𝑛
|𝑃𝑛°𝑓| > 2휀𝑛}
siempre y cuando 𝑉𝑎𝑟(𝑃𝑛𝑓)/(4휀𝑛)2 sea menor o igual a 1/2 para cada 𝑓 ∈ 𝔉𝑛 . El
argumento de aproximación y la desigualdad de Hoeffding todavía nos llevan a los
resultados:
𝑃 {sup𝔉𝑛
|𝑃𝑛°𝑓| > 2휀𝑛| 𝑿} ≤ 2𝑁1(휀𝑛 , 𝑃𝑛 , 𝔉𝑛)exp [−
1
2𝑛휀𝑛
2/(max𝑗
𝑃𝑛𝑔𝑗2)] (∗)
donde el máximo es tomado sobre todas las 𝑁1(휀𝑛 , 𝑃𝑛 , 𝔉𝑛) funciones {𝑔𝑗} en la clase que
aproxima. El siguiente lema, presentado sin demostración, es un resultado previo necesario
para la demostración del teorema 4.15 que nos da la tasa de convergencia.
Lema 4.14 (lema 33 en Pollard): Sea 𝔉 una clase permisible de funciones con |𝑓| ≤ 1 y
(𝑃𝑓2)1/2 ≤ 𝛿 para cada 𝑓 ∈ 𝔉. Entonces,
𝑃 {sup𝔉
(𝑃𝑛𝑓2)12 > 8𝛿} ≤ 4𝑃{min (𝑁2(𝛿, 𝑃𝑛 , 𝔉)exp (−𝑛𝛿2),1 }
Teorema 4.15: Para cada 𝑛, sea 𝔉𝑛 una clase de funciones cuyos números de cubrimiento
satisfacen que
sup𝑄
𝑁1(휀, 𝑄, 𝔉𝑛) ≤ 𝐴휀−𝑊, 𝑝𝑎𝑟𝑎 0 < 휀 < 1
con constantes 𝐴 y 𝑊 no dependiendo en 𝑛 . Sea {𝛼𝑛} una sucesión no creciente de
números positivos para los cuales 𝑛𝛿𝑛2𝛼𝑛
2 ≫ log 𝑛. Si |𝑓| ≤ 1 y (𝑃𝑓2)1
2⁄ ≤ 𝛿𝑛 para cada
𝑓 ∈ 𝔉𝑛, entonces:
sup𝔉𝑛
|𝑃𝑛𝑓 − 𝑃𝑓| ≪ 𝛿𝑛2𝛼𝑛 𝑐𝑎𝑠𝑖 𝑠𝑒𝑔𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑒
Demostración:(tomada de Pollard [7], teorema 37)
Fije 휀 > 0. Establezca 휀𝑛 = 휀𝛿𝑛2𝛼𝑛. Dado que:
𝑉𝑎𝑟(𝑃𝑛𝑓)
(4휀𝑛)2≤
1
16𝑛휀2𝛿𝑛2𝛼𝑛
2≪
1
log 𝑛
la desigualdad de simetrización se tiene para un 𝑛 lo suficientemente grande:
𝑃 {sup𝔉𝑛
|𝑃𝑛𝑓 − 𝑃𝑓| > 8휀𝑛} ≤ 4𝑃 {sup𝔉𝑛
|𝑃𝑛°𝑓| > 2휀𝑛}
Condicionando sobre 𝑿. Encontramos funciones aproximando {𝑔𝑗}. Debemos asumir que
𝑔𝑗 ∈ 𝔉𝑛 (más formalmente, podemos reemplazar 𝑔𝑗 por 𝑓𝑗 en 𝔉𝑛 para las cuales 𝑄|𝑓𝑗 −
𝑔𝑗| ≤ 휀, después reemplazamos 휀 por 2휀). Por (∗),
𝑃 {sup𝔉𝑛
|𝑃𝑛°𝑓| > 2휀𝑛} ≤ 2𝐴휀𝑛
−𝑊 exp [−𝑛휀𝑛
2
128𝛿𝑛2
] + 𝑃{sup𝔉𝑛
𝑃𝑛𝑓2 > 64𝛿𝑛2}
El primer termino en el lado derecho de la desigualdad es igual a
2𝐴휀𝑛−𝑊 exp [𝑊 log (
1
𝛿𝑛2𝛼𝑛
) −𝑛휀2𝛿𝑛
2𝛼𝑛2
128]
el cual decrece mucho más rápido que cualquier potencia de 𝑛 porque log1
𝛿𝑛2 𝛼𝑛
incrementa
mucho más despacio que log 𝑛 , mientras que 𝑛𝛿𝑛2𝛼𝑛
2 incrementa mucho más rápido que
log 𝑛. El lema 3.13 acota el segundo término por
4𝐴(휀𝛿𝑛2𝛼𝑛)−𝑊exp (−𝑛𝛿𝑛
2)
lo cual converge a cero mucho más rápido que el primero término. Una aplicación del lema
de Borel-Cantelli termina la demostración.
∎ Nota 4.15.1: Note que el lema 4.13 da las condiciones suficientes para aplicar el teorema
4.15. Considere el caso particular de 𝔉𝑛 = 𝔉ℋ como la clase de funciones indicadoras de
los hipercubos en ℝ𝑑. Es decir, dado un punto 𝒙 = (𝑥1, … , 𝑥𝑑), escribimos el hipercubo
“abajo y a la izquierda” de 𝒙 por ℋ𝒙 = (−∞, 𝑥1]⨂ … ⨂(−∞, 𝑥𝑑] . Similarmente,
denotamos por 𝟏𝓗𝒙 la función indicadora del hipercubo. Entonces, 𝔉ℋ = {𝟏𝓗𝒙
: 𝒙 ∈ ℝ𝑑}.
Claramente la gráfica para cualquier 𝑓 ∈ 𝔉ℋ es un subconjunto de ℋ𝑑⨂{0,1} donde ℋ𝑑
denota los hipercubos en ℝ𝑑 . Es claro, de las observaciones de la sección 4.2 que las
gráficas de las funciones en 𝔉ℋ tienen discriminación polinomial con polinomio
discriminatorio (𝑛 + 1)𝑑+1. Luego se cumplen las condiciones del lema 4.13. Además,
tomando 𝛿𝑛 = 1 para todo 𝑛 , 𝛼𝑛 =log 𝑛
√𝑛, (𝑛 ≥ 9) en las hipótesis del teorema 4.15
obtenemos la tasa de convergencia para la distribución empírica acumulada:
log 𝑛
√𝑛
Capitulo 5
En este capítulo presentamos brevemente los aspectos fundamentales de las Máquinas de
Soporte Vectorial. Enunciamos el algoritmo que proponemos con sus respectivas
implementaciones. Las ideas principales son tomadas de [4] y [5].
Máquinas de Soporte Vectorial
5.1 Máquinas de Soporte Vectorial
La máquina de soporte vectorial (SVM) es una técnica de clasificación ampliamente
utilizada en la teoría de aprendizaje supervisado. En el caso de clasificación binaria, la
metodología de SVM consiste en lo siguiente: Dado un conjunto de datos
𝑆 = {𝑥𝑖 ∈ ℝ𝑑: 𝑖 = 1, … , 𝑛}
donde cada 𝑥𝑖 está etiquetado una clase 𝑦𝑖 ∈ {−1,1} decimos que el conjunto 𝑆 es
linealmente separable si existe un hiperplano que divide los datos de acuerdo a su
categoría. Es decir, existen w ∈ ℝ𝑑 y 𝑏 ∈ ℝ llamados vectores de peso y sesgo,
respectivamente, tales que: Si 𝑦𝑖 = 1 ⇒ ⟨𝑤, 𝑥𝑖⟩ + 𝑏 > 0 o bien, si 𝑦𝑖 = −1 ⇒ ⟨𝑤, 𝑥𝑖⟩ +𝑏 > 0. Equivalentemente tenemos la restricción de que
∃𝛾 > 0 ∶ 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 𝛾
para cada 𝑖 = 1, … , 𝑛.
La ecuación del hiperplano separador es entonces ⟨𝑤, 𝑥⟩ + 𝑏 = 0. Definimos el margen del
hiperplano con respecto a 𝑆 como la distancia euclídea mínima entre el hiperplano y los
puntos de 𝑆. La SVM busca encontrar el hiperplano separador con margen maximal.
Para encontrar el margen maximal, dos hiperplanos paralelos son encontrados que toquen
los datos más cercanos de cada clase. Estos puntos más cercanos se llaman vectores de
soporte (resaltados en negro en la figura). Los dos hiperplanos paralelos están definidos,
después de una normalización, por las ecuaciones
⟨𝑤, 𝑥⟩ + 𝑏 = 1 ⟨𝑤, 𝑥⟩ + 𝑏 = −1
Lo cual da un margen de 2
‖𝑤‖ . De manera que el problema SVM constituye en maximizar el
margen 2
‖𝑤‖, o equivalentemente minimizar
‖𝑤‖2
2. El problema de optimización de encontrar
el margen maximal en su forma primal, que después de una normalización se expresa:
min‖𝑤‖2
2
𝑠. 𝑎. 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 1, 𝑖 = 1, … , 𝑛
En el caso no linealmente separable se consideran dos acercamientos. El primero consiste
en introducir variables de holgura y permitir que puntos de entrenamiento caigan dentro de
un margen a cambio de un costo. Esto se puede traducir en malas clasificaciones cuando las
clases están superpuestas, pero permite encontrar una frontera óptima de clasificación
minimizando un costo asociado. A saber añadimos 𝑧𝑖 ≥ 0, 𝑖 = 1, … , 𝑛. El problema se
reescribe como:
min𝑤
1
2‖𝑤‖2 + 𝐶 ∑ 𝑧𝑖
2
𝑛
𝑖=1
𝑠. 𝑎. 𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) ≥ 1 − 𝑧𝑖 , 𝑧𝑖 ≥ 0, 𝑖 = 1, … , 𝑛. Donde 𝐶 es una variable de costo que permite controlar el tamaño del margen.
Para obtener la formulación del problema dual con variables de holgura consideramos el
lagrangiano de la formulación primal anterior. El lagrangiano está dado por:
ℒ(𝑤, 𝑏, 𝑧, 𝜆, 𝛽) = 1
2‖𝑤‖2 + 𝐶 ∑ 𝑧𝑖
2
𝑛
𝑖=1
− ∑ 𝜆𝑖(𝑦𝑖(⟨𝑤, 𝑥𝑖⟩ + 𝑏) − 1 + 𝑧𝑖)
𝑛
𝑖=1
− ∑ 𝛽𝑖𝑧𝑖
𝑛
𝑖=1
con multiplicadores 𝜆𝑖 ≥ 0, 𝛽𝑖 ≥ 0. Igualando las derivadas parciales a 0 con respecto a las
variables primales 𝑤, 𝑏 y 𝑧𝑖, obtenemos:
𝑤 = ∑ 𝜆𝑖𝑦𝑖 𝑥𝑖
𝑛
𝑖=1
∑ 𝜆𝑖𝑦𝑖
𝑛
𝑖=1
= 0
𝛽𝑖 = 𝐶 − 𝜆𝑖 Con estos resultados, el programa dual está dado por:
min𝜆𝑖
1
2∑ ∑ 𝜆𝑖𝜆𝑗𝑦𝑖𝑦𝑗⟨𝑥𝑖, 𝑥𝑗⟩
𝑛
𝑗=1
𝑛
𝑖=1
− ∑ 𝜆𝑖
𝑛
𝑖=1
𝑠. 𝑎. 0 ≤ 𝜆𝑖 ≤ 𝐶, ∑ 𝜆𝑖𝑦𝑖 = 0
𝑛
𝑖=1
donde las restricciones 0 ≤ 𝜆𝑖 ≤ 𝐶 se obtiene al exigir 𝛽𝑖 ≥ 0.
En este caso la función de decisión para una observación no vista 𝑥, está dada por:
𝑓(𝑥) = 𝑠𝑔𝑛(∑ 𝜆𝑖𝑦𝑖⟨𝑥𝑖, 𝑥⟩
𝑛
𝑖=1
+ 𝑏)
La segunda posibilidad es extender el algoritmo SVM a clasificadores no lineales mediante
el uso de Kernels. Formalmente, un Kernel es una función 𝐾, tal que para todo 𝑥, 𝑧 ∈ 𝑋
𝐾(𝑥, 𝑧) = ⟨𝜙(𝑥), 𝜙(𝑧)⟩ donde 𝜙 es una función de 𝑋a un espacio de Hilbert ℱ. La idea central es que los datos pueden ser separados por alguna superficie no lineal, y tal
superficie puede ser calculada mapeando las variables de entrada a un espacio de
“características” de dimensión mayor y realizar una clasificación lineal en ese espacio. Es
decir, 𝑥𝑖 ∈ ℝ𝑑 es enviado a 𝜙(𝑥𝑖) = ( 𝜙1(𝑥𝑖), 𝜙2(𝑥𝑖) , … ) ∈ ℱ donde ℱ es un espacio de
Hilbert de dimensión mayor y {𝜙𝑚}𝑚=1𝑚=𝑙 son funciones reales y 𝑙 puede ser ∞.
Un hecho sobresaliente es que el calculo explicito de 𝜙 no es necesario dado que el
problema de optimización puede ser resuelto considerando el problema dual. Para el
problema dual, lo que realmente es importante son los productos internos de los vectores
del conjunto 𝑆. Cabe notar que bajo la transformación 𝜙, esto último es equivalente al
producto interno en el espacio ℱ. De acuerdo a lo anterior, lo más importante es contar con
una función que preserve, en espacios de dimensión alta, las propiedades de un producto
interno. Este es el caso de una función de tipo Kernel!
Ejemplos
Kernel lineal
𝐾(𝑥𝑖, 𝑥𝑗) = ⟨𝑥𝑖, 𝑥𝑗⟩
Kernel Polinomial de grado d
𝐾(𝑥𝑖, 𝑥𝑗) = (1 + ⟨𝑥𝑖, 𝑥𝑗⟩)𝑑
Kernel radial
𝐾(𝑥𝑖, 𝑥𝑗) = exp (−𝛾 ∑(𝑥𝑖(𝑘) − 𝑥𝑗(𝑘))2
𝑑
𝑘=1
)
donde 𝛾 > 0 es una constante que en cuanto mayor sea, mayor flexibilidad en la
clasificación tendrá la SVM.
En estos términos, el problema dual considerado en el espacio de dimensión más alta está
dado por:
max ∑ 𝜆𝑖 −1
2𝜆𝑡𝑄𝜆
𝑛
𝑖=1
𝑠. 𝑎. 𝑦𝑡𝜆 = 0 , 0 ≤ 𝜆𝑖 ≤ 𝐶 , 𝑖 = 1, … , 𝑛
Donde 𝐶 es una constante positiva y es 𝑄 ∈ ℝ𝑛𝑥𝑛 una matriz simétrica semidefinida
positiva, dada por 𝑄𝑖𝑗 = 𝑦𝑖𝑦𝑗𝐾(𝑥𝑖, 𝑥𝑗).
Sea 𝜆𝑖∗>0 una solución al problema anterior, debido a las condiciones optimales entre el
problema primal y dual se sabe que si 𝑤∗ y 𝑏∗son soluciones al problema en dimensión más
alta, entonces se satisface que
𝑤∗ = ∑ 𝜆𝑖∗𝑦𝑖 𝜙(𝑥𝑖)
𝑛
𝑖=1
y que
𝑏∗ = 1 − max(𝑦𝑗 = 1)(𝜔∗)𝑡𝜙(𝑥𝑗)
Con esta información, para un nuevo vector no observado, la función de decisión es
𝑓(𝑥) = 𝑠𝑖𝑔𝑛(∑ 𝑦𝑖𝜆𝑖∗𝐾(𝑥, 𝑥𝑖)
𝑛
𝑖=1
+ 𝑏∗)
Observe que en esta suma solo los 𝜆𝑖∗ > 0 son relevantes. Debido a las condiciones
optimales, también se sabe que estas componentes corresponden a los vectores de soporte.
Por lo tanto, el objetivo principal de la SVM es encontrar los vectores de soporte (SV).
Un inconveniente crucial de las SVM radica en su alta complejidad computacional para
conjuntos de bases de datos grandes. En entrenamiento, la SVM presenta un gasto en
memoria de tipo 𝑂(𝑁3) y en tiempo de 𝑂(𝑁2). Este problema ha sido tratado
extensivamente en la literatura al punto de que se han desarrollado dos técnicas principales
para su solución. La primera tiene como objetivo mejorar la fase de entrenamiento
utilizando diferentes técnicas de optimización y programación convexa. La segunda
consiste en extraer conjuntos de entrenamiento de SVM reducidos (significativamente más
pequeños), a partir de los cuales es probable que se determinen los SV. Para mayor
información sobre las diferentes técnicas estudiadas en la literatura, consultar [10] que
contiene una completa descripción del estado del arte de las técnicas para la aceleración del
entrenamiento de las SVM.
En la literatura existen diversos métodos cuyo objetivo es reducir el tamaño del conjunto de
entrenamiento a través de distintas técnicas de selección. Dentro de este marco de
referencia existe un principio común: los vectores de soporte de una sub-muestra son
cercanos (es decir, en distancia euclídea) a los SV de la SVM al tomar el conjunto de
entrenamiento total. Por ejemplo, al tomar una sub-muestra y realizar un entrenamiento
sobre dicho subconjunto se obtienen SV que, si bien no son necesariamente SV para la
muestra total, son cercanos a los SV del conjunto completo de datos (esto se debe
principalmente a que el hiperplano de separación con margen maximal de la submuestra
aproxima el hiperplano de separación maximal del conjunto de entrenamiento). El
procedimiento posterior consiste en seleccionar, bajo algún criterio matemático y muchas
veces de forma iterativa, vectores cercanos a los SV obtenidos por la sub-muestra y realizar
un entrenamiento final que aproxima la solución exacta. Una implementación de estas ideas
se encuentra expuesta en [4] bajo el criterio de k-nearest neighbors.
En este trabajo asumiremos que los datos de entrenamiento cuentan con una distribución
subyacente (y que cumple ciertas condiciones de regularidad) y usaremos un criterio de
selección basado en la proximidad de los SV con subconjuntos definidos por la distribución
empírica acumulada. La idea es: dado que la distribución de los datos se aproxima bien
(precisamente para datos grandes) por la distribución empírica acumulada, usaremos la
última para definir regiones en el conjunto de datos de entrenamiento. Naturalmente dicha
regiones representarán conjuntos de datos cuyas funciones de probabilidad acumulada
tienen valores cercanos y, por consiguiente, serán conjuntos de datos cercanos entre sí en
un sentido probabilístico. Sin embargo, por los resultados del capítulo 3 sabemos que
también serán regiones cercanas geométricamente! Además, por los resultados del capítulo
4 conocemos el valor de la tasa de error de estimación de la distancia de Hausdorff entre
estas regiones. La buena noticia es que este error es pequeño, precisamente para conjuntos
de datos grandes. A continuación explicamos más detalles de nuestro método a través de un
ejemplo ilustrativo.
La imagen anterior es una ilustración de nuestro método en dos dimensiones. Por las
propiedades de la distribución empírica acumulada sabemos que la frontera de los
conjuntos de nivel lucen como escaleras (ver imagen) cuyos escalones están definidos por
los puntos en que se alcanza el valor umbral dado. En este caso, se eligieron 4 valores
límite. Se sabe que la escalera inferior corresponde al umbral inferior y la escalera superior
corresponde al valor umbral superior, en notación del capítulo 3, las 4 escaleras podrían
corresponder a los conjuntos ℒ𝑛(0.2), ℒ𝑛(0.4), ℒ𝑛(0.6), ℒ𝑛(0.8); siendo la última la que se
encuentra más arriba. Como se ve, las frontera dividen el espacio ℝ2 en 5 regiones dadas
por los subconjuntos cuyas fronteras son cada una de las escaleras. Estas 5 regiones las
llamaremos franjas. Además sabemos que en cada una de estas franjas contienen
aproximadamente un 20% de los datos. Con base a esto, proponemos un método que
consiste en tomar una sub-muestra del conjunto de datos, realizar un entrenamiento de
SVM y construimos las franjas empíricas. Posteriormente, calculamos los SV
correspondientes a la sub-muestra y contamos cuántos de ellos caen en cada franja.
Después seleccionamos aleatoriamente una cantidad de vectores proporcionalmente al
número de SV en cada franja. Por ende, obtendremos más vectores (y cercamos) de las
regiones que tienen mayor probabilidad (en distribución) de tener SV de la muestra total.
5.2 Algoritmo Como se discutió al final de la sección anterior un acercamiento típico para entrenar
SVM en conjunto de datos grandes consiste en utilizar algoritmos de sub-muestreo y
detección de vectores de soporte en conjuntos reducidos de datos y luego volver a tomar
muestras en regiones cercanas a los 𝑆𝑉 encontrados. Por los resultados de los capítulos 3 y
4 (ver notas 3.2.3 y 4.15.1), tenemos que los conjuntos de nivel de la distribución empírica
guardan una estrecha relación con la distribución real de los datos. De hecho, podemos
decir que la distribución empírica estima con un error de 6𝐴log 𝑛
√𝑛, donde 𝐴 es una constante,
la proximidad geométrica con respecto a los conjuntos de nivel de la distribución real de los
datos. Dado que el espacio ℝ𝑑 está naturalmente dividido por los conjuntos de nivel de la
distribución de los datos, proponemos un algoritmo cuya ‘medida de cercanía’ es caer en
las mismas regiones definidas por la distribución acumulada empírica. Así generaremos
más datos en aquellas regiones con una mayor proporción de vectores de Soporte.
A continuación enunciamos el algoritmo con el que trabajaremos. Es importante señalar
que todas las implementaciones se realizaron con un kernel polinomial de grado 3 y coste 1.
Algoritmo 1: Enriquecimiento muestral de acuerdo a proporción de SV en franjas
empíricas
1. Del conjunto de datos, calculamos las 4 coordenadas con mayor correlación en
valor absoluto con la respuesta 𝑎𝑟𝑔𝑚𝑎𝑥𝑖 = |𝑐𝑜𝑟(𝑋[, 𝑖], 𝑌)| y reducimos los datos a
estas 4 coordenadas únicamente. Formando el conjunto de entrenamiento 𝒯 en
dimensión 4.
2. Dado el conjunto de entrenamiento 𝒯 , tomamos una sub-muestra aleatoria de
tamaño 10%, 𝒮1. Realizamos un entrenamiento de SVM sobre 𝒮1 y reportamos el
número de SV y el porcentaje en cada categoría (%𝑆𝑉1 y %𝑆𝑉−1).
3. A partir 𝒮1𝑐 seleccionamos una cantidad de 𝑛𝑖 = (%𝑆𝑉𝑖 ) ∗ 𝜌 ∗ |𝒯| vectores de cada
categoría, i.e. un 𝜌% de los datos y formamos los conjuntos 𝔗1 e 𝔗−1.
4. Con los vectores en 𝔗𝑖 calculamos la función de distribución acumulada 𝐹𝑖 de cada
categoría. Construimos los vectores 휂1 = (𝐹1(𝑥1,𝑗))𝑗
, 𝑥1,𝑗 ∈ 𝔗1 y 휂−1=()
5. Extraemos los cuantiles empíricos del 33% y 66% de cada uno de estos vectores,
obteniendo las cantidades 𝑞31 , 𝑞6
1 , 𝑞3−1, 𝑞6
−1. Creamos las franjas 𝐹𝑗1, 𝐹𝑗
−1 𝑗 = 1,2,3.
6. Calculamos el porcentaje de 𝑆𝑉 que caen en cada franja %𝑆𝑉𝑖𝑗 .
7. Enriquecemos la muestra con (%𝑆𝑉𝑖𝑗) ∗ (%𝑆𝑉𝑖 ) (𝜌
3) ∗ |𝒯| vectores de cada franja,
para obtener la muestra 𝒮𝑓𝑖𝑛𝑎𝑙. Entrenamos una máquina de SVM sobre 𝒮𝑓𝑖𝑛𝑎𝑙 ,
testeamos y reportamos.
Aclaraciones:
𝜌 es un parámetro que definimos y decide qué porcentaje de los vectores usaremos
para construir las franjas empíricas.
Una franja 𝐹𝑗𝑖 es el conjunto de puntos que se encuentran entre dos valores umbral
en el valor de la distribución empírica acumulada. Con la notación del capítulo 3,
𝐹𝑗𝑖 = {𝑥: 𝑦 = 𝑖,
𝑗 − 1
3≤ 𝐹𝑛(𝑥) ≤
𝑗
3} = ℒ𝑛𝑖
(1 −𝑗 − 1
3) ∩ ℒ𝑛𝑖
(1 −𝑗
3)
La cantidad (%𝑆𝑉𝑖𝑗) indica la proporción de 𝑆𝑉 de categoría 𝑖 en la franja 𝐹𝑗𝑖
Los cuantiles empíricos nos permiten estimar la proporción de vectores que
geométricamente están “arriba y la derecha” (todas las coordenadas superiores). Por
ejemplo, para un vector 𝑣, si 𝐹1(𝑣) < 𝑞31 nos dice que 𝑣 tiene por lo menos un 66%
de los datos de categoría 1 arriba y a la derecha.
El cálculo de la f.d.e.a. se realiza de forma directa (fuerza bruta) que tiene una
complejidad computacional del orden 𝑂(𝑁2).
5.3 Implementaciones El algoritmo se implementó en 6 bases de datos que se describen a continuación. Las bases
de datos fueron tomadas de (https://github.com/EpistasisLab/pmlb/tree/master/datasets) y
de UCI: Machine Learning Repository. Todas las implementaciones se corrieron con los
parámetros de coste 𝐶 = 1 y kernel polinomial de grado 𝑑 = 3.
Tabla 1: Descripción de las bases de datos
Base de datos # de instancias # de atributos Porcentaje en cada categoría (-1:1) Magic 19020 10 65%-35%
Phoneme 5404 5 71%-29%
Ring 7400 20 50%-50%
HTRU_2 17897 8 91%-9%
Skin No Skin 245056 3 21%-79%
Default Credit 30000 23 78%-22%
Tabla 2: Tiempos de computo y tasas de error para SVM con entrenamiento completo
Base de datos Tiempo (s) %Tasas de error Magic 2144.981 18.43
Phoneme 136.604 21.3
Ring 639.745 3.11
HTRU_2 377.297 2.32
Skin No Skin 200201.059 5.16
Default Credit 8091.241 20.44
Tabla 3: Tiempos de computo y tasas de error Algoritmo 1 𝜌 = 0.15
Base de datos Tiempo (s) %Tasas de error Magic 862.027 22.98
Phoneme 72.033 27.41
Ring 151.295 36.11
HTRU_2 268.894 2.57
Skin No Skin 80489.870 9.55
Default Credit 5586.644 23.98
Histogramas de correlaciones
Se hicieron pruebas adicionales para las bases de datos que tenían pocas variables
con correlación alta. En particular, para Magic (tres variables en correlación alta) y
para Phoneme, obteniendo resultados muy similares a los de 4 variables.
Respectivamente obtuvimos tiempos de 827.83 y 61.669 y tases de % en el error de
clasificación de 24.43 y 27.41. Lo cual supone una mejora apenas del 4% y del 15%
del tiempo y un empeoramiento de la tasa de error del 6% y del 0%. Este cambió
resultó efectivo en la base de datos Phoneme, pero no tanto en la base de datos
Magic.
Se hicieron pruebas en las que no se consideraban las correlaciones, se corría sobre
todas las variables (i.e. el Algoritmo 1 sin considerar el paso 1). Resumidas a
continuación en la tabla 4:
Tabla 4: Tiempos de computo y tasas de error Algoritmo 1 𝜌 = 0.15, todas las variables
Base de datos Tiempo (s) %Tasas de error Magic 4411.981 21.09
Phoneme 352.810 23.06
Ring 3267.274 20.94
HTRU_2 456.753 2.38
Capitulo 6
Conclusiones
En este trabajo se propuso un método para encontrar Vectores de Soporte en bases de datos
grandes, a partir de una búsqueda en regiones definidas por la distribución empírica
acumulada. La idea fue generar un mayor número de datos de aquellas regiones con una
mayor proporción de Vectores de Soporte. Ensayamos el algoritmo en 6 bases de datos de
distinto tamaño y número de atributos. Teniendo en cuenta el costo computacional de los
cálculos se propuso disminuir los conjuntos de datos a dimensión 4 (excepto para la base de
datos Skin No Skin que ya está dimensión 3). Esto también funcionó como una medida para
reducir el conjunto de datos a únicamente las 4 variables con mayor influencia en la
variable de respuesta “𝑌" . Los resultados son variados y en cualquier caso regulares.
Naturalmente, se redujo el tiempo de computo a niveles cercanos a la mitad. Pero se
incrementó (en algunos casos) considerablemente la tasa de error en comparación al
entrenamiento SVM con el conjunto completo de entrenamiento.
Según nuestras implementaciones se puede concluir:
El método no es igualmente eficiente en todos los casos. El tamaño y el balance de
los datos influye en los resultados finales. Se observaron mejores resultados en las
bases de datos más desbalanceadas (i.e. las bases de datos con un alto porcentaje de
datos de una categoría en especial ) y de tamaños inferiores a 30000. Una (posible)
explicación a esto se debe a que las bases de datos más desbalanceadas tienden a
acumular más vectores de soporte de una sola categoría dándole un peso importante
a una o dos franjas en especifico. Mientras que en las bases de datos balanceadas el
método no logra capturar la información deseada al tener franjas con pesos muy
similares.
El método es inferior al propuesto en [4] que reporta reducciones de tiempo entre el
80 y 90% (nuestro método llega como máximo a reducciones del 60%).
El método es más eficiente en las bases de datos que tienen pocas variables con
correlación alta. El número de 4 variables, que en principio es arbitrario, puede
funcionar o no, dependiendo de los valores de las correlaciones. En el caso de Ring
falló porque son muchas las variables con correlaciones altas y solo tomar 4 puede
resultar muy restrictivo. Por otra parte los mejores resultados se obtuvieron en las
bases de datos Magic, Skin No Skin y Phoneme que tienen pocas variables de
correlación alta. Sin embargo, se esperaban mejores resultados en la base de datos
Default Credit. Frente a esto se puede decir que esta última base de datos tiene
demasiadas variables con correlación baja que en conjunto pueden tomar peso en
relación a la respuesta.
El método falla en dimensiones altas, el costo computacional de calcular la f.d.e.a.
es demasiado alto. Resulta eficiente en dimensiones bajas ≤ 10 . Como se vió,
utilizar todas las variables no mejora mucho las tasas de error, pero sí dispara los
tiempos, por lo que el acercamiento de las correlaciones es válido. Sería necesario
introducir una medida para definir el conjunto minimal de variables necesarias.
Algunos comentarios finales:
Como trabajo futuro indicamos que el tiempo de computo puede reducirse drásticamente
utilizando un algoritmo alternativo para calcular la función de distribución acumulada
empírica. La complejidad computacional expuesta aquí es del orden 𝑂(𝑁2). Sin embargo,
hacia el final del trabajo de grado se encontraron algoritmos alternativos en un paper
reciente: [8]. En este documento se exponen algoritmos con complejidad computacional
𝑂(𝑁𝑙𝑜𝑔𝑁) u 𝑂(𝑁𝑙𝑜𝑔(𝑁)𝑑−1). También se considera la posibilidad de tomar un mayor
número de franjas, y hacerlas cada vez más finas (a un nivel del 10%, por ejemplo). De esta
forma la información tocante a la ubicación geométrica de los vectores de soporte es más
especifica y se espera que la búsqueda sea aún más eficiente.
Referencias [1] R.B. Ash. Basic probability theory. Dover Books on Mathematics. Dover Publications, 2008.
[2] R.M. Dudley. Real analysis and Probability. Cambridge University Press, 2002.
[3] V. Vapnik and A. Chervonenkis. Theory of Pattern Recognition. Nauka, 1974.
[4] S.A. Camelo, M.D. González-Lima, and A.J. Quiroz. Nearest neighbors methods for support
vector machines. Ann Oper Res, 235:85–101, 2015.
[5] Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods. Cambridge University Press, 2000.
[6] Elena Di Bernardino, Thomas Laloë, Véronique Maume-Deschamps, and Clémentine Prieur. Plug-in estimation of level sets in a non-compact setting with applications in multivariate risk
theory. ESAIM: Probability and Statistics, 17:236–256, 2013.
[7] D. Pollard. Convergence Of Stochastic Processes. Springer-Verlag, New York, 1984.
[8] N. Langrené and Xavier Warin. Fast multivariate empirical cumulative distribution function
with connection to kernel density estimation. In: ArXiv e-prints (May 2020). arXiv: 2005.03246
[9] N. Etemadi. An Elementary Proof of the Strong Law of Large Numbers. Z. Wahrschein-
lichkeitstheorie verw Gebiete 55, 119–122 (1981).
[10] Nalepa, J., Kawulok, M. Selecting training sets for support vector machines: a review. Artif
Intell Rev 52, 857–900 (2019).