101
Minimiza¸c˜ ao de Arrependimento Vin´ ıcius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP) Minimiza¸c˜ ao de Arrependimento Dezembro 2014 1 / 22

Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Minimizacao de Arrependimento

Vinıcius Pimentel CoutoProf. Rafael Schouery

IC/UNICAMP

Dezembro 2014

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 1 / 22

Page 2: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 3: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 4: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 5: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno t

I pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 6: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 7: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])

I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 8: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 9: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 10: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 11: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 12: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Problema: decisoes repetidas com resultados incertos.

Modelo:

X = {1, ..., N} = Conjunto das N acoes disponıveis

pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t

`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes

`tH =∑N

i=1 pti`

ti = Prejuızo do algoritmo H no passo t

LTi =

∑Tt=1 `

ti = Prejuızo da acao i nos primeiros T turnos

LTH =

∑Tt=1 `

tH =

∑Tt=1

∑Ni=1 p

ti`

ti = Prejuızo do algoritmo H nos

primeiros T turnos

R = LTH − LT

G = Arrependimento (Regret)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22

Page 13: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Theorem

Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:

R ≥ T (1− 1/N)

PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.

Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:

R = LTH − LT

min, onde LTmin = miniL

Ti

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22

Page 14: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Theorem

Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:

R ≥ T (1− 1/N)

PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.

Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:

R = LTH − LT

min, onde LTmin = miniL

Ti

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22

Page 15: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Theorem

Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:

R ≥ T (1− 1/N)

PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.

Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:

R = LTH − LT

min, onde LTmin = miniL

Ti

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22

Page 16: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Theorem

Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:

R ≥ T (1− 1/N)

PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.

Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:

R = LTH − LT

min, onde LTmin = miniL

Ti

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22

Page 17: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Problema e modelo

Theorem

Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:

R ≥ T (1− 1/N)

PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.

Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:

R = LTH − LT

min, onde LTmin = miniL

Ti

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22

Page 18: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 19: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 20: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 21: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 22: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 23: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:

I Lt−1min = mini∈XL

t−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 24: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 25: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}

I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 26: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.

Por simplicidade, assumimos que `ti = {0, 1}

Algoritmo:

Inicializacao: x1 = 1

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I xt = min{St−1}

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22

Page 27: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Theorem

Para qualquer sequencia de prejuızos o algoritmo guloso tem:

LTGreedy ≤ N · LT

min + (N − 1)

PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt

min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt

min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt

min

aumenta.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22

Page 28: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Theorem

Para qualquer sequencia de prejuızos o algoritmo guloso tem:

LTGreedy ≤ N · LT

min + (N − 1)

PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt

min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt

min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt

min

aumenta.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22

Page 29: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo Guloso (Greedy)

Theorem

Para qualquer sequencia de prejuızos o algoritmo guloso tem:

LTGreedy ≤ N · LT

min + (N − 1)

PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt

min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt

min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt

min

aumenta.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22

Page 30: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Prejuızo de algoritmos determinısticos

Theorem

Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT

D = T e LTmin = bT/Nc.

(O que implica que LTD ≥ N · LT

min + (TmodN), o que e proximo dolimite do Greedy).

PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT

D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo

D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT

min ≤ bT/Nc.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22

Page 31: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Prejuızo de algoritmos determinısticos

Theorem

Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT

D = T e LTmin = bT/Nc.

(O que implica que LTD ≥ N · LT

min + (TmodN), o que e proximo dolimite do Greedy).

PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT

D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo

D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT

min ≤ bT/Nc.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22

Page 32: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Prejuızo de algoritmos determinısticos

Theorem

Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT

D = T e LTmin = bT/Nc.

(O que implica que LTD ≥ N · LT

min + (TmodN), o que e proximo dolimite do Greedy).

PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT

D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo

D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT

min ≤ bT/Nc.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22

Page 33: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 34: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 35: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 36: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 37: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:

I Lt−1min = mini∈XL

t−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 38: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 39: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}

I pti =1

|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 40: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: p1i = 1/N para todo i ∈ X.

A cada passo t:I Lt−1

min = mini∈XLt−1i

I St−1 = {i : Lt−1i = Lt−1

min}I pti =

1|St−1| , se i ∈ St−1;

ou 0, caso contrario.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22

Page 41: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Theorem

O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:

LTRG ≤ (1 + lnN)LT

min + (lnN)

PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer

turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′

pode ser limitado por 1n′ +

1n′−1 + ... + 1

(n′−k+1) . Portanto, ao longo do

intervalo (tj , tj+1], o prejuızo do RG e no maximo:

1

N+

1

N − 1+ ...+

1

1≤ 1 + lnN.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22

Page 42: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Theorem

O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:

LTRG ≤ (1 + lnN)LT

min + (lnN)

PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer

turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′

pode ser limitado por 1n′ +

1n′−1 + ... + 1

(n′−k+1) . Portanto, ao longo do

intervalo (tj , tj+1], o prejuızo do RG e no maximo:

1

N+

1

N − 1+ ...+

1

1≤ 1 + lnN.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22

Page 43: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Algoritmo guloso randomizado

Theorem

O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:

LTRG ≤ (1 + lnN)LT

min + (lnN)

PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer

turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′

pode ser limitado por 1n′ +

1n′−1 + ... + 1

(n′−k+1) . Portanto, ao longo do

intervalo (tj , tj+1], o prejuızo do RG e no maximo:

1

N+

1

N − 1+ ...+

1

1≤ 1 + lnN.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22

Page 44: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 45: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 46: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 47: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 48: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 49: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:

I Se `t−1i = 1, wti = wt−1

i (1− η); senao, wti = wt−1

i .I pti = wt

i/Wt, onde W t =

∑i∈X wt

i .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 50: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 51: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .

Ainda assumimos que `ti = {0, 1}.

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I Se `t−1i = 1, wt

i = wt−1i (1− η); senao, wt

i = wt−1i .

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22

Page 52: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Theorem

Para η ≤ 1/2 o prejuızo do Randomized Weighted Majority(RWM), paraquaisquer sequencias de prejuızos, satisfaz:

LTRWM ≤ (1 + η)LT

min +lnN

η

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 10 / 22

Page 53: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Randomized weighted majority

Theorem

Para η ≤ 1/2 o prejuızo do Randomized Weighted Majority(RWM), paraquaisquer sequencias de prejuızos, satisfaz:

LTRWM ≤ (1 + η)LT

min +lnN

η

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 10 / 22

Page 54: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I wt

i = wt−1i (1− η`t−1i ).

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 55: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I wt

i = wt−1i (1− η`t−1i ).

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 56: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I wt

i = wt−1i (1− η`t−1i ).

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 57: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:

I wti = wt−1

i (1− η`t−1i ).I pti = wt

i/Wt, onde W t =

∑i∈X wt

i .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 58: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I wt

i = wt−1i (1− η`t−1i ).

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 59: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Ideia: generalizacao do RWM para prejuızos em [0, 1].

Algoritmo:

Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X

A cada passo t:I wt

i = wt−1i (1− η`t−1i ).

I pti = wti/W

t, onde W t =∑

i∈X wti .

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22

Page 60: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Polynomial weights algorithm

Theorem

Para η ≤ 1/2, qualquer `ti ∈ [0, 1] e qualquer k o prejuızo do PolynomialWeights Algorithm satisfaz:

LTPW ≤ LT

k + ηQTk +

lnN

η

onde QTk =

∑Tt=1(`

tk)

2.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 12 / 22

Page 61: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 62: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 63: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 64: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 65: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 66: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 67: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game

Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .

M = Conjunto de m jogadores

Xi = Conjunto de N acoes do jogador i

si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]

P ti = distribuicao de probabilidade do jogador i no turno i

P t−i = distribuicao de probabilidade dos outros jogadores

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22

Page 68: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.

Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22

Page 69: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

G = 〈{1, 2}, (Xi), (si)〉

s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.

Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22

Page 70: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.

Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22

Page 71: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.

Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22

Page 72: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

Theorem

Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .

PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT

min ≤ LTk ≤ v1T .

Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT

ON ≤ LTmin +R ≤ v1T +R.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22

Page 73: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

Theorem

Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .

PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT

min ≤ LTk ≤ v1T .

Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT

ON ≤ LTmin +R ≤ v1T +R.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22

Page 74: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Constant sum game de dois jogadores

Theorem

Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .

PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT

min ≤ LTk ≤ v1T .

Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT

ON ≤ LTmin +R ≤ v1T +R.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22

Page 75: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 76: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 77: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 78: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 79: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 80: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 81: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 82: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap regret

Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.

F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.

f ti =∑

j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.

I f t = F t(pt) = Nova distribuicao de probabilidade

Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:

switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.

regreti(x, f) = si − si(f(xi), x−i)

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22

Page 83: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Correlated Equilibrium

Definition

Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0

Definition

Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22

Page 84: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Correlated Equilibrium

Definition

Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0

Definition

Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22

Page 85: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Correlated Equilibrium

Definition

Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0

Definition

Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:

Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22

Page 86: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap Regret e Correlated Equilibrium

Theorem

Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.

Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22

Page 87: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap Regret e Correlated Equilibrium

Theorem

Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.

Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22

Page 88: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Swap Regret e Correlated Equilibrium

Theorem

Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.

Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22

Page 89: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 90: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 91: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.

A cada turno t:I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 92: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 93: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 94: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 95: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.

Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:

I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;

I Calculamos pt de modo que ptj =∑

i ptiq

ti,j .

I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai

um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q

ti · `t).

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22

Page 96: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 20 / 22

Page 97: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

Como Ai e um algoritmo de arrependimento R, temos que:

T∑t=1

pti(qti · `t) ≤

T∑t=1

pti`ti +R

Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:

LTH ≤

N∑i=1

T∑t=1

pti`tF (i) +NR = LT

H,F +NR

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22

Page 98: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

Como Ai e um algoritmo de arrependimento R, temos que:

T∑t=1

pti(qti · `t) ≤

T∑t=1

pti`ti +R

Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:

LTH ≤

N∑i=1

T∑t=1

pti`tF (i) +NR = LT

H,F +NR

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22

Page 99: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

Como Ai e um algoritmo de arrependimento R, temos que:

T∑t=1

pti(qti · `t) ≤

T∑t=1

pti`ti +R

Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:

LTH ≤

N∑i=1

T∑t=1

pti`tF (i) +NR = LT

H,F +NR

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22

Page 100: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

Assim, temos os seguintes teorema:

Theorem

Dado um algoritmo com external regret R e qualquer funcaoF : {1, ..., N} → {1, ..., N}, H tem prejuızo:

LH ≤ LH,F +NR

Ou seja, o swap regret de H e no maximo NR.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 22 / 22

Page 101: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)

Reducao de External para Swap Regret

Assim, temos os seguintes teorema:

Theorem

Dado um algoritmo com external regret R e qualquer funcaoF : {1, ..., N} → {1, ..., N}, H tem prejuızo:

LH ≤ LH,F +NR

Ou seja, o swap regret de H e no maximo NR.

(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 22 / 22