ゲーム理論の無線リソース制御への応用 · 機械学習・強化学習．特にカメラ画像によるミリ波制御西尾理志先生, 2013～ワイヤレス電力伝送,

ゲーム理論の無線リソース制御への応用

山本高至

京都大学大学院情報学研究科

2018-12-18 情報理論研究会若手研究者のための講演会

自己紹介 — 代表的研究・共同研究者 — アカデミック寄りのもの —

▶ リソース制御の確率幾何解析Prof. Seong-Lyun Kim (Yonsei Univ.), 2016～

▶ 機械学習・強化学習．特にカメラ画像によるミリ波制御西尾理志先生, 2013～

▶ ワイヤレス電力伝送, 篠原真毅先生, 2011～▶ IoT, IEEE 802.11ah, 守倉正博先生, 2011～▶ フルデュプレックス羽田勝之先生, Dr. Taneli Riihonen, Mr. Sathya N. Venkatasubramanian(Aalto Univ.), Prof. Mikko Valkama, Dr. Ville Syrjala, Dr. Dani Korpi(Tampere Univ. Tech.) 2010～

▶ コグニティブ無線，無線リソース制御，ポテンシャルゲームProf. Jens Zander (KTH), 2008～

▶ マルチホップセルラ，マルチホップ・アドホック，ゲーム理論吉田進先生, 村田英一先生, 2001～

干渉対策の観点では一貫2 / 46

ハイブリッドフルデュプレックスの提案と最適リソース割当

中継局 Rが同一周波数帯で同時に送受信すると，大きな回り込み干渉→ハーフデュプレックス (Phase 1+3)が一般的回り込み干渉をアンテナ設計，アナログ・ディジタルでキャンセル→フルデュプレックス (Phase 2)という新たな流れどちらかよい方ではなく，いいとこ取りのスケジューリングを提案

Phase 1 τ1

Phase 2 τ2

Phase 3 τ3

S R D

S R D

S R D

CSR2 CRD2

CSR1

CRD3

S to R

R to D

time

time

τ1 τ2 τ3

CSR1CSR2

CRD2

CRD3

maximize(τ1,τ2,τ3)

t

subject to t ≤ τ1CSR1 + τ2CSR2, t ≤ τ2CRD2 + τ3CRD3,

τ1 ≥ 0, τ2 ≥ 0, τ3 ≥ 0, τ1 + τ2 + τ3 ≤ 1

K. Yamamoto, K. Haneda, H. Murata, and S. Yoshida, “Optimal transmission scheduling for a hybrid offull- and half-duplex relaying,” IEEE Commun. Lett., vol. 15, no. 3, Mar. 2011

3 / 46

単一の通信

SNR

物理層(OSI参照モデル第 1層)

信号処理アンテナ・伝搬情報・符号理論

シャノンの通信路容量(周波数利用効率)

ln(1 + SNR) nat/s/Hz

複数の同一周波数帯同時通信

SINR

データリンク層(OSI参照モデル第 2層)

無線リソース制御メディアアクセス制御最適化理論？ゲーム理論？

4 / 46

大容量 (無線)通信を実現するためには

シャノンの通信路容量 (情報理論)

W︸︷︷︸(1)

ln(1 + SNR︸︷︷︸(2)

) nat/s /通信路︸︷︷︸(3)

(1) 帯域幅W を拡大シンボルレート増大マルチキャリア伝送OFDM

ミリ波周波数共用→干渉制御必要手段：リソース制御

(2) SNRを増大適応変調・多値変調高利得アンテナビームフォーミング伝搬損の小さいチャネル中継による不感地帯対策

(3)通信路の数を増大MIMO通信路(Massive MIMO)

稠密基地局設置densification

空間的周波数再利用→干渉制御必要手段：リソース制御

W log2(1 + SNR) bit/s と同じ5 / 46

空間的周波数再利用 Spatial Channel Reuse

再利用なし周波数・時間を分割して割当p1

G11p1

G11 G22

W

2ln

(1 +

G11p1σ1

2

)+W

2ln

(1 +

G22p2σ2

2

)

帯域が半分に時分割の場合の式

再利用あり同一周波数で同時に通信p1 p2

G11p1 G12p2

G11 G22G12

W ln

(1 +

G11p1G12p2 + σ1

2

)+W ln

(1 +

G22p2G21p1 + σ2

2

)

干渉発生干渉の分布を雑音のものと同じと見なす場合の式

6 / 46

最適送信電力制御問題の定式化

p1 p2

G11p1 G12p2

G11 G22G12

通信路容量の総和の最大化問題 sum rate maximization problem

max(p1,p2)

[ln

(1 +

G11p1G12p2 + σ12

)+ ln

(1 +

G22p2G21p1 + σ22

)]nat/s/Hz

目的関数は非凹関数 (符号反転して最小化にしたときに非凸関数)

▶ 理由：ヘッセ行列 = 正定値▶ 結論：(非線形計画法のうち利用しやすい) 凸計画法は適用不可

7 / 46

チャネル割当も含めた最適無線リソース制御問題

maximize(pi,ci)i∈N

∑i∈N

ln

(1 +

Giipi∑j∈N\{i}Gijpj1(cj = ci)︸︷︷︸

同一チャネル干渉

+ σi2

)(1)

(1)でチャネル (ci)を固定した最適送信電力制御問題 (連続最適化)の目的関数は非凹(1)で送信電力 (pi)を固定した最適チャネル割当問題 (離散最適化・組合せ最適化)はNP困難 [Raniwala+2004; Hayashi+2009]

いずれにせよ，最適無線リソース制御問題の最適解は解析的には求まらない

一般的には　経験則

ヒューリスティクス　[Raniwala+2004] A. Raniwala, K. Gopalan, and T.-C. Chiueh, “Centralized channel assignment androuting algorithms for multi-channel wireless mesh networks,” ACM SIGMOBILE Mobile Comp. Commun.Rev., vol. 8, no. 2, Apr. 2004

[Hayashi+2009] S. Hayashi and Z.-Q. Luo, “Spectrum management for interference-limited multiusercommunication systems,” IEEE Trans. Inf. Theory, vol. 55, no. 3, Mar. 2009

8 / 46

根本的原因の把握と，山本のアプローチ

問題を難しくしているのは，干渉である根拠(1)で干渉項を無しにすれば∑i∈N

ln

1 +Giipi

(((((((((((((∑j∈N\{i}Gijpj1(cj = ci) + σi2

凹関数となる．送信電力 (pi)に関して単調増加であり最大送信電力に設定すればよい．特段役には立たないが...

山本のアプローチ1. ゲーム理論・強化学習干渉を相互作用と捉え，相互作用の取り扱いを可能とするゲーム理論・強化学習を適用

2. 確率幾何ランダムに存在する送信点からの干渉の分布を解析的に扱うことのできる確率幾何を適用

9 / 46

ポアソン点過程 [Haenggi2012, §2.4]位置が独立な，密度 λの点をそう呼ぶ領域B ⊂ Rdに含まれる点の数 Φ(B)は期待値 λ|B|のポアソン分布に従う

P(Φ(B) = n

)=

e−λ|B|(λ|B|)n

n!

▶ d = 1ならポアソン到着▶ Bの中に点がない P

(Φ(B) = 0

)= e−λ|B|

▶ Bの中に点がある P(Φ(B) = 0

)= 1− e−λ|B|

[山本 2017] 山本高至, “セルラネットワークの確率幾何解析の基礎,” Japanese, in 信学技報, CQ2017-57,Aug. 2017 http://bit.ly/RCS201705

10 / 46

http://bit.ly/RCS201705

確率幾何が広く使われる契機となった [Andrews+2011]の重要な結果

セルラ基地局の位置をポアソン点過程ユーザは最近傍基地局に接続 (Poisson-Voronoi cells)受信電力変動は指数分布に従う (レイリーフェージング)距離減衰定数 α > 2

以上の仮定で，SIRの面的分布 (cdf, ccdf)が直接求まりα = 4で閉形式(ただし，[山本 2017]全部の理解必要)

-20

-10

0

10

20

30

w/o fading

P(SIR > θ) = · · ·

=1

1 + 2θα−2 2F1

(1, 1− 2

α; 2− 2

α;−θ

)︸︷︷︸=√θ arctan

√θ (α=4)

すなわち，[Andrews+2011]によりセルラネットワークに確率幾何解析が適用可能と示された

0

1

−20 −10 0 10 20 30

P(SIR

≤θ)

θ (dB)

−20

−10

0

10

20

30

with fading

[Andrews+2011] J. G. Andrews, F. Baccelli, and R. K. Ganti, “A tractable approach to coverage and ratein cellular networks,” IEEE Trans. Commun., vol. 59, no. 11, Nov. 2011 11 / 46

無線 LAN遅いなあ...

12 / 46

周波数チャネル

受信電力

青と赤の 2チャネル・3通信組受信局での同一チャネル干渉電力が最小のチャネルを選択するとどうなるか

14 / 46

interference

serious interference

15 / 46

serious in-terference

interference

▶ 別の受信局が深刻な干渉を受けるようになっただけ▶ ループが起こる▶ どのように定式化して議論すれば良いか？

16 / 46

局 1: maxc1∈{blue,red}

u1(c1, c2, c3) 局 2: maxc2∈{blue,red}

u2(c1, c2, c3)


u3(c1, c2, c3)

▶ I := {1, 2, 3}：送受信局組の添字集合

▶ ci：送受信局 i ∈ I のチャネル▶ 同一チャネル干渉電力

Ii(c) :=∑

j∈I\{i}

同一チャネルであれば受信局 i が送信局 j より受ける電力︷︸︸︷

GijP 1(cj = ci)

▶ ui(c) := −Ii(c)符号反転で最大化問題に

▶ Gij：送信局 j・受信局 i間の電力利得

▶ P：送信電力

▶ 1(cond) :=

{1 if cond is true,

0 otherwise.17 / 46


u1(c1, c2, c3) 局 2: maxc2∈{blue,red}

u2(c1, c2, c3)


u3(c1, c2, c3)

1. 局 1は，　チャネル変数　 c1 を青と赤から選んで　

−受信干渉電力

目的関数　 u1 を大きくしたい

2. 局 1の目的関数 u1 は，自局 1の　チャネル変数　 c1 だけでなく

他局 2,3の　チャネル変数　 c2, c3 にも依存する関数 (

:::干渉の影響)

3. 各局は，他局の　チャネル変数　は変更不可

18 / 46

　せんりゃくがた戦略形　 2人ゲーム (two-player strategic form game)max

x1

f1(x1, x2)

maxx2

f2(x1, x2)

非協力ゲーム理論で扱われる最もシンプルかつ基礎的な問題

(経済学での)教科書では，こう明示的に書いていないことが多い最適化理論の表記に慣れている方には，この表記で説明したい

19 / 46

戦略形 2人ゲームの捉え方・重要性

　意思決定主体プレーヤ　 1にとって

maxx1

f1(x1, x2)

▶ プレーヤ 1は自分の利得関数 f1の値が最大となる選択 (戦略) x1を選ぶ

▶ 利得関数 f1の値・取るべき選択 x1は他のプレーヤ 2の選択結果 x2に依存

maxx2

f2(x1, x2)

▶ プレーヤ 1の選択結果 x1がプレーヤ 2の目的関数 f2に影響を及ぼす

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::戦略形 2人ゲームはこの意味で意思決定主体間の相互作用の表現に成功

20 / 46

(単目的)最適化問題max(x1,x2)

f(x1, x2) ▶ 電力とチャネルをうまく設定してスループットを上げたい

多目的最適化問題

max(x1,x2)

(f1(x1, x2), f2(x1, x2)

) ▶ スループットと遅延両方を良くしたい

▶ ユーザ 1とユーザ 2のスループットを集中制御的に良くしたい

戦略形ゲームmaxx1

f1(x1, x2)

maxx2

f2(x1, x2)

▶ 各主体 1, 2が自分の出来る範囲でスループットを上げようとしている

21 / 46

「ゲーム理論は役に立つの？」という漠然とした質問を受ける

専門用語を使えば，おそらくこういうことを聞きたいのではないか

Q1.

(単目的・多目的)最適化問題の最適解を求めるためにゲーム理論は使えるか？

Q2.

(単目的・多目的)最適化問題の最適解を::::::::分散的に求めるため

にゲーム理論は使えるか？

Q3.

ゲーム理論は無線通信システムの課題を解決できるのか？

22 / 46

Q3は置いておいて，似たような以下の質問に答えられますか？Q4.

最適化理論は無線通信システムの課題を解決できるのか？

もっと具体的にするとQ5.

無線通信システムの課題は最適化問題として定式化できるのか？

そういえば最近こんな疑問をよく聞きますよねQ6.

AI/機械学習は役に立つのか

課題

定式化できる

解ける

23 / 46

ゲーム理論特有の用語

ここまでの説明で混ぜて使った最適化理論とゲーム理論の用語を整理

最適化理論ゲーム理論最適化問題ゲーム game

— プレーヤ player(決定)変数 variable x 戦略 strategy a, s変数の制約条件戦略集合 strategy set A目的関数 f 利得関数 payoff function u

プレーヤの添字集合 I・戦略集合 (Ai)i∈I・利得関数 (ui)i∈I の3つ組 triplet

(I, (Ai)i∈I , (ui)i∈I

)を戦略形ゲームと呼ぶ

先ほどの最適化問題の組と捉えて差し支えない

triplet を使うのは，グラフを，頂点集合 V と辺の集合 E の tuple (V, E) として定義するようなもの24 / 46

ゲーム理論特有の表現

▶ すべてのプレーヤの戦略集合の直積A :=

∏i∈I

Ai

Aを定義する理由：すべてのプレーヤの戦略のベクトル a := (a1, . . . , a|I|)をa ∈ Aと表記したいui : A → Rと表記したい

▶ 戦略集合のプレーヤ i以外に関する直積A−i :=

∏j∈I\{i}

Aj

A−iを定義する理由：プレーヤ i以外の戦略 a−i := (a1, . . . , ai−1, ai+1, . . . a|I|)をa−i ∈ A−iと表記したいBRi : A−i → Aiと表記したい

a−iを定義する理由：ui(ai,a−i)という表記が便利だから

25 / 46

双行列ゲーム (定義)

教科書にこんな表がよく出てくるa1 \ a2 X Y Z

A 7, 6 1, 7 2, 3B 4, 2 3, 5 6, 2C 2, 1 1, 3 2, 1

▶ プレーヤ数が 2 e.g. I = {1, 2}▶ 戦略集合が離散的な場合

e.g. A1 = {A,B,C},A2 = {X,Y,Z}▶ 利得関数 u1(a1, a2), u2(a1, a2)の表現方法

下図のように捉えると解りやすいと思う

A

B

C XY

Z

2

4

6

8 u1(a1, a2)

u2(a1, a2)

a1

a226 / 46

定義：最適応答 (対応) Best response (correspondence)

A

B

C XY

Z

2

4

6

8 u1(a1, a2)

u2(a1, a2)

a1

a2

定義：a1 に対するプレーヤ 2の最適応答 (対応)

BR2(a1) :={a⋆2 ∈ A2

∣∣∣u2(a⋆2, a1) = max

a2

u2(a1, a2)}

捉え方：a1 を固定したときに，u2 を最大化させるには a2 をどうすべきか

対応 correspondence：多価関数 set-valued function のこと27 / 46

(純戦略)ナッシュ均衡 (pure-strategy) Nash equilibrium

A

B

C XY

Z

2

4

6

8 u1(a1, a2)

u2(a1, a2)

a1

a2

次の式を満たす (a⋆1, a⋆2){

u1(a⋆1, a

⋆2) ≥ u1(a1, a

⋆2)

u2(a⋆1, a

⋆2) ≥ u2(a

⋆1, a2)

互いに最適応答になっている戦略の組 (a⋆1, a⋆2)

ナッシュ均衡においては(自分だけが)戦略を変更しても，利得関数が向上しない

混合戦略ナッシュ均衡は省略28 / 46

無線通信システムにおける「戦略」ユーザ間にトレードオフのある自由度

システム使用するサービス (LTE/無線 LAN)，キャリア，価格決定，セキュリティ

ネットワーク接続先基地局，ピコセル・フェムトセル，TCP輻輳制御アルゴリズム

多元接続周波数チャネル，タイムスロット，CSMA/CA (待ち時間の最小値 CWmin)

物理層送信電力 (送信の有無)，(複素)送信信号，アンテナ指向性

29 / 46

ゲーム理論は戦略形ゲームをはじめとするさまざまなゲームと

各ゲームに関する均衡概念などの集合体基礎となる戦略形ゲームとナッシュ均衡をまず理解しておく必要

この後は，いくつかの興味深いトピックを紹介

30 / 46

1 先に説明したチャネル選択ゲームで収束性を保証するにはどうすればよいか？

2 ポテンシャルゲームでは最適応答ダイナミクスで収束するが，パレート最適でないナッシュ均衡に陥ることもある．何とかならないか？

31 / 46

定義：Best-response dynamics最適応答ダイナミクス

各時点 kにおいて，単一のプレーヤ (iとする)のみが，戦略を ai[k]から最適応答 BRi(a−i[k])に変更．すなわち

ai[k + 1] ∈ BRi(a−i[k])

A

B

C XY

Z

2

4

6

8 u1(a1, a2)

u2(a1, a2)

a1

a2

k i a1[k] a2[k]

0 2 A X1 A2

その他のプレーヤは戦略を変更しない．すなわち a−i[k + 1] = a−i[k]

32 / 46

定義：ポテンシャルゲーム [Monderer+1996]

すべてのプレーヤ・戦略に関して，次式が成り立つ (ポテンシャル)関数 ϕ : A → Rが存在する戦略形ゲームを，ポテンシャルゲームと呼ぶ

ui(ai,a−i)− ui(a′i,a−i) = ϕ(ai,a−i)− ϕ(a′i,a−i) (2)

すなわち，戦略の変更 (a′iから ai)による利得関数 uiとポテンシャル関数 ϕの変化量が同じ

【物理学】∂ui∂ai

=∂ϕ

∂aiがすべての 1 ≤ i ≤ nについて成り立つとき

ϕを (u1, . . . , un)のポテンシャル関数と呼ぶ

[Monderer+1996] D. Monderer and L. S. Shapley, “Potential games,” Games Econ. Behav., vol. 14, no. 1,May 1996

a−i は ai 以外の戦略の組33 / 46

ポテンシャルゲームで最適応答ダイナミクスが収束する証明

時点 kで単一のプレーヤ (iとする)が利得が上がるように戦略をai[k]から ai[k + 1]に更新 (最適応答ダイナミクス)

ui(ai[k],a−i[k]) < ui(ai[k + 1],a−i[k])

すると，ポテンシャルゲームの定義 (2)により ϕも増加するϕ(ai[k],a−i[k]) < ϕ(ai[k + 1],a−i[k])

このような戦略の更新を a[0],a[1],a[2], . . . と表記すると次の不等式が成立

ϕ(a[0]) < ϕ(a[1]) < ϕ(a[2]) < · · ·

戦略集合 A(aの取りうる範囲)が有限であればそれ以上 ϕが増加しない点 (=均衡点)に有限回数で到達ポテンシャルゲームにおいては，各プレーヤが利得関数に基づき(利己的に・個人合理的に)戦略を変更しても，ϕは単調増加し，収束

(2) ui(ai,a−i) − ui(a′i,a−i) = ϕ(ai,a−i) − ϕ(a′

i,a−i)

34 / 46

先に，チャネル選択がループするという例で紹介した，同一チャネル干渉電力の和 (を符号反転したもの)を利得関数

ui(ai,a−i) = −∑

j∈I\{i}

GijP 1(ai = aj)

と設定するゲームは，ポテンシャルゲームではないことが証明できる

(反例を使った簡単な)証明(純戦略)ナッシュ均衡が無いことがあるから

35 / 46

ポテンシャルゲームの必要十分条件 [Ui2000; 宇井 2007]

利得関数が ui(a) =∑

S⊆I:i∈SΦS(aS) の形に書き換えられる

関数 ΦS :∏i∈S

Ai → R (相互作用ポテンシャル)が存在すること

この場合，ポテンシャル関数は ϕ(a) =∑S⊆I

ΦS(aS)

例：I := {1, 2, 3}

u1(a1, a2, a3)

= Φ{1}(a1) + Φ{1,2}(a1, a2) + Φ{1,3}(a1, a3) + Φ{1,2,3}(a1, a2, a3)

という形に分解したとき，Φ{1,2}(a1, a2)と Φ{1,2,3}(a1, a2, a3)が u2でも共通であればポテンシャルゲーム

[Ui2000] T. Ui, “A Shapley value representation of potential games,” Games Econ. Behav., vol. 31, no. 1,Apr. 2000

36 / 46

p. 35のゲームがポテンシャルゲームでない別証 [山本 2016]

ui(ai,a−i) = −∑

j∈I\{i}

GijP 1(ai = aj)

が相互作用ポテンシャル ΦS(aS)を持つとすれば，S = {i, j}で，Φ{i,j}

(a{i,j}

)= −GijPj 1(ai = aj)

一方，uj から求めた−GjiPi 1(ai = aj)と一致しない=⇒ ΦS(aS)は存在しない=⇒ ポテンシャルゲームでない

37 / 46

一般のポテンシャル戦略形ゲームゲームプレーヤ，戦略，利得

を決めただけ

ナッシュ均衡0以上 1以上の数

最適応答収束しない戦略空間が有限ならダイナミクス可能性有限回数で収束

戦略形ゲームの，扱いやすいクラス連続最適化問題に，凸計画問題などの

扱いやすいクラスがあるのと同様の位置づけ

ポテンシャルゲーム =⇒ ループしない．逆は言えない38 / 46

ポテンシャルゲームの応用

▶ 先の，チャネル選択がループしうる例で出てきた同一チャネル干渉電力の和 (を符号反転したもの)

ui(c) := −Ii(c) = −∑j =i

被干渉︷︸︸︷GijP 1(cj = ci)

を利得関数とするゲームはポテンシャルゲームではない▶ ゲーム (3)はポテンシャルゲーム [Nie+2006]

u(3)i (c) := −

∑j =i

(

被干渉︷︸︸︷GijPj +

与干渉︷︸︸︷GjiPi)1(cj = ci) (3)

証明：Φ{i,j}(c{i,j}

)= −(GijPj +GjiPi)1(cj = ci)

▶ 移動通信 4Gフェムトセルへの干渉制御などに応用 [Mustika+2011]

39 / 46

Omitted

40 / 46

È

オーバラップ面積が最も小さくなるチャネルを各 APが順次選択したいAPのみによるサイトサーベイ，自動的な送信電力・チャネル設定

[Kamiya+2016] S. Kamiya, K. Nagashima, K. Yamamoto, T. Nishio, M. Morikura, and T. Sugihara,“Self-organization of coverage of densely deployed wlans considering outermost aps without generatingcoverage holes,” IEICE Trans. Commun., vol. E99-B, no. 9, 2016

41 / 46

オーバラップ面積の評価手法とポテンシャルゲーム

利得関数 1: 実際のオーバラップ面積だが，評価が面倒

利得関数 2: 実際のオーバラップ面積より大きいが，評価が容易いずれを利得関数としても，ポテンシャルゲームとなることを

相互作用ポテンシャルを用いて証明 [Kamiya+2017]

[Kamiya+2017] S. Kamiya, K. Yamamoto, T. Nishio, M. Morikura, and T. Sugihara, “Spatial co-channeloverlap mitigation through channel assignment in dense WLAN: Potential game approach,” IEICE Trans.Commun., vol. E100-B, no. 7, 2017

42 / 46

1 先に説明したチャネル選択ゲームで収束性を保証するにはどうすればよいか？

2 ポテンシャルゲームでは最適応答ダイナミクスで収束するが，パレート最適でないナッシュ均衡に陥ることもある．何とかならないか？

43 / 46

解決策の 1つ：logit / Boltzmann-Gibbs larning

Aiが離散的なとき，各戦略 ai ∈ AiをBoltzmann-Gibbs分布に従って決定 [Lasaulce+2011, §5]

exp(βui(eai ,x−i)

)∑a′i∈Ai

exp(βui(ea′i ,x−i)

)▶ xi ∈ ∆(Ai), xi(ai): aiを選ぶ確率, eai : aiのみを 100%で選ぶ分布▶ x−i ∈

∏j =i∆(Aj)

▶ ui :∏

j ∆(Aj) → Rと改めて定義▶ β：非負定数．統計力学では温度．ここでは「合理性の度合い」

これは，利得関数を以下のように設定した場合の最適応答と同じ∑ai∈Ai

xi(ai)ui(eai ,x−i)−∑ai∈Ai

xi(ai) log xi(ai)︸︷︷︸エントロピー

(4)

44 / 46

ゲーム理論と強化学習の繋がり

u1,t u1,t+1

a1,t a1,t+2

a2,t−1 a2,t+1 a2,t+3

戦略形 2人ゲーム最適応答ダイナミクス

Rt Rt+1

at at+1

st st+1 st+2

マルコフ決定過程強化学習

45 / 46

参考文献

ゲーム理論一般▶ 山本高至, “ゲーム理論の無線通信への応用,” Japanese, 信学誌,

vol. 95, no. 12, Dec. 2012▶ 岡田章, ゲーム理論新版, Japanese. 有斐閣, 2011

ポテンシャルゲーム▶ 宇井貴志, “ポテンシャルゲームの基本的性質,” Japanese, 一橋ゲーム理論ワークショップ 2007, Mar. 2007

▶ D. Monderer and L. S. Shapley, “Potential games,” Games Econ.Behav., vol. 14, no. 1, May 1996

ポテンシャルゲームの無線通信への応用▶ S. Lasaulce and H. Tembine, Game Theory and Learning for

Wireless Networks: Fundamentals and Applications. Academic Pr.,2011

▶ K. Yamamoto, “A comprehensive survey of potential gameapproaches to wireless networks,” IEICE Trans. Commun.,vol. E98-B, no. 9, Sep. 2015

46 / 46

[Andrews+2011] J. G. Andrews, F. Baccelli, and R. K. Ganti, “A tractableapproach to coverage and rate in cellular networks,” IEEETrans. Commun., vol. 59, no. 11, Nov. 2011.

[Haenggi2012] M. Haenggi, Stochastic Geometry for Wireless Networks.Cambridge, U.K.: Cambridge Univ. Press, 2012.

[Hayashi+2009] S. Hayashi and Z.-Q. Luo, “Spectrum management forinterference-limited multiuser communication systems,” IEEETrans. Inf. Theory, vol. 55, no. 3, Mar. 2009.

[Kamiya+2016] S. Kamiya, K. Nagashima, K. Yamamoto, T. Nishio,M. Morikura, and T. Sugihara, “Self-organization ofcoverage of densely deployed wlans considering outermostaps without generating coverage holes,” IEICE Trans.Commun., vol. E99-B, no. 9, 2016.

[Kamiya+2017] S. Kamiya, K. Yamamoto, T. Nishio, M. Morikura, andT. Sugihara, “Spatial co-channel overlap mitigation throughchannel assignment in dense WLAN: Potential gameapproach,” IEICE Trans. Commun., vol. E100-B, no. 7, 2017.

47 / 46

[Lasaulce+2011] S. Lasaulce and H. Tembine, Game Theory and Learning forWireless Networks: Fundamentals and Applications.Academic Pr., 2011.

[Monderer+1996] D. Monderer and L. S. Shapley, “Potential games,” GamesEcon. Behav., vol. 14, no. 1, May 1996.

[Mustika+2011] I. W. Mustika, K. Yamamoto, H. Murata, and S. Yoshida,“Potential game approach for self-organized interferencemanagement in closed access femtocell networks,” in Proc.IEEE 73rd Veh. Tech. Conf. (VTC Spring), Yokohama, May2011.

[Nie+2006] N. Nie and C. Comaniciu, “Adaptive channel allocationspectrum etiquette for cognitive radio networks,” MobileNetw. Appl., vol. 11, no. 6, Dec. 2006.

[Raniwala+2004] A. Raniwala, K. Gopalan, and T.-C. Chiueh, “Centralizedchannel assignment and routing algorithms for multi-channelwireless mesh networks,” ACM SIGMOBILE Mobile Comp.Commun. Rev., vol. 8, no. 2, Apr. 2004.

[Ui2000] T. Ui, “A Shapley value representation of potential games,”Games Econ. Behav., vol. 31, no. 1, Apr. 2000.

48 / 46

[Yamamoto+2011] K. Yamamoto, K. Haneda, H. Murata, and S. Yoshida,“Optimal transmission scheduling for a hybrid of full- andhalf-duplex relaying,” IEEE Commun. Lett., vol. 15, no. 3,Mar. 2011.

[Yamamoto2015] K. Yamamoto, “A comprehensive survey of potential gameapproaches to wireless networks,” IEICE Trans. Commun.,vol. E98-B, no. 9, Sep. 2015.

[宇井 2007] 宇井貴志, “ポテンシャルゲームの基本的性質,” Japanese, 一橋ゲーム理論ワークショップ 2007, Mar. 2007.

[山本 2012] 山本高至, “ゲーム理論の無線通信への応用,” Japanese, 信学誌, vol. 95, no. 12, Dec. 2012.

[山本 2016] ——,“無線通信とポテンシャルゲーム,” Japanese, 計測と制御, vol. 55, no. 11, Nov. 2016.

[山本 2017] ——,“セルラネットワークの確率幾何解析の基礎,” Japanese,in 信学技報, CQ2017-57, Aug. 2017.

[岡田 2011] 岡田章, ゲーム理論新版, Japanese. 有斐閣, 2011.

49 / 46

Documents

ゲーム理論の無線リソース制御への応用 · 機械学習・強化学習．特にカメラ画像によるミリ波制御 西尾理志先生, 2013～ ワイヤレス電力伝送,

ゲーム理論の無線リソース制御への応用 · 機械学習・強化学習．特にカメラ画像によるミリ波制御西尾理志先生, 2013～ワイヤレス電力伝送,