Upload
buinga
View
215
Download
0
Embed Size (px)
Citation preview
データ数が偏重したクラスタリング問題に対する自己組織化マップの応用に関する検討
Application of Self-Organizing Map to Clustering Problem with
Partially Intended Data Set
○藤沢 大樹, 鳥取大学 工学部 電気電子工学科 ([email protected])
Daiki Fujisawa, Dep. of Electric and Electronic Eng., Faculty of Eng., Tottori University
大木 誠, 鳥取大学 工学研究科 情報エレクトロニクス専攻 ([email protected])
Makoto Ohki, Dep. of Information and Electronics, Graduate School of Eng., Tottori University
2009年 3月 10日(March 10th, 2009)
1 はじめに
Kohonen が提案した自己組織化マップ (Self-Organizing Map:SOM)[1, 2, 3]は、教師なし学習によって多次元データ間の類似関係を可視空間に投影す
る手法であると考えられる。このデータが構成する空
間はユークリッド距離空間であり、任意の2個のデー
タ間においてユークリッド距離の計算が可能である
ことが前提である。このような多次元データの分布
を把握することは一般に困難であるが、SOMによって得られた可視空間は低次元で表現されているため、
データ分布に関する直感的な理解の助けとなる。この
ような意味で、SOMは任意の形状のクラスタを比較的容易に抽出できるという特徴をもっており、強力な
クラスタリングツールとして多くの分野で応用され
ている。
我々の研究グループでは、SOMの予測問題への応用について取り組んでいる [4, 5]。ここでいう予測問題は、多次元データの一部から残りの部分を推定する
問題として位置づけられる。具体的には、一部の次元
が欠落した多次元データに対して最も一致するデー
タを選定し、選ばれたデータがもつ対応次元のデータ
を推定結果とする。しかし SOMは多次元ベクトル間の距離に基づいたクラスタ抽出であるため、クラスタ
間のデータ数が偏重しているような状況では、サイズ
の小さなクラスタに対して正確なクラスタ抽出が行
えない。このよな状況下の SOMを予測問題に適用した場合、通常のクラスタ分析を行う場合よりも次元が
欠落しているため、予測制度が低下することは容易に
予想できる。サイズの小さなクラスタに対してクラス
タ抽出精度が低下する理由は、そのようなクラスタに
属するユニットは、周辺のユニットが勝者として選択
される頻度が低いために学習量が少ないことが要因
であると考えられる。そこで我々は、学習量の不均衡
をある程度是正できれば、クラスタ抽出精度が改善さ
れるのではないかと考えた。
本研究では学習量の不均衡を是正するために、SOMの SOM(SOM2)のアイデア [6]を用いる。提案手法では、はじめに通常の SOMによって粗いクラスタ分析を行う。次に各クラスタのデータ集合を構成し、そ
れぞれ個別に SOMによる学習を行う。クラスタごとに得られた SOMを用いて、SOM2を学習させる。こ
のようにして得られた SOM2 は、小さいサイズのク
ラスタに対しても学習量が確保されるため、予測制度
が向上することが期待できる。
2 SOM2のアルゴリズム
2.1 SOM2による事前学習
(1)初期学習 事前学習のためのM 個のベクトル化
された情報を SOMへの入力ベクトル集合 Xとし
て用意する。
X = {x1,x2, · · · ,xM} (1)
これらを入力層として逐次学習型トーラス SOMによる学習を行い、マップOinit を得る。
(2)勝者ユニットの検索 マップOinitにおいて、入
力ベクトル xi(i = 1, 2, · · · , M)に対応した勝者ノードを検索する。各勝者ノードにおいて、対応する入
力ベクトルのインデックスを保持させておく。- 61 -
(3)クラスタ抽出 図 1に示すように、はじめに各勝者ユニットをそれぞれ単独のクラスタとして定義
する。次に各勝者ユニットに対して、ユークリッド
距離 λ以下のユニットを同一クラスタとする。も
し、あるユニットに対して複数の勝者ユニットから
の距離が同時に λ以下になった場合、それぞれの勝
者ユニットから派生したクラスタどうしは同一クラ
スタとする。この操作を、次式により λを増加させ
ながら繰り返す。
λ = λ + γ, (2)
γ =δinitmax
S. (3)
ここで、δinitmaxはマップOinit上の全てのユニット間
距離の最大値であり、Sはクラスタ解析の繰り返し
回数 (S ≤ 2)であり、λの初期値は γとする。マッ
プOinit上の全ユニット数に対して、いずれかのク
ラスタに属するユニット数の割合が ρを超えた時点
で時点でクラスタ解析を終了する。このようにして
K 個のクラスタが抽出できる。
勝者ユニット
初期の状態 λが小さい場合の状態
λが大きい場合の状態 クラスタ特定結果
同一クラスタとみなす
図 1: 初期クラスタ解析の概要
(4)入力ベクトル集合の分割 入力ベクトルxiがど
のクラスタに対応しているかは、(2)において検索しておいた入力ベクトルとその勝者ユニットの対応関
係から明らかである。この対応関係を用いて、入力
ベクトル集合Xをクラスタごとの部分集合Xk(k =1, 2, · · · ,K)に分割する。
(5)クラスタ別学習 部分集合 Xk を入力ベクトル
として、逐次学習型トーラス SOMによる学習を行い、マップ Ok を得る。このマップの集合を Oと
定義する。
O = {O1,O2, · · · ,OK} (4)
(6)SOM2 の学習 マップ集合 Oを入力としてバッ
チ学習型トーラス SOMによる学習を行う。ただし、勝者マップを決定する際、入力マップOkの各ノー
ドを全てのマップに入力し、ユークリッド距離の
総和
∆(Ok,Qj) =∑α,β
∥ okα − qj
β ∥ (5)
が最も小さいQj を選択する。ここで、Qj は次式
のように SOM2 マップQ
Q = {Q1,Q2, · · · ,QJ} (6)
を構成する参照マップであり、okαは入力マップOk
の α番目のユニットであり、qjβ は参照マップ Qj
の β番目のユニットである。学習回数は、(3)で抽出したクラスタ数K の倍数とする。
2.2 欠落データ予測
事前学習時に用いた学習データを次式のように N
次元ベクトルによって定義する。
xi = [x1, x2, · · · , xN ] (7)
このうち予測問題においては、次式のように一部が欠
落したデータが入力される。
xi = [x1, · · · , xs, ⋆, · · · , ⋆, xs+L+1, · · · , xN ] (8)
ここで L個の ⋆で表した要素がデータの欠落部分を
示す。この欠落部分は必ずしも連続して配置されてい
る必要はなく、N 個の要素位置の何処に現れてもよ
い。ここでは簡単のために式 (8)のように示す。このよな一部の次元が欠落したデータが入力した
場合、欠落していない部分の要素を用いて各ユニット
との距離を求める。
δ =√ ∑
i∈{i|xi =∗}
(xi − qjβ,i)
2 (9)
ここで、qjβ,iは参照マップQjの β番目のユニット qj
β
の第 i要素を示す。最も小さな距離 δを与えるユニッ
ト qjβ を勝者ユニットとして選択し、qj
β の部分要素
qjβ,s+1, · · · , q
jβ,s+L を予測結果とする。
3 アヤメデータに対するクラスタ
リング
比較的低次元のクラスタリング問題として、アヤメ
データ [7]に対して適用した場合について検討する。- 62 -
アヤメデータは setosa, versicolor, virginicaの3種類の花それぞれについて 50個ずつ、合計 150個の要素からなるベクトル集合として構成されている。入力ベ
クトルはガクおよび弁それぞれの幅と長さからなる 4次元である。このようなアヤメデータは、SOMに入力すると容易に 3つのクラスタを構成することが知られている。3種類の花の中で、setosaは他の 2種類と比較して違いが大きく、versicolorおよび virginicaはやや似通っていると考えられる。図 2 および図 3に、通常の SOMおよ本研究で提案した SOM2 によ
るアヤメデータの学習結果を示す。本研究では通常の
SOMとして逐次学習型トーラス SOMを用いた。図中、黒の ∗は setosa、赤の ∗は versicolor、緑の ∗はvirginicaにそれぞれ属する入力ベクトルに対応した勝者ノードを示している。これらの結果を見る限り、
両者の違いはなくそれぞれ良好にクラスタが形成さ
れていることがわかる。
図 2: 通常の SOMによるアヤメデータの学習結果
図 3: 提案手法の SOM2 によるアヤメデータの学習
結果
次に 50個ある setosaのデータからランダムに 45を取り除き、合計 105個の入力データ集合を構成す
る。このようにして、setosaに属するベクトル集合を意図的に小さいクラスタとして構成することで、本
研究の目的であるデータ数が偏重したクラスタリン
グ問題を人工的に設定する。図 4および図 5に、通常 SOMおよび本研究で提案した SOM2 を、それぞ
れデータ数が偏重したクラスタリング問題に適用し
た結果を示す。通常の SOMでは setosa(黒)のクラスタを形成するユニットが 1個のみであったが、提案手法の SOM2 では複数のマップが多様にクラスタを表
現していることがわかる。
図 4: 通常の SOM をデータ数を偏重させたアヤメデータセットに適用した結果
図 5: 提案手法の SOM2 をデータ数を偏重させたア
ヤメデータセットに適用した結果
4 降水量予想問題
高次元時系列データに対する予測問題として、気象
庁ホームページより得られた気象データ [8]に基づく予測問題を設定する。基本的なデータとして一時間
ごとの気圧、海面気圧、降水量、気温、露点温度、蒸
- 63 -
気圧、湿度、風向風速を準備する。これを前日、前々
日の二日分と、当日の気温および降水量から構成され
る 480次元のベクトルを構成する。鳥取市における2004年から 2006年の各 1月から 3月の 271日より、265個の入力ベクトルを構成する。ここで、風向および風速は「北北東, 2.3m/sec」と
いう形で提供されている。これに対して本研究では
SOMでの学習を容易にするために、風向を図のような単位円で表し、これに風速を乗じた 2次元ベクトルによって風向および風速を表現する。
図 6: 風向および風速の扱い方
図 7に、本手法を降水量予測問題に適用した場合のマップの例を示す。図 7からわかるように幾つかのクラスタが形成されていることがわかる。
図 7: 降水量予測問題に適用して得られたマップの例
図 7中の番号で示した幾つかの典型的なベクトルデータを図 8に示す。横軸にベクトル要素番号、縦軸に正規化後の要素値を示す。�は比較的気圧が高く、
�高気圧、低気温、くもりの例
�低気圧、高気温、小雨の例
�低気圧、低気温、降水量増加傾向の例
�低気圧、高気温、快晴の例
図 8: いくつかの典型的なベクトルの例
気温が低い日に続いて、気温が低く、ほとんど雨が降
らなかったクラスタの例である。�は気圧はやや低
く、気温が高めの小雨の日のクラスタである。�は気
圧、気温ともに低く、夜に向かった降水量が増加した
クラスタの例である。�は気圧は低いが、気温が高
く、ほとんど雨が降らないようなクラスタの例であ
る。グラフの色は高さに比例しており、高いほど寒色
系、低いほど暖色系となるように与えている。右端の
比較的低い部分に、予測対象の降水量と気温が 24時間分交互に並んでいる。
次に 2007年の 1月から 3月までの 90日間から得られる前日二日間の入力データに対して、当日の気温
および降水量の予測を試みた。つまり過去 48時間の気象データ (432次元)より、向こう 12時間の降水量および気温 (48次元)を予測する問題である。通常のSOMを用いた場合の予測結果の例を図??に、SOM2
を用いた場合の予測結果の例を図 10に示す。1月 5日では、未明の気温予測においてやや誤差が大きい
が、それ以降の気温や降水量は概ね良好に予測でき
た。1月 16日では、13時前後の気温予測に失敗した例である。しかし深夜でのわずかな降水量が予測でき
た。1月 21日では、日中の気温をほぼ正確に予測できたが、快晴であるにもかかわらず、10時ころにわ
- 64 -
(a) 2007年 1月 5日の予測結果
(b) 2007年 1月 16日の予測結果
(c) 2007年 1月 21日の予測結果
(d) 2007年 1月 27日の予測結果
図 9: 通常の SOMを用いた場合のいくつかの典型的なベクトルの例
ずかな降水量を予測できた。1月 27日では、一日を通じて低い気温の予測に加え、小雨程度の降水量の予
測できたことがわかる。全体を通じて、通常の SOMを用いた場合、実際には降水量がほとんどない時間に
おいて 2[mm]前後の降水量を示している。
5 おわりに
本研究では、クラスタのサイズに大きなばらつきが
あるようなクラスタリング問題に対して、効果的に
(a) 2007年 1月 5日の予測結果
(b) 2007年 1月 16日の予測結果
(c) 2007年 1月 21日の予測結果
(d) 2007年 1月 27日の予測結果
図 10: SOM2 を用いた場合のいくつかの典型的なベ
クトルの例
クラスタリングが行えるような SOMを提案した。本提案手法は SOM2 のアイデアに基づいたものである
が、その学習アルゴリズムにおいて、入力マップ集合
の獲得および入力ベクトルと入力マップ間の距離の定
義方法について提案した。アヤメデータセットに対し
て人為的に一部のクラスタを小規模化した問題を設
定し、通常の SOMとクラスタリング結果について比較した。通常の SOMでは小規模集団に対するクラスタは形成されなかったが、提案手法の SOM2 を用い
た場合、小規模集団に対するクラスタが形成された。
- 65 -
さらに高次元時系列に対する予測問題として過去二
日間の気象データに基づいて降水量および気温を予
測する問題を扱った。通常の SOMに比べて提案手法の SOM2 を用いた場合、降水量の少ない時間帯での
予測精度が高いことが確認できた。しかし、小規模ク
ラスタに対する予測精度の有効性は明確に確認でき
なかった。
参考文献[1] T. Kohonen, ”Automatic formation of topologi-
cal maps of patterns in a self-organizing system,”In Scandinavian Conference of Image Analysis,pp.214–220 (1981).
[2] T. Kohonen, ”Self-Organizined Formation of Topo-logically Correct Feature Maps,” Biological Cyber-netics, vol.43, no.1, pp.59–69 (1982).
[3] T. Kohonen, ”Self-Organizing Maps,” Springer,Berlin Heidelberg, 3rd edition, 2001.自己組織化マップ改訂版(徳高平蔵, 大藪又茂, 堀尾恵一, 藤村喜久郎, 大北正昭監修), シュプリンガー・フェアラーク東京 (2005).
[4] 乾 正博, 杜 紅, 大木 誠, 大北正昭, ”自己組織化マップ (SOM)を用いた配電用変電所の電力需要予測,”日本ファジィ学会誌, vol.14, no.2, pp.165-175 (2002).
[5] Takuma Kobayashi, Masahiro Inui, Ryota Oda,Makoto Ohki and Masaaki Ohkita, ”DiagnosticMethod for the Faults in Substation Transformersby the Self-Organizing Map(SOM),” Proc. MWS-CAS2004, vol.II, pp.345-348 (2004).
[6] 古川徹生, ”SOM の SOM: 自己組織化マップ集合をマップする自己組織化マップ,” 自己組織化マップ研究会 2006論文集, pp.1-6 (2006).
[7] Hiroshi Yadohisa, Data Representation System,http://www.sci.kagoshima-u.ac.jp/
[8] 気象庁, 気象統計情報, http://www.data.jma.go.jp/obd/stats/etrn/index.php
- 66 -