Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
1
4. 相関・回帰 (correlation/regression)
• 4.0 相関関係とは?
• 4.1 相関係数
correlation coefficient
• 4.2 自己相関
auto-correlation
• 4.3 相互相関
cross-correlation
• 4.4 相関解析の実例
applications
• 4.5 相関の有意性
significance of correlation
–
相関係数の検定
test of correlation coefficient
–
等価自由度
effective degree of freedom
• 4.6 回帰
regressions
–
回帰係数
–
回帰係数の区間推定
• 4.7 回帰分析の実例
applications
2
4.1 相関係数 Correlation coefficient
共分散covariance分散
4.1
相関関数は、-1 ≤
r ≤
1の値を取る。
3
相関係数と散布図
4
x
y,z
例1:
5
例2:
相関係数がゼロだからといって、2つの変数の間に何も関係が無い訳ではない。 相関係数は2つの変数の間の線形関係(1次式)の強さを表している。
xとyの平均はそれぞれ 3と5だから、相関係数rの分子は、
(2-3)(2-5)+(5-3)(5-5)+(0-3)(10-5)+(4-3)(2-5)+(1-3)(5-5)+(6-3)(10-5)+(3-3)(1-5)
= 3-15-3+15 = 0 r = 0
6
4.2 自己相関関数
(auto-correlation function)
アンサンブル平均
定常確率過程では時間平均で置き換えることができて
時間平均
R(τ): R(τ)= R(-τ) τ= 0 について左右対称
|R(τ)| ≤
1
4.2
τ:lag
Covariance function
Autocorrelation function
ラグ相関
関数
自己共分散関数
7
ずらす
ずらして
かけあわせる
x(t-τ)
8
代表的な時系列関数と自己相関関数の形
9
10
x(t)=asin(2πft+θ)+r(t)
11
white noise
Cf.イサカの例
12
自己相関関数の例:ニューヨーク州イサカの自己相関関数の例:ニューヨーク州イサカの19871987年年11月の日最高気温(華氏)月の日最高気温(華氏)
13
自己相関関数の例:ニューヨーク州イサカの自己相関関数の例:ニューヨーク州イサカの19871987年年11月の日最高気温(華氏)月の日最高気温(華氏)
(自己相関関数)= (ラグ自己共分散)/ (分散)
14
4.3 相互相関関数
(cross-correlation function)
異なる変数間でのラグ相関を求める
Rxy(0)=1にはならない。
左右対称にはならない。
4.3
15
相互相関関数の計算式
伊藤・見延 (2010)
16
図C
ダーウィンと世界各地の年平均海面
気圧偏差の相関係数(x10)。
係数が正の値のところはダーウィンの気圧が通常より高いときにその場所の気圧も通常より高い傾向にあり、係数が負の値のところはダーウィンの気圧が通常より高いとき、逆に通常より低い傾向にある。数字の大きさがその傾向の程度を示す。(Trenberth
and Shea,1987,Mon. Weather Rev.)
4.4
相関解析の実例
季節変化は落ちている
南方振動の発見
4.4
一点相関図
タヒチ
17
18
Mawson Davis Casey Vernadskyoriginal 0.669 0.679 0.648 0.699 high-passed 0.685 0.638 0.634 0.611 high-ln.tide 0.618 0.564 0.557 0.548
Original High-passed
相関解析の実例 南極の水位の変動
19
自己相関関数・相互相関関数
0 10 20 30 40 50 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson
20
自己相関関数・相互相関関数
-60 -40 -20 0 20 40 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson
Syowa leadMawson leadLong-term
21
相関解析の例
その2
AAOと海洋応答Antarctic Oscillation
10-day bins
気圧のパターンAAO Index
気圧パターン変動の時係数
22
AAO index HIGH AAO index LOW
L L H H
L H
L HWesterly anomaly
EasterlyAnomalyNorthward
Ekman driftSouthwardEkman drift
23
4.5 相関の有意性4.5.1 相関係数の検定
(test of correlation coefficient)
無相関の検定 母相関係数ρ=0 のときは、標本数 n の相関係数 r は次
の T について、(近似的に)自由度 n-2 の t 分布に従うこと が知られている。
母相関係数に関する検定は一般に母相関係数ρ=0 という 帰無仮説を検定する。したがって、上の式の
T を求めて
t
検定すればよい。(面倒な計算をしなくてもよいように検定の表がある。)
4.5
T
24
無相関の検定の例:
標本数 n が14で、相関係数 r が
0.361 のデータを考える。
T
この式から T を計算すると、1.438 となる。
この1.438という値は 左図の棄却域には
入っていないので、検定の結果として、有意水準1%では、
相関があるとは言えない。
25
26
両側検定
(two-sided test) Emery and Thomson(2001)
有意水準
27
サンプル数
n(自由度ν= n-2)のときに標本の相関係数が 表の値よりも大きければ、母相関係数ρ= 0という帰無仮説 が棄却され、有意な相関があるといえる。
注意)
相関係数の検定はあくまでも母相関係数が
0 でな い(すなわち相関が弱いとしてもある)ことを判断するだけ
で、帰無仮説が棄却されたからといって「相関が強い」わけ ではない。 相関係数が 0.5 未満では余り意味がない。
例:n=7 で r=0.70:n=12で r=0.65:n=17で r=0.65:
どちらの有意水準でも有意な相関なし
有意水準 5% でのみ有意な相関あり
どちらの有意水準でも有意な相関あり
28
相関係数の例
その3
NAOの持続性
冬のNAOが夏の大気 循環に影響する!
Icelandic LowAzores High
Ogi et al.(2003)
Color:Confidence level
29
Low SST
High Sea ice cover
春 夏
Ogi et al.(2003)
30
•
以上はサンプリングがランダムになさ れている(自由度が保証されている)場合
に適用される。
•
実際には、すべてのデータが独立とは 限らない。
31
4.5.2 有効自由度 (effective degrees of freedom)
•
大気海洋データは、時・空間的に相関 をもっているため
「ν(自由度)=
N(データ数)」 にはならない。
•
時系列がランダムである場合は自由度 ν=
N でよいが、特定の狭帯域波や長
周期波が含まれている場合には自由度 は著しく下がる。
32
b. 三角関数成分+ノイズ
三角関数は振幅と位相で決まるので、自由度は
2 しかない。
有効自由度=6
高い係数
でも有意で はない
a. ノイズのみ
Chelton (1982)
有効自由度=50
低い係数
でも有意
青矢印は90%の信頼限界
33
有効自由度
(effective degrees of freedom) の推定
実効的に独立な標本間の時間(有効無相関時間)と 呼ばれる Te で、データのサンプル数 N を割って、
有効自由度(有効標本数)Ne を求める。Ne=N/Te
自己相関関数からIntegral time scaleを求める。
Emery and Thomson(1999)
34
比較的簡便な方法は、自己相関関数がはじめて0.2~0.3程度になるラグ時間を特徴的な時間スケール
と定め、時系列全体の長さをこの時間スケールで割ることである(松山・谷本, 2005)。
また、自己相関関数が初めてゼロとなるラグ時間を目安とすることもある。
35
無相関時間(したがって有効自由度は)現象に内在する量 ではなく、標本の長さにも、またどの統計解析を行うかに も依存する。
詳細については、伊藤・見延 (2010)を参照
36
相関係数についての注意点
はずれ値の影響が大きい。散布図でのチェックが重要。
r = 0.806
r = 0.960 r = -0.503
37
相関係数についての注意点
相関は2つの量(AとBとする)の関係を示すもので、相関が
高いからと言って直接に因果関係を表すものではない。
例えば、AとBの相関が高い場合、Aが原因でBが結果という
場合もあり得るが、その他にも以下のような場合がある。擬似関係(因果関係にない)
1. 他の量Cが両者の原因となって(C AとC B)、AとBに相関
が生じる。2. Aにおける違いが、媒介するDに違いを生みだし、それが原
因となってBを生成するので、AとBに相関が生じる。 A D Bと書けるが、AとBの間には因果関係はない。
3. AとBにはともにトレンドがある。
伊藤・見延 (2010) を参照。
38
1の例:2月の水蒸気量とサクラの
開花日の高い負の相関C=2月の気温A=サクラの開花日B=2月の水蒸気量
擬似相関の例伊藤・見延 (2010) より
2の例:昼間の日射 気温 湿度
という関係D=気温A=昼間の日射B=湿度
39
4.6 回帰4.6
左図のような2つのデータ xi と yi がある時、説明変数 x から目的変数 y を最も良く表す直線を引くには、yi と a+bxi の残差の二乗和
が最小となるようにすれば良い。
相関:2つの変数に関係があるかどうか。
回帰:ある変数によって、もう一つの変数を説明できるか。
40
r は相関係数
傾き slope切片 intercept
y = a + bx に上記の a の式を代入
よって、回帰直線は両平均を通り、傾き b の直線である。
y – y = b (x – x)
41
決定係数 (correlation of determination)
y
x
}}{
42
回帰係数の区間推定
43
4.7 回帰分析の実例
その1
von Storch and Zwiers (1999)
赤道西太平洋の水温と南方振動指数(1933年から84年までの624の月平均)
(SO Index) = -0.09 + 0.15 * (SST Index)
r = 0.67 r2 = 0.455
4.7
44
回帰係数の区間推定の例:
(SO Index) = -0.09 + 0.15 * (SST Index)
45
回帰分析の実例
その2
海水面の上昇
Antonov et al. (2002)
説明変数:時間目的変数:トレンド(増加率)
時間などのように横軸に対して一様であることが求められる場合重みづけなどの操作
回帰係数決定係数}⇒
46
まとめ
•
相関係数は変数同士の関連の強さを示す指標。
•
変数の周期性を調べたい場合、相関関数をも ちいることがある。
•
無相関の検定は
t 検定により行うことができ る。
•
相関関係と因果関係は別物である。 →
擬似相関
spurious correlation
•
回帰係数は目的変数を直線であてはめたとき の傾きを示す。