26
Chapter II 금까방법니다(, , , ). 방법, 이유니다. 방법니다. 방법니다. (scatterplot), 관관(correlation), (least-squares regression) 니다. 관관니다. 1 (RELATIONSHIP) 니다. (X ) (Y ), X Y 정적(deterministic) 계가 니다. , 29

Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

Chapter II

변수 간의 통계적 관계

지금까지 자료의 분포를 검토하는 방법에 대해서 배웠습니다(표, 그래프,

요약통계량, 밀도곡선). 특히 ‘한 개’ 변수의 분포를 검토할 때 이러한 방법을 적

용했는데요, 통계학이라는 학문이 다른 학문에서 광범위하게 활용이 되고 있는

이유는 두 개 이상의 변수 간의 관계를 검토할 때 유용하기 때문입니다. 그래

서 지금부터 ‘두 개’ 변수 간의 관계를 검토할 때 사용할 수 있는 방법에 대해

서 다루고자 합니다. 구체적으로 세 가지 방법에 대해서 배울 것입니다. 산점

도(scatterplot), 상관관계(correlation), 최소제곱회귀(least-squares regression)

입니다. 그리고 상관관계와 인과관계의 차이점에 대해서도 간략하게 다룰 것입

니다.

1 관계(RELATIONSHIP)

우리는 대개 두 변수 간의 관계에 대해서 연구를 합니다. 만약 한 변수(X)

에 대한 값을 알 때 다른 변수(Y )에 대한 값을 알 수 있다고 한다면, X와 Y 간

에는 결정적(deterministic) 관계가 존재한다고 합니다. 예를 들어, 어떤 온도를

29

Page 2: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

30 제2장: 변수 간의 통계적 관계

Celsius(C)로알고있다고한다면그온도를 Fahrenheit(F )로도알수있습니다.

왜냐하면 C와 F는 다음과 같이 결정적 관계에 놓여 있기 때문입니다.

F = 95C + 32

하지만 사회과학 연구자는 대개 결정적 관계가 성립하지 않은 두 변수 간의

관계에 대한 연구를 합니다. 예를 들어, 임금근로자의 임금(X)과 그 임금근로

자의 성과(Y ) 간에 어떠한 관계가 존재하는지 연구를 합니다. 임금이 높으면

성과도 높을 것으로 많은 사람들이 예상을 합니다. 하지만 어떤 임금근로자의

임금 수준을 알고 있다고 해서 그 사람의 성과를 ‘정확하게’ 측정할 수 있는 건

아닙니다. 통계학에서는 만약 두 변수 간에 어떤 관계는 있지만 결정적 관계가

성립하지 않을 때 두 변수 간에 ‘통계적 관계’가 있다고 합니다. 그리고 이때 ‘X

와 Y가 연관되어 있다’라고 합니다.

만약 X가 증가했을 때 Y가 증가하는 패턴을 보이면 X와 Y는 양(positive)

의 관계에 있다고 하고 X가 증가했을 때 Y가 감소하는 패턴을 보이면 X와 Y

는 음(negative)의 관계에 있다고 합니다. 예를 들어, 임금과 성과 간에는 양의

관계가 존재할 것 같습니다.

X와 Y 간에 결정적 관계가 성립을 하면, X가 과연 Y에 영향을 미치는지

알아보는 것은 연구자의 관심 사항이 아닐 것입니다. 왜냐하면 결정적 관계가

성립을 하므로 당연히 X가 Y에 영향을 미치기 때문이죠. 하지만 X와 Y 간에

통계적 관계가 존재한다면 X가 과연 실제로 Y에 영향을 미치는지 그리고 또

얼마나 강하게 영항을 미치는지 등에 대해서 연구를 할 필요성이 생깁니다. 만

약 X가 Y에 영향을 미치는 관계에 있다고 한다면 X를 설명변수(explanatory

variable)라고하고 Y를결과변수(outcome variable)라고합니다.1 임금-성과예

에서는임금이설명변수가되고성과가결과변수가될것같습니다.물론그역도

1설명변수를독립변수그리고결과변수를종속변수라고도합니다만전이렇게부르는

게 적절하지 않은 것 같습니다. 그 이유는 설명변수가 ‘독립’이 아닌 경우가 많기 때문입니다. 확률에서 ‘독립’이라는 용어가 의미하는 바가 독립변수에서 말하는 독립이랑은다르기 때문입니다. 나중에 확률이론을 공부할 때 이 말이 무슨 뜻인지 알게 될 것입니다.

Page 3: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

2. 산점도(SCATTERPLOT) 31

성립할것같습니다.왜냐하면성과가좋으면승진등을해서임금이높아질수도

있으니까요.

제1장에서 한 개 변수의 분포를 검토해야 하는 이유가 분포의 패턴과 특이

값을 식별하기 위해서라고 말씀을 드렸습니다. 그리고 검토를 할 때 그래프나

요약통계량을 이용하였습니다. 두 변수 간의 관계를 검토할 때도 이와 같은 원

칙이 적용됩니다! 즉 다음과 같은 원칙입니다.

• 그래프를 이용해서 두 변수 간의 관계를 검토

• 두 변수 간의 관계의 전반적인 패턴과 특이값 존재 여부 식별

• 수치를 이용한 방법을 이용해서 두 변수 간의 관계를 기술

따라서우선그래프를이용해서두변수간의관계를검토하는법을배우도록

하겠습니다.

2 산점도(SCATTERPLOT)

두변수(특히양적변수)간의관계를검토할때가장많이활용되는그래프는

산점도입니다.산점도는두변수간의관계의존재유무,방향,형태,그리고강도

등을판단할때유용하고또특이값존재여부를판단할때도굉장히유용합니다.

예를 통해서 좀 더 알아보도록 하겠습니다.

그림 1에두개의산점도를표시했습니다.하나는두변수간의관계가존재하

지 않는 경우, 그리고 또 다른 하나는 두 변수 간의 관계가 존재하는 경우입니다.

그림 1.A와 같은 관계를 보여주는 두 변수의 예는 무엇일까요? 어떤 사람의 발

가락 크기와 소득수준 같은 경우가 관계가 없는 경우가 아닐까 합니다. 그림 1.B

와 같은 관계를 보여주는 변수의 예로 흡연량과 혈압을 들 수 있겠습니다. 보건

관련연구에따르면흡연을많이할수록혈압이상승한다고합니다.그럼두변수

Page 4: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

32 제2장: 변수 간의 통계적 관계

A. 관계: No B. 관계: Yes

그림 1: 관계의 존재 유무에 따른 산점도

간에는그림 1.B와같은관계가성립할것입니다.즉흡연량이(X)늘수록혈압이

(Y ) 상승하는 패턴입니다.

그림 2는 관계의 방향에 있어서 차이가 나는 산점도입니다. 그림 2.A의 예로

들 수 있는 것은 키와 몸무게의 관계입니다. 키가 높으면 몸무게도 많이 나가겠

죠? 그림 2.B의 예로 들 수 있는 것은 운동량과 몸무게가 아닐까 합니다. 운동을

많이 하면 칼로리 소모량이 많을 것이기 때문에 몸무게가 감소하지 않을까 합

니다.

그림 3은 관계의 형태 차이에 따른 산점도를 보여주고 있습니다. 그림 3.A

A. 양의 관계 B. 음의 관계

그림 2: 관계의 방향 차이에 따른 산점도

Page 5: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

2. 산점도(SCATTERPLOT) 33

는 두 변수 간의 관계가 상당히 선형적인(linear) 형태를 띠는 경우이고 그림

3.B는 비선형적인(non-linear) 형태를 띠는 경우입니다. 키와 몸무게의 관계가

선형적일 것 같습니다. 비선형적인 관계를 보여주는 두 변수의 예로 제 머리에

지금 떠오르는 것은 자녀의 연령과 부모의 스트레스 레벨입니다. 자녀가 있으신

분들은 상상이 가시리라 생각이 됩니다만 아이들은 자랄수록 통제가 안 됩니다.

따라서 부모의 스트레스 레벨은 아이가 자랄수록 올라가게 되어 있습니다. 하

지만 일정 시점부터는(자녀가 대학을 졸업하거나 혹은 결혼을 하거나) 부모의

스트레스 레벨이 감소하기 시작할 것입니다. 그런데 그림 3.B를 보면 부모의 스

트레스 레벨은 결코 0이 되지 않습니다. 그 이유는 아이들이 자라서 어른이 되도

부모 속을 계속 썩이기 때문입니다. 제 부모님은 아직도 저를 보면 스트레스를

받는다고 하십니다. 암튼 그렇기 때문에 두 변수 간의 관계는 그림 3.B와 같이

U를 거꾸로 한 모양을 띠게 됩니다.

A. 선형 관계 B. 비선형 관계

그림 3: 관계의 형태 차이에 따른 산점도

그림 4는 두 변수 간의 관계의 강도 차이에 따른 산점도를 보여주고 있습

니다. 그림 4.A는 두 변수 간에 강한 양의 관계가 존재하는 경우이고 그림 4.B

는 약한 양의 관계가 존재하는 경우입니다. 강한 양의 관계가 존재하는 변수의

예로 수학 성적과 물리학 성적을 들 수 있겠습니다. 물리학은 굉장히 수리적인

학문이기 때문에 수학을 잘 하는 학생이 물리학도 잘하기 마련입니다. 따라서 두

Page 6: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

34 제2장: 변수 간의 통계적 관계

변수 간에는 강한 양의 관계가 성립을 할 것입니다. 그림 4.B의 예로는 다섯 살

때의 IQ성적과대학생때의성적을들수있을것같습니다.기존연구에따르면

어릴 때의 IQ 성적과 미래의 성적 간에는 양의 관계가 존재하지만 그 관계의

강도는 약한 것으로 조사되었습니다.

A. 강한 관계 B. 약한 관계

그림 4: 관계의 강도 차이에 따른 산점도

그림 5는 특이값 위치에 따른 산점도입니다. 그림 5.A의 예로 NBA 농구선

수의 신장과 연봉수준을 들 수 있습니다. 그림 5.A를 보면 군데군데 특이값이

존재합니다. Stephan Curry, Michael Jordan, 그리고 Shaquille O’Neal과 같은

선수가이특이값의예가될것같습니다.그림 5.B의예로공부한시간과통계학

점수를 들 수 있을 것 같습니다. 그림 5.B에는 특이값이 한 개가 존재합니다. 왜

이러한 특이값이 존재할까요? 이 특이값이 실수로 생성된 것일까요? 그럴 수도

있겠지만 제 생각에는 이 특이값이 존재하는 이유에는 여러 가지가 있을 것 같

습니다. 예를 들어 천재들은 공부를 거의 안 해도 통계학 같은 시험에서 높은

점수를 받습니다. 그리고 커닝을 한 학생들도 공부를 안 했음에도 불구하고 높

은 점수를 받습니다. 그렇다고 한다면 저 한 개의 특이값은 실수로 생성된 것은

아닙니다. 그럼 실제로 저 자료를 이용해서 연구를 한다면 저 특이값을 어떻게

해야 할까요? 참 어려운 질문입니다.

산점도에 대한 논의를 마치기 전에 한 가지 당부의 말씀을 드립니다. 산

Page 7: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

3. 상관관계(CORRELATION) 35

A. 특이값이 여러 군데 있는 경우 B. 특이값이 한 군데에 있는 경우

그림 5: 특이값 위치에 따른 산점도

점도를 그릴 때는 설명변수를 X축에 그리고 결과변수를 Y축에 그리는 것을

권합니다. 왜냐고요? 대부분의 사람들이 그렇게 하기 때문입니다.

3 상관관계(CORRELATION)

위에서산점도가두양적변수간의관계의형태,방향,그리고강도를검토할

때 굉장히 유용하다는 것을 살펴보았습니다. 물론 특이값을 식별할 때도 산점도

가 큰 도움이 된다는 것을 알 수 있었습니다. 지금부터는 두 변수 간의 관계가

선형일 때로 범위를 좁혀서 논의를 진행하고자 합니다.

산점도를보면서만약관측치의값들이산점도의직선상에위치해있으면두

변수 간에 강한 선형 관계가 존재한다고 말합니다. 반면 관측치의 값들이 직선상

에 위치해 있지 않고 흩어져 있으면 두 변수 간에 약한 선형 관계가 존재한다고

말합니다.그런데문제는어떤두변수간에존재하는선형관계가강한지약한지

를 산점도를 보고 판단하기에는 우리의 눈이 그렇게 뛰어나지 않다는 것입니다.

그림 6에 두 개의 산점도가 있습니다. 믿으실지는 모르겠습니다만 두 개의

산점도는 똑같은 자료로 만든 산점도입니다. 두 산점도의 차이는 축의 척도입

니다. 그림 6.A에 비해서 6.B 산점도의 각 축의 범위가 더 큽니다. 재밌는 것은

Page 8: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

36 제2장: 변수 간의 통계적 관계

A. 축 척도 1 B. 축 척도 2

그림 6: 축 척도 차이에 따른 산점도

그림 6.A를 보면 두 변수 간에 강한 선형 관계가 존재하는 것처럼 보이지만 그림

6.B를 보면 두 변수 간에 관계가 없는 듯이 보입니다. 이처럼 우리 눈으로는 두

변수 간의 관계를 파악할 때 정확한 판단을 할 수 없습니다.

그래서 통계학자들은 산점도를 보완하기 위해 상관계수(correlation coeffi-

cient)라는 지표를 개발했습니다. 상관계수를 공부하기에 앞서 공분산(covari-

ance)이라는 지표를 먼저 다루도록 하겠습니다.

Definition 1공분산(Covariance): 공분산은 두 양적 변수 간에 존재하는 선형 관계

의 방향과 강도를 측정하는 지표입니다. 두 변수 X와 Y에 대한 자료가

있을 때, X와 Y의 표본 공분산, 즉 Cov(X, Y )은 다음과 같습니다

Cov(X, Y ) = 1n − 1

n∑i=1

(xi − X

) (yi − Y

)

위에서 X와 Y는 변수 X와 Y의 표본평균을 나타냅니다.

표본 공분산은 한 가지 단점이 있습니다. 공분산으로 구한 값은 분산의 경우

Page 9: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

3. 상관관계(CORRELATION) 37

와 마찬가지로 원래의 자료와 다른 척도로 그 값이 나온다는 점입니다. 그래서

그러한 단점을 보완하기 위해 대개 상관계수를 이용해서 두 변수 간의 선형 관

계의 정도를 파악합니다.

Definition 2상관계수(Correlation): 표본 상관계수는 두 양적 변수 간에 존재하는

선형 관계의 방향과 강도를 측정하는 지표입니다. 상관계수는 r로 표기

합니다.두변수 X와 Y에대한자료가있을때, X와 Y의표본상관계수,

즉 Corr(X, Y )은 다음과 같습니다:

Corr(X, Y ) = rX,Y = 1n − 1

n∑i=1

(xi − X

sX

) (yi − Y

sY

)

위에서 X와 sX는 X의 표본평균 및 표본 표준편차를 나타내고, Y와 sY

는 Y 표본평균 및 표본 표준편차를 나타냅니다.

약간의 대수학을 이용하면 위 상관계수 공식을 아래처럼 달리 나타낼 수

있습니다.

rX,Y = Corr(X, Y ) = 1n − 1

n∑i=1

(xi − X

sX

) (yi − Y

sY

)

=(

1sX

) (1

sY

)1

n − 1

n∑i=1

(xi − X

) (yi − Y

)

= Cov(X, Y )sXsY

또강조를합니다만,위식을이용해서상관계수를구할수있는것은그렇게

큰능력이아닙니다.더중요한것은이상관계수의특성을잘파악하는것입니다.

상관계수와 관련해서는 총 여섯 가지의 특성을 알고 계셔야 합니다.

Page 10: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

38 제2장: 변수 간의 통계적 관계

• 상관계수는 설명변수와 결과변수를 구분하지 않습니다. 다시 말해 X가

설명변수여도 되고 Y가 설명변수여도 전혀 상관이 없습니다. 마찬가지로

X가 결과변수이든 Y가 결과변수이든 관계 없습니다.

• 상관계수를 계산하기 위해서는 두 개의 변수가 양적 변수여야 합니다. 한

가지 강조할 것은 어떤 변수가 양적 변수여야 한다고 해서 질적 변수에

대한 상관계수를 계산 못한다는 것은 아닙니다. 왜냐하면 성별과 같은 변

수도 남자의 경우 1 그리고 여자의 경우 0으로 해서 양적 변수로 변환할

수 있기 때문입니다.

• 상관계수 식을 보면 아시겠지만 상관계수를 구할 때 각각의 변수를 표준화합니다. 따라서 한 변수의 척도가 바뀌어도 상관계수에는 아무 영향이

없습니다. 예를 들어 신장이 cm이고 체중이 kg일 때 계산한 상관계수와

신장이 m이고 체중이 g일 때 계산한 상관계수는 동일하게 나옵니다.

• 상관계수는 항상 −1과 1 사이에 존재하는 값을 갖습니다. 만약 r > 0이

면 두 변수 간에 양의 선형 관계가 존재한다는 의미이고 만약 r < 0이면

음의 선형 관계가 존재한다는 의미입니다. 만약 r = 0이면 두 변수 간에

아무런 선형 관계가 없다는 의미입니다. 그리고 r이 1 혹은 −1 방향으로

가까울수록 그 선형 관계의 강도가 세다는 것입니다. 다르게 표현을 하면

1 혹은 −1에 가까울수록 자료의 관측치 값들이 산점도의 일직선상에 가

깝게위치해있다는것을의미합니다.그림 7에상관계수의다양한값들을

산점도로 표시했습니다.

• 평균과 분산은 특이값에 강건하지 못한 지표라고 말씀을 드렸습니다. 상

관계수 식을 보면 평균과 분산이 포함되어 있습니다. 따라서 상관계수도

특이값에 강건하지 못한 지표입니다. 그림 8에 특이값이 상관계수에 미

치는 영향의 정도를 나타냈습니다. 보면 특이값이 존재할 때 상관계수가

0.90에서 0.46로 굉장히 많이 떨어지는 것을 알 수 있습니다.

Page 11: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

3. 상관관계(CORRELATION) 39

A. 상관계수(r)= −0.95 B. 상관계수(r)= −0.45

C. 상관계수(r)= 0 D. 상관계수(r)= 0.3

E. 상관계수(r)= 0.6 F. 상관계수(r)= 0.98

그림 7: 상관계수의 크기에 따른 산점도

Page 12: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

40 제2장: 변수 간의 통계적 관계

A. 특이값이 없는 경우 B. 특이값이 있는 경우

그림 8: 특이값의 존재 유무에 따른 상관계수

• 가장 중요한 특성입니다. 상관계수는 두 변수 간의 ‘선형’ 관계만을 측정

하는 지표입니다. 연구를 할 때 많은 분들이 깜빡하는 사실입니다. 다시

말해, 두 변수 간에 어떤 곡선 형태의 관계가 존재하면 그 관계의 정도가

아무리 강해도 상관계수로는 이 두 변수 간의 관계를 식별 못합니다. 그림

9.A는 두 변수 간에 아무런 관계가 존재하지 않는 경우의 산점도입니다.

상관계수를 구해보면 0이 됩니다. 그림 9.B를 보면 두 변수 간에 어떤 관

계가 존재합니다. 즉 두 변수 간에는 2차항의 관계가 존재합니다. 하지만

상관계수는 0입니다. 즉 상관계수는 두 변수 간에 존재하는 선형 관계만

을 식별하기 때문에 그림 9.B와 같이 2차항의 관계가 존재해도 그 관계를

통계적으로식별하지못한다는단점이있습니다.물론우리의똑똑한통계

학자들은 그림 9.B와 같은 관계를 측정하기 위한 방법들을 개발했습니다.

단 그러한 방법들을 이해하기 위해서는 고급수학을 요하기 때문에 이 첫

번째 책(기초편)에서는 다루지 않겠습니다.

지금까지 상관계수를 이용해서 두 개의 양적 변수 간의 ‘선형’ 관계를 검토

하는 방법을 다루었습니다. 지금까지 다룬 논의에서 알 수 있는 바와 같이 상관

계수는 두 변수 간의 관계를 검토함에 있어서 그렇게 완전한 지표는 아닙니다.

두 변수 간의 관계를 검토할 때는 항상 평균과 표준편차, 특이값 존재 여부, 그리

고 두 변수 간에 존재하는 비선형적 관계의 존재 유무 등을 반드시 파악하셔야

Page 13: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

4. 최소제곱(LEAST-SQUARES) 회귀선 41

A. 두 변수 관계 없는 경우 B. 두 변수 간에 관계 있는 경우

그림 9: 상관계수가 0인 두 가지 경우

합니다.

4 최소제곱(LEAST-SQUARES) 회귀선

만약산점도에서두변수간의관계가선형으로나타나면,이선형적인관계의

어떤 패턴을 산점도에 직선을 그려서 파악할 수 있습니다. 이 직선을 회귀선이라

고 합니다. 회귀선을 통해 설명변수 X가 한 단위 변할 때 결과변수 Y가 얼마나

변하는지를 알 수 있습니다. 여기서 주의할 점은 회귀선은 두 변수 간의 관계에

있어서 설명변수와 결과변수에 대한 구분을 요한다는 점입니다. 지난 번에 상

관계수에 대해서 공부를 할 때, 상관계수에서는 그러한 구분이 필요하지 않다고

배웠습니다.

그림 10은 비운동(non-exercise) 활동과 지방 증가량 간의 관계를 나타내는

산점도입니다. 비운동 활동이란 수면이나 숨쉬기와 같이 많은 활동을 요하지 않

는 활동을 말합니다. 기초대사량이 높으면 이러한 비운동 활동을 통해서 많은

칼로리가 소모되는 것으로 알려져 있습니다.

그림 10에는관측치의값들뿐만아니라직선이추가되어있습니다.관측치의

값들을 적합(fit)하는 이 직선식은 설명변수 X와 결과변수 Y 간의 관계를 나타

Page 14: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

42 제2장: 변수 간의 통계적 관계

그림 10: 비운동 활동량 vs. 지방 증가량

내는 한 지표입니다. 다시 말해 이 직선식은 산점도에 나타나 있는 두 변수 간의

관계를 수치로 요약해주는 지표입니다. 이 직선식은 다음과 같이 표기합니다.

yi = β0 + β1xi

위 식에서 yi(와이 아이 햇이라고 읽습니다)은 yi의 적합값(fitted value) 혹은

예측값(predicted value)이라고 합니다. β0(베타영 햇이라고 읽습니다)은 산점

도에서 절편을 나타내고 β1(베타일 햇이라고 읽습니다)은 기울기를 나타냅니다.

좀 더 구체적으로 말하면 β0은 x = 0일 때의 yi 값을 나타냅니다. β1은 기울기이

므로 x가 ‘한 단위’ 증가할 때 yi이 몇 단위 증가하는지를 나타냅니다.

예를 통해 이 식을 해석해보도록 하겠습니다. 그림 10에 그려져 있는 직선식

은 다음 식에 의해 요약이 됩니다.

지방증가량 = 3.5 − (0.003 ×비운동 활동량) (1)

Page 15: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

4. 최소제곱(LEAST-SQUARES) 회귀선 43

식 (1)에 따르면 절편(β0)은 3.5이고, 기울기(β1)는 0.003입니다. 즉 식을 해

석하면비운동활동량이 0칼로리이면지방증가량이 3.5가된다는것이고비운동

활동량이 1칼로리 증가하면 지방 증가량이 0.003kg 감소한다는 의미입니다. 이

식을 통해 또 알 수 있는 것은 비운동 활동량에 따른 지방 증가량이 얼마가 되

는지 예측할 수 있다는 점입니다. 예를 들어 비운동 활동량이 400칼로리이면

지방증가량의 예측 값은 2.3kg입니다(3.5 − 0.003 × 400).

자 그러면 저 회귀식은 어떻게 도출할 수 있을까요? 다시 말해 자료가 있을

때 자료의 관측치 값들을 어떻게 하나의 직선식을 이용해서 나타낼 수 있을까

요? 아까도 말씀드렸다시피 사람의 눈은 완전하지 못하기 때문에 사람들에 따라

그리는 직선식은 천차만별일 것입니다. 그림 11에는 자료를 요약하는 두 개의

직선식이 존재합니다. 어떤 직선식이 자료의 관측치 값들을 적합하게 요약하는

직선식인가요? 눈으로 봐서는 정말 모르겠습니다.

그림 11: 회귀선(어떤 것이 적합한 회귀선?)

통계학자들은 이렇게 천차만별로 나오는 상황을 굉장히 싫어합니다. 그래서

이들은 잔차(residual)라는 개념을 이용해서 적합한 직선식을 구하는 방법을 개

발했습니다. 이 방법을 간단하게 설명하면 어떤 직선식이 있을 때 이 직선식과

Page 16: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

44 제2장: 변수 간의 통계적 관계

자료의 관측치 값 간에 존재하는 차이, 즉 수직 거리가 평균적으로 가장 작게

되는 직선식이 가장 적합한 직선식이라는 것입니다. 그림 10 혹은 그림 11을

보면 대부분의 자료의 값들이 직선식에 위치해 있지 않습니다. 각 값들별로 직

선식과의 차이(수직거리)가 존재합니다. 그럼 이 상태에서 어떤 직선식이 가장

적합하냐 하면 직선식과 자료의 값들 간의 수직 거리가 평균적으로 가장 작은

직선식이 가장 적합하다는 것입니다. 직선식과 실제 자료 값 간에 존재하는 차이

혹은 수직 거리를 잔차라고 합니다. 관측치 i의 잔차를 ei라고 할 때 ei는 다음과

같이 정의할 수 있습니다.

ei = yi − yi

그림 12를 이용해 잔차에 대해서 설명을 드리도록 하겠습니다. 그림 12에는 두

개의자료값이존재합니다(투명한동그라미).이두개의실제자료값은직선식

에 위치해 있지 않습니다. 실제 자료 값과 직선 간의 수직 거리는 e1과 e2임을 알

수 있는데요 이 e1과 e2이 잔차입니다. 즉 모든 관측치별로 이 잔차가 존재하게

되는데요 가장 적합한 직선은 이 잔차들의 값들을 최대한 적게 만드는 직선입니

다. 그럼 어떻게 적게 만들까요? 다양한 방법이 있습니다만 가장 많이 이용되고

있는 방법이 바로 최소제곱법(least-squares)입니다. 최소제곱법을 통해서 직선

식을 구하면 잔차들의 ‘평균’이 최소가 되게끔 하는 직선식이 나옵니다. 이러한

직선식을최소제곱회귀선이라고합니다.수학적으로는다음의제곱식을최소가

되게끔 하는 절편(β0)과 기울기(β1)를 구하는 것입니다.

minn∑

i=1e2

i =n∑

i=1(yi − yi)2 =

n∑i=1

(yi − β0 − β1xi

)2

위 제곱식을 최소가 되게끔 하는 절편과 기울기를 구하기 위해서는 최적화 이

론(optimization theory)을 알아야 합니다. 별로 재밌는 내용이 아니기 때문에

여기서는 다루지 않겠습니다. 아무튼 위 제곱식을 최소가 되게끔 하는 절편과

Page 17: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

4. 최소제곱(LEAST-SQUARES) 회귀선 45

그림 12: 회귀선과 잔차

기울기는 다음과 같습니다.

β1 = rsy

sxβ0 = y − β1x (2)

식 (2)와 실제 그림 10의 자료를 이용하면 식 (1)의 회귀선이 정말 도출되는

지를 알아보도록 하겠습니다. 그림 10의 자료를 이용해 평균과 표준편차를 구해

보면 X = 324.8이고 sX = 257.66입니다. 그리고 Y = 2.388이고 sY = 1.1389

입니다. 지방 증가량과 비운동 활동 두 변수 간의 상관계수는 r = −0.7786입

니다. 이 정보를 식 (2)에 대입을 해 보면 다음과 같은 절편 값과 기울기 값이

나옵니다.

β1 = rsY

sX= −0.7786 × 1.1389

257.66 = −0.00344

β0 = Y − β1X = 2.388 − (−0.00344) × 324.8 = 3.505

Page 18: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

46 제2장: 변수 간의 통계적 관계

즉 식 (1)에 나와 있는 절편과 기울기와 동일함을 알 수 있습니다.

5 상관관계와 회귀선과 관련해서 유의해야 할 점

상관관계 및 회귀선과 관련해서 유의해야 할 점이 있습니다. 이 두 도구는 두

변수 간의 관계를 검토할 때 굉장히 유용하긴 합니다만, 연구자가 이 두 도구를

‘올바로’ 활용할 때만 유용하다는 것을 강조하고 싶습니다. 만약 이 두 도구를

올바로 활용하지 않고 연구를 하게 되면 굉장히 곤란합니다.

• 우선 상관관계는 두 변수 간에 존재하는 ‘선형’ 관계만을 측정한다고 말

씀드렸습니다. 따라서 회귀선은 두 변수 간에 존재하는 선형적인 관계를

검토할 때만 적용할 수 있습니다.

• 상관계수 및 회귀식은 평균과 표준편차를 활용합니다. 따라서 특이값에

굉장히 큰 영향을 받기 때문에 반드시 자료에 특이값이 있는지 여부를

파악하고 그 특이값에 대한 처리를 한 후에 이 두 도구를 사용하시길 바랍

니다.

위 두 가지 사안보다 더 유의해야 할 점이 있습니다. 그건 바로 잠복변수

(lurking variable)에 대한 고려를 해야 한다는 점입니다.

Definition 3잠복변수: 잠복변수는 연구자가 관측을 할 수 없는 변수인데 그 변수가

두 변수 간의 관계를 해석할 때 영향을 끼칠 수 있는 변수를 지칭합니다.

굉장히 중요한 내용이기 때문에 예를 통해서 이 변수가 무엇인지 알아보도

록 하겠습니다. 손호성 연구원은 병원의 크기(침상 수로 측정)와 환자가 병원에

Page 19: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

5. 상관관계와 회귀선과 관련해서 유의해야 할 점 47

입원하는기간(중간값을이용)간에어떠한관계가존재하는지를연구하고있습

니다. 이러한 연구를 하고 있는 이유는 병원의 크기가 크면 치료를 비효율적으로

할 소지가 크기 때문에 만약 그렇다고 한다면 병원의 크기를 줄이는 정책적 제안

을 하기 위해서입니다. 손호성 연구원은 이규환 연구원에게 자료를 이용해서 두

변수 간의 상관계수 그리고 회귀식을 도출해 줄 것을 부탁했습니다. 이규환 연구

원은 자료를 이용해 두 변수 간에 강한 양의 상관관계가 나타났고 또 회귀분석을

한 결과 회귀계수가 0.5일로 추정이 되었다고 손호성 연구원에게 알려줬습니

다. 이를 토대로 손호성 연구원은 병원 입원 기간을 줄이기 위해 병원의 크기를

줄이는 정책을 도입해야 한다는 취지의 논문을 작성하였습니다.

손호성 연구원은 올바른 결론을 내린 걸까요? 당연히 아닙니다. 큰 병을 앓

고 있는 환자일수록 큰 병원에 입원할 확률이 큽니다. 그리고 그런 큰 병을 앓고

있는 환자일수록 입원 기간이 길 확률이 큽니다. 따라서 병원 크기와 입원 기간

간에 양의 상관관계가 관측된 이유는 큰 병을 앓고 있는 환자가 큰 병원에 있기

때문이지 큰 병원이 치료를 비효율적으로 해서 환자의 입원 기간이 길어진 것

이 아닌 것입니다. 즉 병원의 크기와 입원 기간 간에 양의 상관관계가 존재하고

회귀계수가 0.5로 나온 이유는 이 잠복변수(환자의 병의 심각함) 때문입니다.

잠복변수 때문에 발생하게 되는 상관관계를 ‘넌센스 상관관계’라고 할 수

있겠습니다. 도출한 상관계수는 아무 문제가 없습니다. 그러한 상관계수가 넌

센스한 이유는 연구자가 해석을 잘못했기 때문입니다. 즉 도출한 상관계수를

토대로 X가 Y의 ‘원인’이라고 잘못 결론내렸기 때문에 넌센스하다는 것입니다.

X와 Y 간에 존재하는 상관관계는 여러 종류의 관계(X와 Y , X와 잠복변수, Y

와 잠복변수, 잠복변수와 잠복변수)를 반영한다는 것을 명심해야 합니다.

상관계수와 회귀선과 관련해서 마지막으로 유의해야 할 점은 다음과 같습

니다.

• 평균을 한 자료를 토대로 계산한 상관계수가 개별 자료를 토대로 계산한상관계수보다 일반적으로 더 높게 나타난다는 점입니다.

Page 20: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

48 제2장: 변수 간의 통계적 관계

예를 들어, 아이들의 신장 자료를 평균한 값과 연령 간의 관계를 살펴보면

굉장히 강한 양의 상관관계가 도출이 됩니다. 하지만 평균이 아닌 아이들의 개별

신장 자료와 연령 간의 관계를 살펴보면 상관관계가 약해집니다. 평균을 이용했

을때상관관계가강해지는이유는자료를평균할때자료의표준편차가작아지기

때문입니다. 밑에 있는 상관계수의 공식을 보면 무슨 말인지 확실해집니다.

rX,Y = 1n − 1

n∑i=1

(xi − X

sX

) (yi − Y

sY

)

위식을보면상관계수는분모에존재하는표준편차에영향을받는다는것을

알 수 있습니다. 자료를 평균하게 되면 대개 자료의 표준편차가 작아집니다. 따

라서 분모가 작아져서 결과적으로 상관계수 값이 커지는 겁니다. 그렇기 때문에

평균 자료를 이용해서 연구를 할 때는 이 부분에 대한 고려를 반드시 하셔야 합

니다. 실제 개별 자료를 이용할 때는 강한 양의 상관관계가 안 나타날 수도 있기

때문입니다.

6 상관관계 VS. 인과관계

많은 연구자들이 통계학의 논리 및 도구를 연구에 활용하는 가장 큰 목적은

아무래도 어떤 설명변수 X가 결과변수 Y의 ‘원인’이 되는 것을 밝히려고 하는

데에 있지 않을까 합니다. 예를 들어, 고혈압인 고령 환자의 혈압수치를 낮추기

위해 상담사를 파견하는 정책을 도입했다고 합시다. 이러한 정책(X)과 고령 환

자의혈압수치(Y )간의 ‘인과관계’를증명하는것은상당히어려운일입니다.그

이유는 이 두 변수 간의 관계를 야기하는 여러 형태의 잠복변수가 존재하기 때

문입니다. 지금부터 인과관계와 관련한 논의를 좀 더 확장해서 무엇이 인과관계

증명을 어렵게 하고 또 인과관계가 존재한다는 것을 증명하기 위해서는 어떻게

해야 하는지 간략하게 다루고자 합니다.

Page 21: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

6. 상관관계 VS. 인과관계 49

6.1 인과관계 증명을 어렵게 하는 요인

앞서 말씀을 드렸다시피 단지 두 변수(X와 Y ) 간에 강한 상관관계가 존재한

다고해서한변수(X)의변화가다른변수(Y )의변화를일으키는 ‘원인’이다라는

결론이 도출되는 것은 결코 아닙니다. 그림 13에 있는 도표를 이용해 이 말이 무

슨 뜻인지 알아보도록 하겠습니다. 도표에서는 대학 학위가 임금 수준과 양의

상관관계가 존재한다는 것을 보여주고 있습니다.

그림 13: 대학 학위와 임금수준 간의 상관관계

그림 13의 도표에 나와 있는 것처럼 대학 학위와 임금수준 간에 양의 상관관

계가존재한다고했을때,어떤사람이 ‘모든 것은 동일한 상태에서’대학학위를

받았다고 했을 때 그 사람의 임금수준이 반드시 오를 것이라고 결론내릴 수 있을

까요?이렇게결론을내리기에는두가지문제점이있습니다.첫째,두변수간에

아무런 인과관계가 없음에도 불구하고 양의 상관관계를 야기시키는 잠복변수가

존재할 수 있다는 것입니다. 그림 14에 잠복변수의 예를 표시했습니다.

많은 분들이 동의하실 것으로 생각을 합니다. 어떤 사람의 동기, 부지런함,

능력, 열정, 끈기와 같이 일반적으로 관찰할 수 없는 특성들이 분명히 그 사람이

대학 학위를 보유하는지 여부에 영향을 미칠 것이고 또한 동시에 그 사람의 임

금수준에도 큰 영향을 미칠 것입니다. 따라서 이러한 특성들 때문에 그 사람의

Page 22: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

50 제2장: 변수 간의 통계적 관계

그림 14: 잠복변수의 존재

임금수준이 높은 것이지 대학 학위가 그 사람의 임금수준을 상승시킨 것이 아

닐 수도 있습니다. 만약 그렇다고 한다면 이러한 특성들이 동일한 상태에서 그

사람의 대학학위 보유 여부에만 변화가 생겼을 때는 임금수준은 상승하지 않을

것입니다.

둘째, 대학 학위와 임금수준 간의 관계가 다른 변수에 의해 중첩되었을 수도

있습니다. 그림 15를 통해서 설명을 해보도록 하겠습니다.

Definition 4중첩변수(Confounding Variable): 어떤 두 변수가 한 결과변수에 동시에

영향을 끼치고 각각의 변수만의 효과를 구분할 수 없을 때 이 두 변수가

중첩(confound)되었다고합니다.설명변수및잠복변수모두중첩변수가

될 수 있습니다.

Page 23: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

6. 상관관계 VS. 인과관계 51

그림 15를 보시면 알겠지만 대학 학위를 보유하게 되면 직업 선택의 폭이

넓어질 것입니다. 그렇기 때문에 대학 학위를 보유한 사람이 임금수준이 높은

이유는 직업 선택의 폭이 넓은 상태에서 가장 임금수준을 높게 주는 직업을 선

택했기 때문이지 단지 대학 학위가 있어서 높은 것이 아닐 수도 있습니다.

그림 15: 중첩변수의 존재

즉, 결과변수(Y )에도 영향을 미치고 또 동시에 설명변수(X)와도 관련이 큰

어떤 통제하지 못한 변수(Z)가 존재하면, X가 Y에 미치는 효과와 Z가 Y에 미

치는 효과를 구분해서 식별하기가 어려울 뿐만 아니라 X가 Y에 미치는 효과가

Z에 비해 상대적으로 얼마나 큰지도 파악하기가 어렵습니다.

6.2 어떤 연구를 할 것인가?

연구를 할 때 이러한 잠복변수 혹은 중첩변수로부터 자유롭지 못하는 연구

주제를 선택하게 되면 정책적 함의를 도출 못하는 연구를 할 가능성이 큽니다.

Paul Holland라는유명한통계학자가있습니다.이통계학자는연구자가통계학

의 논리 혹은 도구를 이용해서 연구를 하기로 결정했으면, ‘효과의 원인(causes

of effects)’이 아닌 ‘원인의 효과(effects of causes)’를 알아보는 연구를 할

것을 강조했습니다. 효과의 원인과 원인의 효과, 좀 말장난 같나요? 그렇게 들리

Page 24: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

52 제2장: 변수 간의 통계적 관계

기는 합니다만, 연구를 할 때 특히 통계학의 논리를 이용해서 연구를 할 때 이

둘을 구분짓는 것은 정말 중요한 일입니다.

예를 들어보겠습니다. 비만과 관련한 연구를 진행한다고 하겠습니다. 이때

두 가지 방향으로 연구를 진행할 수 있습니다. 하나는 비만에 영향을 미치는 요

인들을 알아보는, 즉 소위 말하는 비만의 결정요인을 알아보는 연구입니다. 다른

하나는비만의결정요인을알아보는게아니라어떤한요인,예를들어흡연이비

만에 미치는 효과를 알아보는 연구입니다. 전자의 연구가 전형적인 ‘효과(비만)

의원인’을알아보는연구입니다.후자의경우는 ‘원인(흡연)의효과’를알아보는

연구입니다. 둘의 차이점을 아시겠나요?

효과의 원인을 식별하는 것은 무척 어려운 일입니다. 다들 아시겠지만 비만

을일으키는원인은수도없이많습니다.설령그러한수많은원인들과비만간의

상관관계를밝혀냈다고해도각각의원인들과비만간의인과관계를증명하는것

은 굉장히 어렵습니다. 그 이유는 비만과 각각의 원인들 간의 관계를 야기시키는

수많은 혼란변수와 중첩변수가 존재하기 때문입니다.

반면 흡연이 비만에 미치는 효과를 알아보는 연구는 비만의 결정요인 연구

와는 달리 잠복변수와 중첩변수에 대한 통제가 수월할 것입니다. 그리고 비만의

결정요인을연구할때는수많은요인들이작용을하겠지만흡연이비만에미치는

효과를 연구하면 연구주제가 명확하고 연구설계를 구상하기가 쉽습니다. 따라

서 연구주제를 선택하기에 앞서, 이 ‘효과의 원인’과 ‘원인의 효과’와 관련해서

충분히 고민을 하실 것을 강력하게 권합니다.

6.3 인과관계를 어떻게 증명할 것인가?

그럼 과연 설명변수 X의 변화가 결과변수 Y의 변화를 일으키는 원인이라고

어떻게 증명할 수 있을까요? 정말 쉽지 않은 증명입니다. 이 증명이 쉬웠다면

지금 우리는 천국에서 살고 있을 것입니다. 현재까지 통계학자들이 개발한 방법

중에 인과관계를 주장할 때 가장 강력한 도구로 활용이 되는 것은 무작위 통제

Page 25: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

6. 상관관계 VS. 인과관계 53

실험(randomized controlled trial)입니다. 무작위 통제 실험에 대해서는 나중에

배우게 될 것이므로 여기서는 다루지 않겠습니다.

한 가지 아셔야 할 것은 비록 이 무작위 실험이 인과관계를 증명할 때 매우

강력한 도구가 되지만 이러한 실험을 통해 사회과학의 여러 연구를 수행할 수는

없다는 사실입니다. 예를 들어, 가난이 교육수준 달성을 저해한다는 것을 증명

하는 연구를 한다고 합시다. 가난과 교육수준 간의 인과관계를 무작위 실험으로

증명하기 위해서는 가난한 사람과 부유한 사람을 무작위로 나누어야 합니다. 이

렇게 어떤 사람을 가난하게 또 어떤 사람을 부유하게 무작위로 나누는 연구를

할 수 있을까요? 말도 안 되는 연구입니다. 아마 그렇게 했다가는 쿠데타가 일

어날 것입니다. 또 다른 예를 들어보도록 하겠습니다. 미국에서는 총기소유와

강력 범죄 간의 인과관계를 증명하고자 하는 연구가 많이 수행되었습니다. 이 두

변수 간의 인과관계를 증명하기 위해 무작위 실험을 수행할 수 있을까요? 실현

불가능한 실험입니다.

따라서 어떤 두 변수 간의 인과관계를 증명할 때 이 무작위 실험을 이용하

기에는 많은 한계점이 있습니다. 그래서 최근에는 준실험적(자연실험적) 방법을

이용해서 인과관계를 증명하려는 노력을 많이 합니다. 물론 그렇다고 해서 준

실험적 방법을 이용하는 것이 쉬운 것은 아닙니다. 준실험적 방법을 공부하기

위해서는 통계학과 계량경제학의 기초가 튼튼해야 한다고 머리말에서 말씀드렸

습니다. 그러니 이 책을 열심히 공부해 주시길 바랍니다.

실험적 혹은 준실험적 방법을 사용 못하면 인과관계는 결코 증명 못하는 걸

까요? 그렇지는 않습니다. 대개 이러한 실험적 혹은 준실험적 방법을 사용할 수

없을 때 다음과 같은 다섯 가지 기준을 적용해서 인과관계를 증명하는 노력을 할

수 있습니다.

• 첫째, 변수 X와 Y 간에 강한 상관관계가 존재하여야 합니다.

• 둘째, 변수 X와 Y 간에 존재하는 강한 상관관계가 여러 연구에서 관측이

되어야 합니다. 단, 각각의 연구는 분석 표본, 시간, 지역 등 여러 면에서

서로 달라야 합니다.

Page 26: Chapter II - hosung.weebly.comhosung.weebly.com/uploads/1/7/9/6/17964019/2장.pdf · 30 제2장: 변수 간의 통계적 관계 Celsius(C)로 알고 있다고 한다면 그 온도를

54 제2장: 변수 간의 통계적 관계

• 셋째, 변수 X의 변화가 강해지면 변수 Y의 변화도 강해져야 합니다.

• 넷째, 원인이라고 생각이 되는 설명변수 X의 변화가 결과변수 Y의 변화

보다 앞서 일어나야 합니다.

• 다섯째, 원인이라고 생각되는 X가 상당히 개연성이 있어야 합니다.

흡연과 폐암 관련 연구를 예로 들면서 위 기준에 대해서 설명을 해보겠습

니다. 첫째, 흡연(X)과 폐암(Y ) 간에는 강한 상관관계가 존재합니다. 둘째, 정

말 수도 없이 많은 연구에서 이 흡연과 폐암 간에 상관관계가 존재한다는 것이

밝혀졌습니다. 셋째, 일일 흡연량이 많을수록, 혹은 흡연 기간이 길수록, 폐암일

확률이높게나타났습니다.반면,금연을하게되면폐암발생률이감소했습니다.

넷째, 많은 연구에서 흡연을 하고 여러 해가 지난 후에 폐암에 걸리게 되었음을

확인했습니다. 다섯째, 쥐를 대상으로 실험을 해보니 담배의 타르가 쥐의 폐암

발생률을 높이는 것을 알 수 있었습니다.

의학계는 흡연이 폐암을 일으킨다고 주저 없이 말을 합니다. 의학계는 위와

같은기준에기반해이러한주장을하는것입니다.물론흡연과폐암간에인과관

계가 존재한다는 근거가 상당히 강력하긴 합니다만, 실험을 통해 도출한 근거에

비하면 위 기준하에 도출한 근거가 강력하지는 않습니다. 흡연과 폐암 간의 인

과관계를 증명하기 위해 실험을 하면 참 좋겠지만 그런 실험은 윤리적으로 말이

안 되는 실험이기 때문에 어쩔 수 없이 위와 같은 기준을 활용할 수밖에 없는

것입니다.

6.4 결론

여기서 제가 강조하고 싶은 것은 ‘두 변수 X와 Y 간에 상관관계가 존재하고

설사 그 관계의 정도가 아무리 강하더라도, 그 사실이 두 변수 간에 인과관계가

존재한다는 것을 증명하는 것은 아니다’라는 것입니다. 잊지 말아주시길 바랍

니다!