38
Лекция 6 Линейная регрессия

Лекция 6 Линейная регрессия

Embed Size (px)

DESCRIPTION

Лекция 6 Линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. r = -0.88 достаточно тесная обратная взаимосвязь. Прогнозирование. минимально-максимальный метод линейная регрессия. Минимально-максимальный метод. низкая точность метода - PowerPoint PPT Presentation

Citation preview

Page 1: Лекция 6 Линейная регрессия

Лекция 6Линейная регрессия

Page 2: Лекция 6 Линейная регрессия

Простая линейная регрессия

НеделяКол-во молока

(тыс. л)Цена 1 л (руб.)

1 10 202 6 303 5 264 11 235 10 246 15 187 5 258 12 219 16 16

10 20 17

Page 3: Лекция 6 Линейная регрессия

Простая линейная регрессия

Продажа молока

0

5

10

15

20

25

12 17 22 27 32

цена за 1 л (руб.)

кол

-во

мо

ло

ка (

тыс.

л)

Page 4: Лекция 6 Линейная регрессия

Простая линейная регрессия

r = -0.88достаточно тесная

обратная взаимосвязь

Page 5: Лекция 6 Линейная регрессия

Прогнозирование

минимально-максимальный метод

линейная регрессия

Page 6: Лекция 6 Линейная регрессия

Минимально-максимальный метод

низкая точность методаY = 27.43 - 0.71X

0

5

10

15

20

25

15 17 19 21 23 25 27 29 31

прогноз

факт

Page 7: Лекция 6 Линейная регрессия

Простая линейная регрессия

XY 10

XbbY 10

^

Генеральная совокупность

Выборка

Page 8: Лекция 6 Линейная регрессия

Простая линейная регрессия

метод наименьших квадратов (наименьшая сумма квадратов ошибок)

XY 10

210

2^

)()( XbbYYYSSE

Page 9: Лекция 6 Линейная регрессия

Простая линейная регрессия

r

XX

YYb

2

2

1

)(

)(

XbYn

Xb

n

Yb 1

10

2

221

)(

)()(

)( XX

YYXX

XXn

YXXYnb

Page 10: Лекция 6 Линейная регрессия

Простая линейная регрессия

Продажа молока

0

5

10

15

20

25

12 17 22 27 32

цена за 1 л (руб.)

кол

-во

мо

ло

ка (

тыс.

л)

Page 11: Лекция 6 Линейная регрессия

Простая линейная регрессия

Математические ожидания возможных значений У на одной прямой при изменении Х

Page 12: Лекция 6 Линейная регрессия

Прогнозирование с использованием линейной регрессии

Два источника неопределенности:1. неопределенность, обусловленная отклонением

точек данных от выборочной прямой регрессии2. неопределенность, обусловленная отклонением

выборочной прямой регрессии от регрессионной прямой генеральной совокупности

Page 13: Лекция 6 Линейная регрессия

Простая линейная регрессия: ошибки

Ошибка (ε) – расстояние между значением У и его математическим ожиданием

Стандартная ошибка оценки – степень отличия реальных значений Y от оценочных

Стандартная ошибка прогноза - вариативность около Y для данного значения Х

2

)( 2^

*

n

YYs xy

2

2

*

)(

)(11

XX

XX

nss xyf

Page 14: Лекция 6 Линейная регрессия

Простая линейная регрессия

Границы интервала прогноза величины У:

df = n-2

Для большой выборки - 95%-ный интервал:

ftsY^

fsY 2^

Page 15: Лекция 6 Линейная регрессия

Простая линейная регрессия

-5

0

5

10

15

20

25

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Page 16: Лекция 6 Линейная регрессия

Простая линейная регрессия

Предположения, положенные в основу модели линейной регрессии:

для заданного значения Х генеральная совокупность значений У имеет нормальное распределение относительно регрессионной прямой совокупности

разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия генеральной совокупности не увеличивается и не уменьшается)

слагаемые ошибок ε независимы между собой в генеральной совокупности существует линейная зависимость

между Х и У

Page 17: Лекция 6 Линейная регрессия

Разложение дисперсии

наблюдение = прогноз + отклонение

или

)(^^

YYYY

)()( 1010 XbbYXbbY наблюдаемое

значение Yобъясненное

линейной зависимостью

остаток или отклонение от линейной зависимости

Page 18: Лекция 6 Линейная регрессия

Разложение дисперсии

= +

n - 1 = n – 2 + 1

Page 19: Лекция 6 Линейная регрессия

Разложение дисперсии

SST = SSR + SSE

222 = 172.023 + 49.977

SSR/SST = 0.775

77.5% объясняется взаимосвязью Х и У

Page 20: Лекция 6 Линейная регрессия

Разложение дисперсии

Таблица ANOVA для прямолинейной регрессии

Источник Сумма квадратов Степени свободы Среднеквадратичное значение

Регрессия SSR 1 MSR = SSR/1 Ошибки SSE n-2 MSE = SSE/(n-2) Общая SST n-1

2*

2^

2

)(

2 xysn

YY

n

SSEMSE

Page 21: Лекция 6 Линейная регрессия

Разложение дисперсии

Источник Сумма квадратов Степени свободы Среднеквадратичное значение

Регрессия 172.023 1 MSR = 172.023 Ошибки 49.977 8 MSE = 6.247 Общая 222 9

SST = SSR + SSE

222 = 172.023 + 49.977общая

вариацияобъясненная

вариациянеобъясненная

вариация

Page 22: Лекция 6 Линейная регрессия

Коэффициент детерминация

b0=32.75

Yср=11

регрессионная прямая

Y – Yср(всего)

Yпрогноз.-Yср (объясненное посредством Х)

Y.-Yпрогноз (необъясненное посредством Х)

Page 23: Лекция 6 Линейная регрессия

Коэффициент детерминации

Выборочный коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить

с помощью информации об изменчивости (разнице значений) независимой переменной Х

2

2^

2

2^

2

)(

)(11

1)(

)(

YY

YY

SST

SSE

вариацияобщая

вариациянаянеобъяснен

YY

YY

SST

SSR

вариацияобщая

вариацияяобъясненнаr

Page 24: Лекция 6 Линейная регрессия

Коэффициент детерминации

77.5% изменчивости количества продаваемого молока можно объяснить разницей в цене за 1 л

775.0222

023.1722 SST

SSRr

Page 25: Лекция 6 Линейная регрессия

Коэффициент детерминации

Для прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции

22 )(rr

Page 26: Лекция 6 Линейная регрессия

Коэффициент детерминации

Page 27: Лекция 6 Линейная регрессия

Проверка гипотез

0: 10 H

Page 28: Лекция 6 Линейная регрессия

Проверка гипотез

Проверочная статистика t

0: 10 H

1

1

bs

bt

df = n – 2

2

*

)(1

XX

ss xyb

Page 29: Лекция 6 Линейная регрессия

Проверка гипотез

t расч. = - 5.25

t табл. = 2.306

отклонить нулевую гипотезу

Page 30: Лекция 6 Линейная регрессия

Проверка гипотез

Проверка нулевой гипотезы с помощью таблицы ANOVA

df = 1, n-2

Область отклонения гипотезы:

MSE

MSR

ошибокзначениератичноесреднеквад

регрессиизначениератичноесреднеквадF

FF

2

2

1

)2(

r

nrF

Page 31: Лекция 6 Линейная регрессия

Проверка гипотез

F расч. = 27.54

F табл. = 5.32

отклонить нулевую гипотезу

Page 32: Лекция 6 Линейная регрессия

Анализ остатков

Предположения, сделанные для модели прямолинейной регрессии

Связь между переменными является линейной Ошибки являются независимыми Дисперсии ошибок равны Значения ошибки нормально распределены

Page 33: Лекция 6 Линейная регрессия

Анализ остатков

Проверка соответствия предполагаемой модели

Построить гистограмму значений остатков Расположить остатки по значениям оцениваемых

величин Расположить остатки по значениям объясняющих

переменных Расположить остатки по времени их появления,

если исходные данные хронологически упорядочены

Page 34: Лекция 6 Линейная регрессия

Прогноз объемов продаж молока

НеделяКол-во молока

(тыс. л)Цена 1 л (руб.)

1 10 202 6 303 5 264 11 235 10 246 15 187 5 258 12 219 16 16

10 20 17

Page 35: Лекция 6 Линейная регрессия

Регрессия

Регрессионная статистикаМножественный R 0,88R-квадрат 0,77Нормированный R-квадрат 0,75Стандартная ошибка 2,50Наблюдения 10

,1

111 22

kn

nRRadj

Page 36: Лекция 6 Линейная регрессия

Регрессия

Дисперсионный анализdf SS MS F Значимость F

Регрессия 1 172,02 172,02 27,54 0,00Остаток 8 49,98 6,25Итого 9 222

Page 37: Лекция 6 Линейная регрессия

Регрессия

Коэффициенты

Стандартная ошибка

t-статис

тикаP-

ЗначениеНижние

95%Верхние

95%Y-пересечение 32,75 4,22 7,76 0,00 23,02 42,48Переменная X 1 -0,99 0,19 -5,25 0,00 -1,42 -0,55

2

22

n

eS i

2)(1

xx

SS

i

b

2

222

)(0 xxn

xSS

i

ib

2

00 bb SS

Page 38: Лекция 6 Линейная регрессия

Регрессия

ВЫВОД ОСТАТКАНаблюдение

Предсказанное Y Остатки

Стандартные остатки

1 12,98 -2,98 -1,262 3,09 2,91 1,233 7,05 -2,05 -0,874 10,01 0,99 0,425 9,02 0,98 0,416 14,95 0,05 0,027 8,03 -3,03 -1,298 11,99 0,01 0,009 16,93 -0,93 -0,40

10 15,94 4,06 1,72