Upload
graham-knight
View
66
Download
0
Embed Size (px)
DESCRIPTION
Лекция 6 Линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. r = -0.88 достаточно тесная обратная взаимосвязь. Прогнозирование. минимально-максимальный метод линейная регрессия. Минимально-максимальный метод. низкая точность метода - PowerPoint PPT Presentation
Citation preview
Лекция 6Линейная регрессия
Простая линейная регрессия
НеделяКол-во молока
(тыс. л)Цена 1 л (руб.)
1 10 202 6 303 5 264 11 235 10 246 15 187 5 258 12 219 16 16
10 20 17
Простая линейная регрессия
Продажа молока
0
5
10
15
20
25
12 17 22 27 32
цена за 1 л (руб.)
кол
-во
мо
ло
ка (
тыс.
л)
Простая линейная регрессия
r = -0.88достаточно тесная
обратная взаимосвязь
Прогнозирование
минимально-максимальный метод
линейная регрессия
Минимально-максимальный метод
низкая точность методаY = 27.43 - 0.71X
0
5
10
15
20
25
15 17 19 21 23 25 27 29 31
прогноз
факт
Простая линейная регрессия
XY 10
XbbY 10
^
Генеральная совокупность
Выборка
Простая линейная регрессия
метод наименьших квадратов (наименьшая сумма квадратов ошибок)
XY 10
210
2^
)()( XbbYYYSSE
Простая линейная регрессия
r
XX
YYb
2
2
1
)(
)(
XbYn
Xb
n
Yb 1
10
2
221
)(
)()(
)( XX
YYXX
XXn
YXXYnb
Простая линейная регрессия
Продажа молока
0
5
10
15
20
25
12 17 22 27 32
цена за 1 л (руб.)
кол
-во
мо
ло
ка (
тыс.
л)
Простая линейная регрессия
Математические ожидания возможных значений У на одной прямой при изменении Х
Прогнозирование с использованием линейной регрессии
Два источника неопределенности:1. неопределенность, обусловленная отклонением
точек данных от выборочной прямой регрессии2. неопределенность, обусловленная отклонением
выборочной прямой регрессии от регрессионной прямой генеральной совокупности
Простая линейная регрессия: ошибки
Ошибка (ε) – расстояние между значением У и его математическим ожиданием
Стандартная ошибка оценки – степень отличия реальных значений Y от оценочных
Стандартная ошибка прогноза - вариативность около Y для данного значения Х
2
)( 2^
*
n
YYs xy
2
2
*
)(
)(11
XX
XX
nss xyf
Простая линейная регрессия
Границы интервала прогноза величины У:
df = n-2
Для большой выборки - 95%-ный интервал:
ftsY^
fsY 2^
Простая линейная регрессия
-5
0
5
10
15
20
25
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Простая линейная регрессия
Предположения, положенные в основу модели линейной регрессии:
для заданного значения Х генеральная совокупность значений У имеет нормальное распределение относительно регрессионной прямой совокупности
разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия генеральной совокупности не увеличивается и не уменьшается)
слагаемые ошибок ε независимы между собой в генеральной совокупности существует линейная зависимость
между Х и У
Разложение дисперсии
наблюдение = прогноз + отклонение
или
)(^^
YYYY
)()( 1010 XbbYXbbY наблюдаемое
значение Yобъясненное
линейной зависимостью
остаток или отклонение от линейной зависимости
Разложение дисперсии
= +
n - 1 = n – 2 + 1
Разложение дисперсии
SST = SSR + SSE
222 = 172.023 + 49.977
SSR/SST = 0.775
77.5% объясняется взаимосвязью Х и У
Разложение дисперсии
Таблица ANOVA для прямолинейной регрессии
Источник Сумма квадратов Степени свободы Среднеквадратичное значение
Регрессия SSR 1 MSR = SSR/1 Ошибки SSE n-2 MSE = SSE/(n-2) Общая SST n-1
2*
2^
2
)(
2 xysn
YY
n
SSEMSE
Разложение дисперсии
Источник Сумма квадратов Степени свободы Среднеквадратичное значение
Регрессия 172.023 1 MSR = 172.023 Ошибки 49.977 8 MSE = 6.247 Общая 222 9
SST = SSR + SSE
222 = 172.023 + 49.977общая
вариацияобъясненная
вариациянеобъясненная
вариация
Коэффициент детерминация
b0=32.75
Yср=11
регрессионная прямая
Y – Yср(всего)
Yпрогноз.-Yср (объясненное посредством Х)
Y.-Yпрогноз (необъясненное посредством Х)
Коэффициент детерминации
Выборочный коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить
с помощью информации об изменчивости (разнице значений) независимой переменной Х
2
2^
2
2^
2
)(
)(11
1)(
)(
YY
YY
SST
SSE
вариацияобщая
вариациянаянеобъяснен
YY
YY
SST
SSR
вариацияобщая
вариацияяобъясненнаr
Коэффициент детерминации
77.5% изменчивости количества продаваемого молока можно объяснить разницей в цене за 1 л
775.0222
023.1722 SST
SSRr
Коэффициент детерминации
Для прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции
22 )(rr
Коэффициент детерминации
Проверка гипотез
0: 10 H
Проверка гипотез
Проверочная статистика t
0: 10 H
1
1
bs
bt
df = n – 2
2
*
)(1
XX
ss xyb
Проверка гипотез
t расч. = - 5.25
t табл. = 2.306
отклонить нулевую гипотезу
Проверка гипотез
Проверка нулевой гипотезы с помощью таблицы ANOVA
df = 1, n-2
Область отклонения гипотезы:
MSE
MSR
ошибокзначениератичноесреднеквад
регрессиизначениератичноесреднеквадF
FF
2
2
1
)2(
r
nrF
Проверка гипотез
F расч. = 27.54
F табл. = 5.32
отклонить нулевую гипотезу
Анализ остатков
Предположения, сделанные для модели прямолинейной регрессии
Связь между переменными является линейной Ошибки являются независимыми Дисперсии ошибок равны Значения ошибки нормально распределены
Анализ остатков
Проверка соответствия предполагаемой модели
Построить гистограмму значений остатков Расположить остатки по значениям оцениваемых
величин Расположить остатки по значениям объясняющих
переменных Расположить остатки по времени их появления,
если исходные данные хронологически упорядочены
Прогноз объемов продаж молока
НеделяКол-во молока
(тыс. л)Цена 1 л (руб.)
1 10 202 6 303 5 264 11 235 10 246 15 187 5 258 12 219 16 16
10 20 17
Регрессия
Регрессионная статистикаМножественный R 0,88R-квадрат 0,77Нормированный R-квадрат 0,75Стандартная ошибка 2,50Наблюдения 10
,1
111 22
kn
nRRadj
Регрессия
Дисперсионный анализdf SS MS F Значимость F
Регрессия 1 172,02 172,02 27,54 0,00Остаток 8 49,98 6,25Итого 9 222
Регрессия
Коэффициенты
Стандартная ошибка
t-статис
тикаP-
ЗначениеНижние
95%Верхние
95%Y-пересечение 32,75 4,22 7,76 0,00 23,02 42,48Переменная X 1 -0,99 0,19 -5,25 0,00 -1,42 -0,55
2
22
n
eS i
2)(1
xx
SS
i
b
2
222
)(0 xxn
xSS
i
ib
2
00 bb SS
Регрессия
ВЫВОД ОСТАТКАНаблюдение
Предсказанное Y Остатки
Стандартные остатки
1 12,98 -2,98 -1,262 3,09 2,91 1,233 7,05 -2,05 -0,874 10,01 0,99 0,425 9,02 0,98 0,416 14,95 0,05 0,027 8,03 -3,03 -1,298 11,99 0,01 0,009 16,93 -0,93 -0,40
10 15,94 4,06 1,72