РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ....

Preview:

Citation preview

Р Е Г Р Е С И О Н Е Н

А Н А Л И З

С Ъ Д Ъ Р Ж А Н И Е

ЧАСТ 1СЛАЙД 4-23

ВЪВЕДЕНИЕ

ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗЧАСТ 2СЛАЙД 24-31

ЧАСТ 3СЛАЙД 32-51

МЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ (МНМК)

ЧАСТ 4СЛАЙД 52-85

МНОГОФАКТОРЕН РЕГРЕСИОНЕН АНАЛИЗ

ЧАСТ 5СЛАЙД 86-95

НЕЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ц Е Л И Н А О Б У Ч Е Н И Е Т ОВ к р а я н а т а з и л е к ц и я с т у д е н т и т е т р я б в а д а м о г а т д а :

1. Описват модела на линейна регресия

2. Посочват стъпките за моделиране на регресията

3. Обясняват метода на най-малките квадрати

4. Изчисляват коефициентите на регресия

5. Разбират и проверяват предположенията на модела

6. Определят резултативната променлива

7. Обясняват линейния модел за мнофакторна регресия

8. Интерпретират многофакторните регресионни параметри

9. Обясняват мултиколинеарността

10. Описват типовете модели с множествена регресия

11. Правят връзка между модела на корелация и модела на регресия

Ч А С Т 1В Ъ В Е Д Е Н И Е

И С Т О Р И Я

1822-1911: Сър Франсис Галтън “РЕГРЕСИЯТА„ Е ОТКРИТА

1805: Адриан-Мари ЛьожандърМЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ

1809: Карл Фридрих Гаус МЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ

И С Т О Р И Я

1857-1936: Карл ПирсънДВУМЕРНОТО РАЗПРЕДЕЛЕНИЕ СЕ ДОПУСКА ДА Е НОРМАЛНО

1851-1952: Джордж Юл ДВУМЕРНОТО РАЗПРЕДЕЛЕНИЕ СЕ ДОПУСКА ДА Е НОРМАЛНО

1890-1962: Сър Роналд ФишерОТСЛАБВА ТВЪРДЕНИЕТО НА ЮЛ

И ПИРСЪН

И С Т О Р И Я

Най-ранната форма на регресия е методът на най-

малките квадрати, публикуван от Льожандър през 1805 г.

и Гаус през 1809 г. И двамата прилагат метода към

проблема за определяне от астрономическите

наблюдения на орбитите на телата около Слънцето

(предимно комети, но и по-късно тогава новооткритите

малки планети).

1821

Гаус публикува допълнителна разработка на

теорията за най-малките квадрати, включително

версия на теоремата на Гаус-Марков

1805 –1809

H I S T O R YПо идеята на Галтън по-късно продължават

работа Юл и Пирсън и този път в по-общ

статистически контекст. В работата на Юл и

Пирсън, съвместното разпределение на

резултативната и факториалните променливи се

приема за Гаусово.1897 –1903

Терминът "регресия" е въведен от Франсис Галтън, за

да опише биологичен феномен – височината на

потомците на високите предци е склона да се понижи

до нормалната средна стойност (феномен, известен

също като регресия към средната стойност). За Галтън

регресията обяснява само това биологично значение.

1890

H I S T O R YИкономистите започват да използват

електромеханични калкулатори за

изчисляване на регресиите.

1950s –

1960s

Това предположение е оборено от Роналд Фишер.

Той допуска, че условното разпределение на

резултативната променлива е Гаусово, но

съвместно разпределение не е необходимо. В това

отношение предположението на Фишър е по-близо

до формулировката на Гаус от 1821 г.

1922 –1925

И С Т О Р И Я

Понякога отнема до 24 часа, за

да получи резултата от

изчисляването на една регресия

ПРЕДИ1970

Регресионните методи продължават да бъдат област

на активно изследване. В последните десетилетия са

разработени нови регресионни методи:

• Регресия с корелирани отговори като времеви

редове и криви на растеж;

• Регресия, при която прогнозираната (независима)

променлива или отговора са криви, изображения,

графики или други сложни обекти;

• Регресионни методи, приспособими към различни

видове липсващи данни; непараметрична регресия;

• Бейсови методи на регресия;

• регресия, при която прогнозните променливи се

измерват с грешка;

• регресия с повече предикторни променливи от

наблюденията;

• причинно-следствена връзка с регресия.

С Т А Т И С Т И Ч Е С К О М О Д Е Л И Р А Н Е

Д е т е р м и н и с т и ч н и м о д е л и

О п и с в а в р ъ з к а т а

м е ж д у п р о м е н л и в и т е

В е р о я т н о с т н и м о д е л и

Хипотеза за точни взаимовръзки

Подходяща, когато грешката при прогнозиране е

пренебрежимо малка

Пример: Индексът на телесната маса (BMI) е мярка за

телесната мастна тъкан

Метрична формула: 𝐵𝐵𝐵𝐵𝐵𝐵 = Тегло в кг.(Височина в метри)2

Неметрична формула: 𝐵𝐵𝐵𝐵𝐵𝐵 = Тегло (паунда)𝑥𝑥𝑥𝑥𝑥(Височина в инчове)2

Хипотеза с 2 компонента:

Детерминистичен

Случайна грешка

Пример: Систоличното кръвно налягане на новородените е

6 пъти

Възрастта в дни + Случайна грешка

СКН = 6 ∗ възраст(дни) + ε

Случайната грешка може да се дължи на фактори,

различни от възрастта в дни (напр. теглото)

ВЕРОЯТНОСТНИ МОДЕЛИ

РЕГРЕСИОННИ МОДЕЛИ

КОРЕЛАЦИОННИ МОДЕЛИ

ДРУГИ МОДЕЛИ

В и д о в е В е р о я т н о с т н и М о д е л и

С Т А Т И С Т И Ч Е С К О М О Д Е Л И Р А Н Е

Е Д И Н И Ч Н И1 НЕЗАВИСИМА ПРОМЕНЛИВА

М Н О Ж Е С Т В Е Н И2+ НЕЗАВИСИМИ

ПРОМЕНЛИВИ

Л И Н Е Й Н И Н Е Л И Н Е Й Н И Н Е Л И Н Е Й Н И

В И Д О В Е Р Е Г Р Е С И О Н Н И

М О Д Е Л И

Л И Н Е Й Н И

Р Е Г Р Е С И О Н Е На н а л и з

Регресионният анализ е статистически метод

за анализ и моделиране на зависимости

между масови явления.

Класическият вид на регресионния анализ

изисква явленията, между които се изследва

зависимост, да бъдат представени на силни

статистически скали.

Р Е Г Р Е С И О Н Е На н а л и з

В течение на времето методологията на

регресионния анализ се развива и обогатява

и понастоящем предлага богат

инструментариум за задълбочен анализ и

моделиране на корелационни зависимости

между явления, представени на различни

статистически скали.

Основната цел на регресионния анализ е

да представи в аналитичен вид, под

формата на математически модел,

изследваната корелационна вазисимост.

Поради това този анализ е назоваван

още аналитичен метод за изучаване на

корелационни зависимости.

Р Е Г Р Е С И О Н Е На н а л и з

При провеждане на анализ на данни в областта на медицината,

често е желателно да се изучи връзката между две числови

променливи:

кръвното налягане и възрастта, височината и теглото;

концентрацията на инжектираното лекарство и сърдечния

ритъм; нивото на консумация на някои хранителни вещества и

увеличаването на теглото;

интензивността на стимула и времето за реакция;

семейня доход и общите разходи за медицински грижи.

Р Е Г Р Е С И О Н Е На н а л и з

Характерът и силата на връзките между

променливи като тези могат да бъдат

изследвани чрез линейни модели като

регресионен и корелационен анализ, две

статистически техники, които, макар и

свързани, служат на различни цели.

Р Е Г Р Е С И О Н Е На н а л и з

Регресионният анализ е полезен за оценка на

специфичните форми на взаимовръзка между

променливите.

Крайната цел е да се предскаже или да се оцени

стойността на една променлива, съответстваща на

дадена стойност на друга променлива.

Р Е Г Р Е С И О Н Е На н а л и з

1. Дефиниране

на приблема или

въпроса

СТ

ЪП

КИ

Р Е Г Р Е С И О Н Н О М О Д Е Л И Р А Н Е

2. Уточняване на модела

3. Събиране на данни

4. Дискриптивен анализ на данните

5. Изчисляване на неизвестните параметри

6. Оценка на модела

7. Прилагане на модела за прогнозиране

Е Д И Н И Ч Н А

С Р Е Щ У

М Н О Ж Е С Т В Е Н А

Р Е Г Р Е С И Я

1

𝛽𝛽𝑖𝑖 представлява единичната промяна в Y на единица промяна в Xi

2 взема под внимание ефекта на други 𝛽𝛽𝑖𝑖

1

𝛽𝛽 представлява единичната

промяна в Y на единица

промяна в X

2не отчита друга променлива освен

единична независима променлива 3 нетен регресионен

коефициент

Л И Н Е Й Н О С Тпроменливата Y е линейно

свързана със стойността на променливата X

Н Е З А В И С И М О С Т Н А Г Р Е Ш К АТАгрешката (остатъка) е независима за всяка

стойност на X

1

2

Х О М О -С К Е Д А С Т И Ч Н О С Твариацията около линията на регресия е постоянна за всички стойности на X

Н О Р М А Л Н О С Тстойностите на Y да са нормално разпределени за всяка стойност на X

4

5

Д О П У С К А Н И Я

3

Н Е П Р Е К Ъ С Н АТ И П Р О М Е Н Л И В И

двете променливи трябва да се измерват или по

интервална или по пропорционална скала

6

Б Е З Е К С Т Р Е М Н И С Т О Й Н О С Т Иекстремните стойности могат да имат отрицателен ефект върху регресионния анализ

на статистически модел, който може да предвиди стойностите на зависимата(отговор) променлива въз основа на стойностите на независимите (обяснителни) променливи.

ЦЕ

Л

РАЗРАБОТВАНЕТO

Ч А С Т 2Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н А Н А Л И З

В И Д О В Е К О Р Е Л А Ц И Я

Права връзка Обратна връзка Липса на връзка

Е Д Н О Ф А К Т О Р Е Н Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н А Н А Л И З

описва линейната връзка

между независиматапроменлива, изобразена на

оста x, и зависиматапроменлива, изобразена на

оста yНезависима променлива (X)

Зави

сима

про

менл

ива

(Y)

Л И Н Е Й Н О У Р А В Н Е Н И Е

YY = mX + b

b = Y-interceptX

Changein Y

Change in Xm = Slope

Правата линия е най-простият модел на

взаимовръзката между две променливи,

измервани на интервална скала, а наклонът

ѝ дава индикация за съществуването на

асоциация между тях.

Следователно обективен начин да се

изследва асоциацията ще бъде да се построи

права линия през центъра на облака точки и

да се измери нейният наклон.

Ако наклонът е нула, линията е хоризонтална

и заключението е, че няма връзка. Ако не е

нула, следователно има връзка.

Л И Н Е Й Н О У Р А В Н Е Н И Е

YY = mX + b

b = Y-interceptX

Changein Y

Change in Xm = Slope

Така че имаме два проблема за

решаване:

• как да се направи права линия,

която най - добре моделира

връзката между променливите

и

• как да се определи дали нейния

наклон е различен от нула.

Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н М О Д Е ЛВ р ъ з к а т а м е ж д у п р о м е н л и в и т е е л и н е й н а ф у н к ц и я

𝑌𝑌𝑖𝑖

ПРЕСЕЧНА ТОЧКА НА Y НАКЛОН СЛУЧАЙНА

ГРЕШКА

ЗАВИСИМА(ОТГОВОР)

ПРОМЕНЛИВА

НЕЗАВИСИМА(ОБЯСНИТЕЛНА)

ПРОМЕНЛИВА

= 𝛽𝛽𝑥 + +𝛽𝛽1 𝑋𝑋𝑖𝑖∗ 𝜀𝜀𝑖𝑖

Unknown Relationship

𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖

𝑌𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 + ̂𝜀𝜀𝑖𝑖

Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н М О Д Е ЛВ р ъ з к а т а м е ж д у п р о м е н л и в и т е е л и н е й н а ф у н к ц и я

РА

ИЗВАДКОВ ЛИНЕЕН РЕГРЕСИОНЕН МОДЕЛ

ПОПУЛАЦИОНЕН ЛИНЕЕН РЕГРЕСИОНЕН МОДЕЛ

Y

X

Y

X

Observed value

Observed value

𝜺𝜺𝒊𝒊

= Random error

𝐸𝐸 �́�𝑌 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖Observed value

Unsampledvalue

�𝜺𝜺𝒊𝒊

= Random error

𝑌𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 + ̂𝜀𝜀𝑖𝑖

�́�𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖

Ч А С Т 3М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И ( М Н М К )

!

М Е Т О Д Н А Н А Й -

М А Л К И Т Е К В А Д Р А Т И

( М Н М К )

К А К Д А П Р И Б Л И Ж И М

Д А Н Н И Т Е В Л И Н Е Е Н

М О Д Е Л ?

М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И П р е г л е д

"Най-добро приближаване" означава, че

разликата между действителните стойности

Y и прогнозираните стойности на Y са

минимални.

Но положителните разлики компенсират

отрицателните.

Така че повдигнете грешките на квадрат!

МНМК минимизира сбора на

разликите (грешките) на квадрат

(SSE)

�(𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖)2 = � ̂𝜀𝜀𝑖𝑖2

М Н М К Р Е Г Р Е С И О Н Н О У РА В Н Е Н И Е

М Н М К Г РА Ф И Ч Н О И З О Б РА З Я В А Н Е

ε2

Y

X

ε1 ε3

ε4

^^

^^

𝑌𝑌2 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋2 + ̂𝜀𝜀2

�́�𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

мнмк минимизира � ̂𝜀𝜀𝑖𝑖2 = ̂𝜀𝜀1

2 + ̂𝜀𝜀22 + ̂𝜀𝜀𝑥

2 + ̂𝜀𝜀42

Остатъци (ε ) =

Сума на

квадратите на

остатъците =

Права на модела :

трябва да намерим стойности

на 𝛽𝛽𝑥 и 𝛽𝛽1 , които да минимизират

𝑌𝑌 − �́�𝑌�́�𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

min �(𝑌𝑌 − �́�𝑌 )2

Р Е Г Р Е С И О Н Н И К О Е Ф И Ц И Е Н Т И

𝛽𝛽1 =𝑆𝑆𝑥𝑥𝑥𝑥

𝑆𝑆𝑥𝑥𝑥𝑥=

𝜎𝜎𝑥𝑥𝑥𝑥

𝜎𝜎𝑥𝑥2

𝛽𝛽𝑥 = �𝑌𝑌 − 𝑏𝑏1 �𝑋𝑋

Ур а в н е н и е н а п р о г н оз ат а И з ва к о ва п р е с еч н а

т оч к а н а Y

Н а к л о н н а и з ва д к ат а

У РА В Н Е Н И Я Н А КО Е Ф И Ц И Е Н Т И Т Е

�́�𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 �̂�𝛽1 =𝑆𝑆𝑥𝑥𝑥𝑥

𝑆𝑆𝑥𝑥𝑥𝑥=

∑(𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − �𝑦𝑦)∑(𝑥𝑥𝑖𝑖 − �̅�𝑥)2

�̂�𝛽𝑥 = �𝑦𝑦 − �̂�𝛽1�̅�𝑥

И Н Т Е Р П Р Е Т А Ц И Я

1

2 𝑌𝑌 − Пресечна точка (�̂�𝛽𝑥)

Наклона (�̂�𝛽1)

Ако �̂�𝛽𝑥 = 4, тогава средната стойност на Y се очаква да бъде 4, когато X = 0

Оценените промени в Y при �̂�𝛽1 за всяка единица покачване / намаляване на 𝑋𝑋Ако �̂�𝛽1= 2, тогава 𝑌𝑌 се очаква да се увеличи с 2 за всяка единица увеличение на 𝑋𝑋

Н Е О Б Х О Д И М И У Р А В Н Е Н И Я

�𝑋𝑋 =∑ 𝑋𝑋

𝑛𝑛�𝑌𝑌 =

∑ 𝑌𝑌𝑛𝑛

Д Е С К Р И П Т И В Н А С Т А Т И С Т И К А

( )1

)( 1

2

−=∑=

n

YYYVar

n

i

( )1

)( 1

2

−=∑=

n

XXXVar

n

i

xxS

)(SSTSyy

xyS( )( )1

),(Covar 1

−−=∑=

n

YYXXYX

n

i

Р Е Г Р Е С И О Н Н А С Т А Т И С Т И К А

SSE SSR)( 2

+=

=−=∑ YYSST

∑ ′−′= 2)( YYSSR

∑ ′−= 2)( YYSSE

С у м а т а н а р е г р е с и я т а н а к в а д р а т ( S S R ) е с у м а т а о т к в а д р а т н и т е р а з л и к и м е ж д у

п р о г н о з а т а з а в с я к о н а б л ю д е н и е и с р е д н а т а с т о й н о с т н а п о п у л а ц и я т а .

О б щ а т а с у м а о т к в а д р а т и т е ( S S T ) е р а в н а н а S S R + S S E

(мярка за обяснена вариация)

(мярка за необяснена вариация)

(мярка за общата вариация на y)

!

Y

Вариацията, обяснена от предикторите (SST)

!

Y

X1

Вариацията необяснена от X1

(SSE)

Вациацията обяснена с X1

(SSR)

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Отношението на общата вариация (SST), която се обяснява с регресията (SSR) е известно като коефициент

на детерминация и се означава са 𝑅𝑅2.

𝑅𝑅2 =𝑆𝑆𝑆𝑆𝑅𝑅𝑆𝑆𝑆𝑆𝑆𝑆

=𝑆𝑆𝑆𝑆𝑅𝑅

𝑆𝑆𝑆𝑆𝑅𝑅 + 𝑆𝑆𝑆𝑆𝐸𝐸

𝑅𝑅2 заема стойности от 0 до 1, и колкото е по-висок, толкова по-точен е регресионния модел.

Често се представя под формата на процент.

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Важна мярка за връзка между променливите.

Представено като 𝑅𝑅2 защото неговата стойност е квадратът на друга често използвана мярка за връзка –

коефициент на корелация, който се представя с 𝑟𝑟.

Въпреки че можем да получим 𝑅𝑅2 от 𝑟𝑟, двете мерки не са напълно еквивалентни.

𝑅𝑅2 заема стойност между 0 and 1

𝑟𝑟𝑥𝑥𝑥𝑥 заеам стойности от -1 to +1

𝑟𝑟𝑥𝑥𝑥𝑥 в допълнение към предоставянето на мярка за силата на асоциацията, също ни информира за вида ѝ

И в двата случая, колкото е по-голяма абсолютната стойност на коефициента, толкова по-голяма е силата на асоциацията

За разлика от коефициента на детерминация, корелационният коефициент е абстрактна стойност, която няма директна и точна интерпретация.

Тези две мерки са свързани със степента на разсейване на наблюденията по отношение на регресионната

линия. В диаграмата на разсейването, когато двете променливи са независими, точките са разпределени по

цялата площ на участъка. Регресионната линия е хоризонтална и коефициентът на детерминация е нула.

Когато съществува връзка, регресионната линия е наклонена и точките са повече или по-малко

разпространени по дължина линията. Колкото по-голяма е силата на асоциацията, толкова по-малка е

дисперсията на точките около линията, толкова по-голям ще бъде 𝑅𝑅2 и абсолютната стойност на 𝑟𝑟. Ако

всички точки са над линията, 𝑅𝑅2 има стойност 1 и 𝑟𝑟 стойност +1 или 1.

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Важността на тези мерки за асоциация произтича от факта, че много често е възможно

да се открият доказателства за асоциация между две променливи и точно силата на

асоциацията дава информация за важността ѝ.

В клиничните изследвания асоциациите обясняващи по-малко от 50% от отклонението

на зависимата променлива, т.е. асоциациите с 𝑅𝑅2 по-малко от 0.50 или еквивалентно 𝑟𝑟

0.70 обикновено не се считат за важни.

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

С Т А Н Д А Р Т Н А Т А Г Р Е Ш К А Н А Р Е Г Р Е С И Я Т А

Стандартната грешка на регресията е

мярка за нейната вариабилност. Тя

може да се използва по подобен начин

на стандартното отклонение, което

позволява прогнозни интервали.

Стандартна грешка на регресионния моделSe = Se

2 = σ2

Средна квадратичнагрешка

От регресионното уравнение

се изчисляват прогнозираните

стойности за зависимата

променлива

1

Изчислява се отклонението на

остатъците от y и y*2

3

𝑆𝑆𝑒𝑒2 = � 𝑦𝑦 − �́�𝑦 2 =

𝑆𝑆𝑆𝑆𝐸𝐸𝑛𝑛 − 2

= 𝐵𝐵𝑆𝑆𝐸𝐸

Получава се сумата от

квадратите на х от

отклонението на x

� 𝑥𝑥 − �̅�𝑥 2 𝑛𝑛 − 1 = 𝑆𝑆𝑥𝑥2 𝑛𝑛 − 1

4Средната грешка на

корелационния

коефициент е:

𝑆𝑆𝑒𝑒 𝛽𝛽 =𝑆𝑆𝑒𝑒

2

𝑥𝑥 − �̅�𝑥 2

Тази оценка на истинската стандартна грешка на β е безпристрастна при условие, че дисперсията на точките

около регресионната линия е приблизително еднаква по дължината на линията. Това ще се случи, ако

отклонението на Y е еднакво за всяка стойност на X, т.е. ако Y е хомосекастичен. Ако това условие не е

изпълнено, тогава оценката на стандартната грешка на β може да бъде по-голяма или по-малка от истинската

стандартна грешка без да има начин да се определи. Накратко, можем да изчислим стандартната грешка на

коефициента на регресия от нашите примерни и конструктивни доверителни интервали, при следните

предположения:

• Зависимата променлива има нормално разпределение за всички стойности на независимата променлива.

• Вариацията на зависимата променлива е равна за всички стойности на независимата променлива.

• Ако независимата променлива е интервална, нейното разпределение е нормално.

• Връзката между двете променливи е линейна.

Оценката на вариацията 𝜎𝜎2 на Y за фиксираните

стойности на X може да бъде получена от отклонението

на остатъците, тоест, вариацията на отклонението на

всяко y от стойността �́�𝑦, предсказана от регресията

СРЕДНО КВАДРАТИЧНО НА ОСТАТЪЦИТЕ

H 𝑥 Т Е СТ Н А Л И Н Е Й Н А Р Е Г Р Е С И Я

Можем да тестваме нулевата хипотеза, че β = 0 с различен тест, основан на анализ на вариацията.

Фигурата сравнява ситуация, в която нулевата хипотеза е вярна, отляво, със ситуация, при която нулевата хипотеза не е вярна, вдясно.

Когато двете променливи са независими, β = 0, а наклона на регресионната линия на извадката ще бъде много близо до нула (не точно нула поради извадковата вариация).

Ако нулевата хипотеза е невярна, регресионната линия ще бъде

стръмна и отклоненията на стойностите y от регресионната линия

ще бъдат по-малки от отклоненията от �𝑦𝑦. Следователно, средното

квадратично на остатъците ще бъде по-малко от общата вариация

на Y. Може да сравним двете оценки 𝑠𝑠𝑇𝑇2 and 𝑠𝑠𝑂𝑂

2 като използваме

отношението им – 𝑠𝑠𝑇𝑇2

𝑠𝑠𝑂𝑂2 .

Полученото съотношение на отклоненията ще последва F

разпределението, ако двете оценки на 𝜎𝜎2 са независими, а ако

нулевата хипотеза е невярна, съотношението на вариация ще има

стойност, много по-голяма от очакваната при 𝐻𝐻𝑥.

Ч А С Т 4М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Д О П У С К А Н И Я П Р И М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

зависимата променлива не може да бъде ограничена (т.е. да се променя само между

определени стойности), цензурирана (на стойности под определена долна граница или

над определена горна граница да се задават едни и същи стойности) или съкратена

(стойности под или над определена граница, или и двете, да се изключват).

С в ъ р з а н и с д и з а й н а н а п р о у ч в а н е т о

1

2

данните трябва да са от представителна извадка, а наблюденията трябва да бъдат независими

Д О П У С К А Н И Я П Р И М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Зависимата променлива има нормално разпределение.

Вариацията на зависимата променлива е еднаква за всички комбинации от стойности на независимите

променливи (хомоскедастичност).

Зависимата променлива не може да бъде ограничена, цензурирана или съкратена.

Независимите променливи са или дихотомни, или интервални с нормално разпределение.

Независимите променливи могат да бъдат случайни или контролирани.

Независимите променливи не трябва да се корелират.

Не може да има значителна или перфектна мултиколинеарност.

Връзката между зависимата променлива и всяка независима променлива трябва да бъде линейна.

Д р у г и д о п у с к а н и я :

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

Множественият линеен

регресионен анализ е разширение

на единичния линеен регресионен

анализ, който позволява да се

анализира както по отделно, така

и съвместно влиянието на две или

повече независими променливи

върху една зависима променлива.

При множествената линейна

регресия зависимата променлива е

интервална или пропорционална, а

независимите променливи могат да

са както количествени, така и

категорийни или дихотомни.

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯЦ е л

Целта на множествената линейна регресия е да

се създаде регресионно уравнение за прогноза

на зависимата променлива от група независими

променливи.

Както и в случая на единичната линейна

регресия, множественото регресионно

уравнение се изчислява на базата на събраната

извадка и затова се нарича извадков вариант на

теоретичното уравнение, което описва

зависимостта между k независими променливи

𝑋𝑋𝑖𝑖, i =1,2,...,k и една зависима променливаY

1 1 2 2 ...o p pY X X Xβ β β β ε= + + + + +

Теоретичната форма на уравнението е:

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Y

X1

Вариация, която не е обяснена както от X1, така и от X2

Единична вариация, обяснена от X1

Единична вариация, обяснена от X2

X2

Обща вариация, обяснена от X1 и X2

!

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Y

X1 X2

“Добър” модел

!

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

Коефициенти на частична регресия (наклони): Регресионният коефициент на X след контролиране на влиянието на други променливи (поддържане на всички други предиктори като константи) едновременно за X и Y

1 1 2 2 ...o p pY X X Xβ β β β ε= + + + + +

частични регресионни коефициенти

пресечнаточка

остатъци (грешки)

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И

Правата линия, която най-добре описва фактическите наблюдения.

Задава правата линия, при която разликите между действителните стойности (𝑌𝑌) и

стойностите, които биха били предвидени от съответната линия на регресия ( �𝑌𝑌) са

възможно най-малки.

И З М Р В А Н Е Н А В А Р И А Ц И Я Т А

Обяснена вариация (сума на квадратите вследствие на

регресията)

Необяснена вариация (сума на квадратите на

остатъците/грешките)

Обща сума на квадратите ∑ −= 2)( YYSST

∑ ′−′= 2)( YYSSR

∑ ′−= 2)( YYSSE

С Т А Н Д А Р Т Н А Г Р Е Ш К А

𝑠𝑠𝑦𝑦𝑥𝑥

мярка на вариабилността около линията на регресия

И Н Т Е Р В А Л Н А Д О В Е Р И Т Е Л Н О С Т

Истинска средна

𝜇𝜇𝑥𝑥𝑥𝑥

Индивидуална�𝑌𝑌𝑖𝑖

Интервал на доверителност 𝛽𝛽𝑖𝑖

iiekniiiiekni CStbCStb 2)1(,2/

2)1(,2/ −−−− +≤≤− αα β

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И Я

Когато 𝐻𝐻𝑥 е отхвърлена,

съществува връзка между Y

и X променливите.

Силата се измерва с 𝑅𝑅2

𝑅𝑅𝑥𝑥.12𝑥− − −𝑃𝑃2

Частта от Y, която се

обяснява с избрания набор

от независими променливи

Частта от вариацията на Y ‘обяснена’ от всички X променливи

взети заедно: 𝑅𝑅2= Обяснена вариацияОбща вариация

= 𝑆𝑆𝑆𝑆𝑇𝑇𝑆𝑆𝑆𝑆𝑆𝑆

Никога не намалява, когато се добави нова X променлива към

модела

Само Y стойностите определят SST

Недостатък при сравняване на различни модели

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И Я

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И ЯК о р и г и р а н

Отразява

Обема на извадката

Броя на независимите променливи

По-малък [по-консервативен] от R2

Използва се за сравняванена вда модела

𝑅𝑅(𝑎𝑎𝑎𝑎𝑎𝑎)𝑥𝑥.12𝑥− − −𝑃𝑃2

Частта от Y, която се обяснява с избрания набор от независими

[обяснителни] променливи, коригирани с броя на независимите

променливи и размера на извадката.

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И ЯК о р и г и р а н

Частта от вариацията на Y "обяснена" с променлива 𝑋𝑋𝑃𝑃, която

контролира всички останали като константи

Построяват се отделни модели

Определя се 𝑅𝑅2 в случай на две X променливи

Коефициентът на частична детерминация на 𝑋𝑋1 за Y с конролирана

𝑋𝑋2 като константа

Полезен при избора на X променливи

К О Е Ф И Ц И Е Н Т Н А Ч А С Т И Ч Н А Д Е Т Е Р М И Н А Ц И Я

𝑅𝑅𝑥𝑥1.2𝑥4− − −𝑃𝑃2

Коефициентът на частична вариация на променливата Y с X1,

контролираща променливите X2, X3, X4, ... XP като константи.

К О Е Ф И Ц И Е Н Т Н А Ч А С Т И Ч Н А Д Е Т Е Р М И Н А Ц И Я

Т Е СТ З А З Н АЧ И М О СТ

Показва дали има линейна връзка между всички X променливи заедно & Y

Използва p-value

Хипотеза:

H0: β1 = β2 = ... = βP = 0

Няма линейна връзка

H1: Поне един коефициент на е равен на 0

Поне една X променлива оказва влияние върху Y

Т Е СТ Н А Х И П О Т ЕЗ А З А Р Е Г Р Е С И О Н Н И Т Е КО Е Ф И Ц И Е Н Т И

ib

iikn S

bt β−=−− )1(

0:0:

1

0

≠=

i

i

HH

ββ

iie

ii

ie

ikn

CSb

bSbt

21

)1( )(ββ −

=−

=−−

0:0:0

≠=

iA

i

HH

ββ

xx

e

SS 2

Т Е СТ Н А Х И П О Т ЕЗ А З А Р Е Г Р Е С И О Н Н И Т Е КО Е Ф И Ц И Е Н Т И

• H0 приета или отхвърлена

ако се отхвърли – {p-value < 0.05}

• R2adj

• Корелационна матрица

• Частична корелационна матрица

Д И А Г Н О СТ И Ч Н А П РО В Е Р К А

Силна корелация между X променливите

Коефициентите измерват комбиниран ефект

Води до нестабилни коефициенти зависими от X променливите в модела

Винаги съществува; въпросът е доколко

На практика, обаче, някаква степен на корелация между променливите в модела почти

винаги съществува и може да бъде толерирана. Моделът обаче не толерира

перфектна или значителна мултиколинеарност.

М УЛ Т И КОЛ И Н Е А Р Н О СТ

• Поверка на корелационната матрица

• Корелации между двойки X променливи са повече от корелациите с Y промеливата

• Средства за контрол

• Обособяване на нова извадка

• Премахване на една корелирана X променлива

РАЗ П О З Н А ВА Н Е Н А М УЛ Т И КОЛ И Н Е А Р Н О СТ ТА

• Анализ на мерките на вариация

• Анализ на остатъците/грешките

• Тестване значимостта на параметрите

в общия модел

в части от модела

на индивидуалните коефициенти

• Тест за мултиколинеарност

А Л ГО Р И Т Ъ М Н А М Н ОЖ Е СТ В Е Н И Я Р Е Г Р Е С И О Н Е Н М ОД Е Л

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

• Включва категорийни променливи с две стойности

напр., мъж-жена, да-не, с подобрение-без подобрение

• Съойностите на променливите се кодират 0 & 1

• Допуска че само пресечната точка е различна

• Наклоните са константа сред категориите

Р Е Г Р Е С И О Н Е Н М ОД Е Л С И Н Д И К АТО Р Н И П РО М Е Л И В И

Y

X100

Same slopes b1

b0

b0 + b2

Females

Males

В Р Ъ З К И М Е Ж Д У И Н Д И К АТО Р Н И Т Е П РО М Е Л И В И В М ОД Е Л А

• Позволява използването на категорийни променливи

(сезонни, стоящи се от класове, местоположение, пол).

• 0, 1 кодиране(номинална скала)

• Като част от диагностичната проверка:

включва екстремни стойности (големи остатъци) и мерки за влияние.

Р Е Г Р Е С И О Н Е Н М ОД Е Л С И Н Д И К АТО Р Н И П РО М Е Л И В И

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Допуска взаимодействие между двойки X променливи

Отговорът на една X променлива варира на различни нива спрямо друга X променлива

Съдържа двупосочни кръстосани произведения

Y = β0 + β1x1 + β2x2 + β3x1x2 + ε

Може да се комбинира с други модели (модели с индикаторни променливи)

Р Е Г Р Е С И О Н Е Н М ОД Е Л Н А ВЗ А И М ОД Е Й СТ В И Е ТО

• При дадено:

• Без взаимодействие, ефекта на X1 върху Y се измерва чрез β1

• С взаимодействие, ефекта на X1 върху Y се измерва чрез β1 + β3X2

• Ефектът нараства с наратването на X2i

iiiiii XXXXY εββββ ++++= 21322110

Е Ф Е К Т О Т ВЗ А И М ОД Е Й СТ В И Е ТО

Ефектът (наклонът) на X1 върху Y зависи от стойността на X2

X1

4

8

12

00 10.5 1.5

Y 𝑌𝑌 = 1 + 2𝑋𝑋1 + 3𝑋𝑋2 + 4𝑋𝑋1𝑋𝑋2𝑌𝑌 = 1 + 2𝑋𝑋1 + 3(1) + 4𝑋𝑋1(1) = 4 + 6𝑋𝑋1

𝑌𝑌 = 1 + 2𝑋𝑋1 + 3(0) + 4𝑋𝑋1(0) = 1 + 2𝑋𝑋1

П Р И М Е Р

Ч А С Т 5Н Е Л И Н Е Й Н А Р Е Г Р Е С И Я

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Понякога промяната в зависимата променлива не е постоянна в диапазона от

стойности на независимата променлива, т.е. връзката между двете е

нелинейна.

Например, може да се случи, че зависимата променлива се увеличава в

същата посока като независимата променлива до определена стойност, като

след това показва тенденция да се намалява, а не да се увеличава.

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Пример за това е ежедневното производство на хормон на растежа, който се

увеличава с възрастта до пубертета, а след това постепенно намалява

Връзката между хормона на растежа и възрастта не е линейна; по-скоро тя има

формата на крива.

• За нелинейните модели, които могат да бъдат изразени в

линейна форма се прилага метода на най-малките квадрати

• Изисква се трансформация на данните

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Y

X1

Y

X1

Y

X1

Y

X1

К Р И ВОЛ И Н Е Й Н И ВЗ А И М О О Т Н О Ш Е Н И Я Н А М ОД Е Л И

Л О ГА Р И Т М И Ч Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1

β1 > 0

β1 < 0

Y = β + β1 lnx1 + β2 lnx2 + ε

КО Р Е Н К ВА Д РАТ Е Н Т РА Н С Ф О РМ А Ц И Я

Y

X1

Y X Xi i i i= + + +β β β ε0 1 1 2 2

β1 > 0

β1 < 0

Р Е Ц И П РОЧ Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1β1 > 0

β1 < 0

iii

i XXY εβββ +++=

22

110

11

Asymptote

Е КС П О Н Е Н Ц И А Л Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1

β1 > 0

β1 < 0

Y eiX X

ii i= + +β β β ε0 1 1 2 2

Б Л А Г О Д А Р ЯR A Y R A L I T S A @ G M A I L . C O M

Recommended