96
Р Е Г Р Е С И О Н Е Н А Н А Л И З

РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

  • Upload
    others

  • View
    28

  • Download
    0

Embed Size (px)

Citation preview

Page 1: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Г Р Е С И О Н Е Н

А Н А Л И З

Page 2: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

С Ъ Д Ъ Р Ж А Н И Е

ЧАСТ 1СЛАЙД 4-23

ВЪВЕДЕНИЕ

ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗЧАСТ 2СЛАЙД 24-31

ЧАСТ 3СЛАЙД 32-51

МЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ (МНМК)

ЧАСТ 4СЛАЙД 52-85

МНОГОФАКТОРЕН РЕГРЕСИОНЕН АНАЛИЗ

ЧАСТ 5СЛАЙД 86-95

НЕЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Page 3: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ц Е Л И Н А О Б У Ч Е Н И Е Т ОВ к р а я н а т а з и л е к ц и я с т у д е н т и т е т р я б в а д а м о г а т д а :

1. Описват модела на линейна регресия

2. Посочват стъпките за моделиране на регресията

3. Обясняват метода на най-малките квадрати

4. Изчисляват коефициентите на регресия

5. Разбират и проверяват предположенията на модела

6. Определят резултативната променлива

7. Обясняват линейния модел за мнофакторна регресия

8. Интерпретират многофакторните регресионни параметри

9. Обясняват мултиколинеарността

10. Описват типовете модели с множествена регресия

11. Правят връзка между модела на корелация и модела на регресия

Page 4: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ч А С Т 1В Ъ В Е Д Е Н И Е

Page 5: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И С Т О Р И Я

1822-1911: Сър Франсис Галтън “РЕГРЕСИЯТА„ Е ОТКРИТА

1805: Адриан-Мари ЛьожандърМЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ

1809: Карл Фридрих Гаус МЕТОД НА НАЙ-МАЛКИТЕ КВАДРАТИ

Page 6: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И С Т О Р И Я

1857-1936: Карл ПирсънДВУМЕРНОТО РАЗПРЕДЕЛЕНИЕ СЕ ДОПУСКА ДА Е НОРМАЛНО

1851-1952: Джордж Юл ДВУМЕРНОТО РАЗПРЕДЕЛЕНИЕ СЕ ДОПУСКА ДА Е НОРМАЛНО

1890-1962: Сър Роналд ФишерОТСЛАБВА ТВЪРДЕНИЕТО НА ЮЛ

И ПИРСЪН

Page 7: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И С Т О Р И Я

Най-ранната форма на регресия е методът на най-

малките квадрати, публикуван от Льожандър през 1805 г.

и Гаус през 1809 г. И двамата прилагат метода към

проблема за определяне от астрономическите

наблюдения на орбитите на телата около Слънцето

(предимно комети, но и по-късно тогава новооткритите

малки планети).

1821

Гаус публикува допълнителна разработка на

теорията за най-малките квадрати, включително

версия на теоремата на Гаус-Марков

1805 –1809

Page 8: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

H I S T O R YПо идеята на Галтън по-късно продължават

работа Юл и Пирсън и този път в по-общ

статистически контекст. В работата на Юл и

Пирсън, съвместното разпределение на

резултативната и факториалните променливи се

приема за Гаусово.1897 –1903

Терминът "регресия" е въведен от Франсис Галтън, за

да опише биологичен феномен – височината на

потомците на високите предци е склона да се понижи

до нормалната средна стойност (феномен, известен

също като регресия към средната стойност). За Галтън

регресията обяснява само това биологично значение.

1890

Page 9: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

H I S T O R YИкономистите започват да използват

електромеханични калкулатори за

изчисляване на регресиите.

1950s –

1960s

Това предположение е оборено от Роналд Фишер.

Той допуска, че условното разпределение на

резултативната променлива е Гаусово, но

съвместно разпределение не е необходимо. В това

отношение предположението на Фишър е по-близо

до формулировката на Гаус от 1821 г.

1922 –1925

Page 10: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И С Т О Р И Я

Понякога отнема до 24 часа, за

да получи резултата от

изчисляването на една регресия

ПРЕДИ1970

Регресионните методи продължават да бъдат област

на активно изследване. В последните десетилетия са

разработени нови регресионни методи:

• Регресия с корелирани отговори като времеви

редове и криви на растеж;

• Регресия, при която прогнозираната (независима)

променлива или отговора са криви, изображения,

графики или други сложни обекти;

• Регресионни методи, приспособими към различни

видове липсващи данни; непараметрична регресия;

• Бейсови методи на регресия;

• регресия, при която прогнозните променливи се

измерват с грешка;

• регресия с повече предикторни променливи от

наблюденията;

• причинно-следствена връзка с регресия.

Page 11: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

С Т А Т И С Т И Ч Е С К О М О Д Е Л И Р А Н Е

Д е т е р м и н и с т и ч н и м о д е л и

О п и с в а в р ъ з к а т а

м е ж д у п р о м е н л и в и т е

В е р о я т н о с т н и м о д е л и

Хипотеза за точни взаимовръзки

Подходяща, когато грешката при прогнозиране е

пренебрежимо малка

Пример: Индексът на телесната маса (BMI) е мярка за

телесната мастна тъкан

Метрична формула: 𝐵𝐵𝐵𝐵𝐵𝐵 = Тегло в кг.(Височина в метри)2

Неметрична формула: 𝐵𝐵𝐵𝐵𝐵𝐵 = Тегло (паунда)𝑥𝑥𝑥𝑥𝑥(Височина в инчове)2

Хипотеза с 2 компонента:

Детерминистичен

Случайна грешка

Пример: Систоличното кръвно налягане на новородените е

6 пъти

Възрастта в дни + Случайна грешка

СКН = 6 ∗ възраст(дни) + ε

Случайната грешка може да се дължи на фактори,

различни от възрастта в дни (напр. теглото)

Page 12: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

ВЕРОЯТНОСТНИ МОДЕЛИ

РЕГРЕСИОННИ МОДЕЛИ

КОРЕЛАЦИОННИ МОДЕЛИ

ДРУГИ МОДЕЛИ

В и д о в е В е р о я т н о с т н и М о д е л и

С Т А Т И С Т И Ч Е С К О М О Д Е Л И Р А Н Е

Page 13: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Е Д И Н И Ч Н И1 НЕЗАВИСИМА ПРОМЕНЛИВА

М Н О Ж Е С Т В Е Н И2+ НЕЗАВИСИМИ

ПРОМЕНЛИВИ

Л И Н Е Й Н И Н Е Л И Н Е Й Н И Н Е Л И Н Е Й Н И

В И Д О В Е Р Е Г Р Е С И О Н Н И

М О Д Е Л И

Л И Н Е Й Н И

Page 14: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Г Р Е С И О Н Е На н а л и з

Регресионният анализ е статистически метод

за анализ и моделиране на зависимости

между масови явления.

Класическият вид на регресионния анализ

изисква явленията, между които се изследва

зависимост, да бъдат представени на силни

статистически скали.

Page 15: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Г Р Е С И О Н Е На н а л и з

В течение на времето методологията на

регресионния анализ се развива и обогатява

и понастоящем предлага богат

инструментариум за задълбочен анализ и

моделиране на корелационни зависимости

между явления, представени на различни

статистически скали.

Page 16: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Основната цел на регресионния анализ е

да представи в аналитичен вид, под

формата на математически модел,

изследваната корелационна вазисимост.

Поради това този анализ е назоваван

още аналитичен метод за изучаване на

корелационни зависимости.

Р Е Г Р Е С И О Н Е На н а л и з

Page 17: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

При провеждане на анализ на данни в областта на медицината,

често е желателно да се изучи връзката между две числови

променливи:

кръвното налягане и възрастта, височината и теглото;

концентрацията на инжектираното лекарство и сърдечния

ритъм; нивото на консумация на някои хранителни вещества и

увеличаването на теглото;

интензивността на стимула и времето за реакция;

семейня доход и общите разходи за медицински грижи.

Р Е Г Р Е С И О Н Е На н а л и з

Page 18: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Характерът и силата на връзките между

променливи като тези могат да бъдат

изследвани чрез линейни модели като

регресионен и корелационен анализ, две

статистически техники, които, макар и

свързани, служат на различни цели.

Р Е Г Р Е С И О Н Е На н а л и з

Page 19: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Регресионният анализ е полезен за оценка на

специфичните форми на взаимовръзка между

променливите.

Крайната цел е да се предскаже или да се оцени

стойността на една променлива, съответстваща на

дадена стойност на друга променлива.

Р Е Г Р Е С И О Н Е На н а л и з

Page 20: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

1. Дефиниране

на приблема или

въпроса

СТ

ЪП

КИ

Р Е Г Р Е С И О Н Н О М О Д Е Л И Р А Н Е

2. Уточняване на модела

3. Събиране на данни

4. Дискриптивен анализ на данните

5. Изчисляване на неизвестните параметри

6. Оценка на модела

7. Прилагане на модела за прогнозиране

Page 21: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Е Д И Н И Ч Н А

С Р Е Щ У

М Н О Ж Е С Т В Е Н А

Р Е Г Р Е С И Я

1

𝛽𝛽𝑖𝑖 представлява единичната промяна в Y на единица промяна в Xi

2 взема под внимание ефекта на други 𝛽𝛽𝑖𝑖

1

𝛽𝛽 представлява единичната

промяна в Y на единица

промяна в X

2не отчита друга променлива освен

единична независима променлива 3 нетен регресионен

коефициент

Page 22: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Л И Н Е Й Н О С Тпроменливата Y е линейно

свързана със стойността на променливата X

Н Е З А В И С И М О С Т Н А Г Р Е Ш К АТАгрешката (остатъка) е независима за всяка

стойност на X

1

2

Х О М О -С К Е Д А С Т И Ч Н О С Твариацията около линията на регресия е постоянна за всички стойности на X

Н О Р М А Л Н О С Тстойностите на Y да са нормално разпределени за всяка стойност на X

4

5

Д О П У С К А Н И Я

3

Н Е П Р Е К Ъ С Н АТ И П Р О М Е Н Л И В И

двете променливи трябва да се измерват или по

интервална или по пропорционална скала

6

Б Е З Е К С Т Р Е М Н И С Т О Й Н О С Т Иекстремните стойности могат да имат отрицателен ефект върху регресионния анализ

Page 23: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

на статистически модел, който може да предвиди стойностите на зависимата(отговор) променлива въз основа на стойностите на независимите (обяснителни) променливи.

ЦЕ

Л

РАЗРАБОТВАНЕТO

Page 24: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ч А С Т 2Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н А Н А Л И З

Page 25: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

В И Д О В Е К О Р Е Л А Ц И Я

Права връзка Обратна връзка Липса на връзка

Page 26: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Е Д Н О Ф А К Т О Р Е Н Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н А Н А Л И З

описва линейната връзка

между независиматапроменлива, изобразена на

оста x, и зависиматапроменлива, изобразена на

оста yНезависима променлива (X)

Зави

сима

про

менл

ива

(Y)

Page 27: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Л И Н Е Й Н О У Р А В Н Е Н И Е

YY = mX + b

b = Y-interceptX

Changein Y

Change in Xm = Slope

Правата линия е най-простият модел на

взаимовръзката между две променливи,

измервани на интервална скала, а наклонът

ѝ дава индикация за съществуването на

асоциация между тях.

Следователно обективен начин да се

изследва асоциацията ще бъде да се построи

права линия през центъра на облака точки и

да се измери нейният наклон.

Ако наклонът е нула, линията е хоризонтална

и заключението е, че няма връзка. Ако не е

нула, следователно има връзка.

Page 28: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Л И Н Е Й Н О У Р А В Н Е Н И Е

YY = mX + b

b = Y-interceptX

Changein Y

Change in Xm = Slope

Така че имаме два проблема за

решаване:

• как да се направи права линия,

която най - добре моделира

връзката между променливите

и

• как да се определи дали нейния

наклон е различен от нула.

Page 29: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н М О Д Е ЛВ р ъ з к а т а м е ж д у п р о м е н л и в и т е е л и н е й н а ф у н к ц и я

𝑌𝑌𝑖𝑖

ПРЕСЕЧНА ТОЧКА НА Y НАКЛОН СЛУЧАЙНА

ГРЕШКА

ЗАВИСИМА(ОТГОВОР)

ПРОМЕНЛИВА

НЕЗАВИСИМА(ОБЯСНИТЕЛНА)

ПРОМЕНЛИВА

= 𝛽𝛽𝑥 + +𝛽𝛽1 𝑋𝑋𝑖𝑖∗ 𝜀𝜀𝑖𝑖

Page 30: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Unknown Relationship

𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖

𝑌𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 + ̂𝜀𝜀𝑖𝑖

Л И Н Е Е Н Р Е Г Р Е С И О Н Е Н М О Д Е ЛВ р ъ з к а т а м е ж д у п р о м е н л и в и т е е л и н е й н а ф у н к ц и я

Page 31: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

РА

ИЗВАДКОВ ЛИНЕЕН РЕГРЕСИОНЕН МОДЕЛ

ПОПУЛАЦИОНЕН ЛИНЕЕН РЕГРЕСИОНЕН МОДЕЛ

Y

X

Y

X

Observed value

Observed value

𝜺𝜺𝒊𝒊

= Random error

𝐸𝐸 �́�𝑌 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖Observed value

Unsampledvalue

�𝜺𝜺𝒊𝒊

= Random error

𝑌𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 + ̂𝜀𝜀𝑖𝑖

�́�𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖

Page 32: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ч А С Т 3М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И ( М Н М К )

Page 33: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

!

М Е Т О Д Н А Н А Й -

М А Л К И Т Е К В А Д Р А Т И

( М Н М К )

К А К Д А П Р И Б Л И Ж И М

Д А Н Н И Т Е В Л И Н Е Е Н

М О Д Е Л ?

Page 34: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И П р е г л е д

"Най-добро приближаване" означава, че

разликата между действителните стойности

Y и прогнозираните стойности на Y са

минимални.

Но положителните разлики компенсират

отрицателните.

Така че повдигнете грешките на квадрат!

МНМК минимизира сбора на

разликите (грешките) на квадрат

(SSE)

�(𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖)2 = � ̂𝜀𝜀𝑖𝑖2

Page 35: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

М Н М К Р Е Г Р Е С И О Н Н О У РА В Н Е Н И Е

М Н М К Г РА Ф И Ч Н О И З О Б РА З Я В А Н Е

ε2

Y

X

ε1 ε3

ε4

^^

^^

𝑌𝑌2 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋2 + ̂𝜀𝜀2

�́�𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

мнмк минимизира � ̂𝜀𝜀𝑖𝑖2 = ̂𝜀𝜀1

2 + ̂𝜀𝜀22 + ̂𝜀𝜀𝑥

2 + ̂𝜀𝜀42

Остатъци (ε ) =

Сума на

квадратите на

остатъците =

Права на модела :

трябва да намерим стойности

на 𝛽𝛽𝑥 и 𝛽𝛽1 , които да минимизират

𝑌𝑌 − �́�𝑌�́�𝑌𝑖𝑖 = 𝛽𝛽𝑥 + 𝛽𝛽1𝑋𝑋𝑖𝑖

min �(𝑌𝑌 − �́�𝑌 )2

Page 36: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Г Р Е С И О Н Н И К О Е Ф И Ц И Е Н Т И

𝛽𝛽1 =𝑆𝑆𝑥𝑥𝑥𝑥

𝑆𝑆𝑥𝑥𝑥𝑥=

𝜎𝜎𝑥𝑥𝑥𝑥

𝜎𝜎𝑥𝑥2

𝛽𝛽𝑥 = �𝑌𝑌 − 𝑏𝑏1 �𝑋𝑋

Page 37: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ур а в н е н и е н а п р о г н оз ат а И з ва к о ва п р е с еч н а

т оч к а н а Y

Н а к л о н н а и з ва д к ат а

У РА В Н Е Н И Я Н А КО Е Ф И Ц И Е Н Т И Т Е

�́�𝑌𝑖𝑖 = �̂�𝛽𝑥 + �̂�𝛽1𝑋𝑋𝑖𝑖 �̂�𝛽1 =𝑆𝑆𝑥𝑥𝑥𝑥

𝑆𝑆𝑥𝑥𝑥𝑥=

∑(𝑥𝑥𝑖𝑖 − �̅�𝑥)(𝑦𝑦𝑖𝑖 − �𝑦𝑦)∑(𝑥𝑥𝑖𝑖 − �̅�𝑥)2

�̂�𝛽𝑥 = �𝑦𝑦 − �̂�𝛽1�̅�𝑥

Page 38: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И Н Т Е Р П Р Е Т А Ц И Я

1

2 𝑌𝑌 − Пресечна точка (�̂�𝛽𝑥)

Наклона (�̂�𝛽1)

Ако �̂�𝛽𝑥 = 4, тогава средната стойност на Y се очаква да бъде 4, когато X = 0

Оценените промени в Y при �̂�𝛽1 за всяка единица покачване / намаляване на 𝑋𝑋Ако �̂�𝛽1= 2, тогава 𝑌𝑌 се очаква да се увеличи с 2 за всяка единица увеличение на 𝑋𝑋

Page 39: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Н Е О Б Х О Д И М И У Р А В Н Е Н И Я

�𝑋𝑋 =∑ 𝑋𝑋

𝑛𝑛�𝑌𝑌 =

∑ 𝑌𝑌𝑛𝑛

Page 40: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Д Е С К Р И П Т И В Н А С Т А Т И С Т И К А

( )1

)( 1

2

−=∑=

n

YYYVar

n

i

( )1

)( 1

2

−=∑=

n

XXXVar

n

i

xxS

)(SSTSyy

xyS( )( )1

),(Covar 1

−−=∑=

n

YYXXYX

n

i

Page 41: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Г Р Е С И О Н Н А С Т А Т И С Т И К А

SSE SSR)( 2

+=

=−=∑ YYSST

∑ ′−′= 2)( YYSSR

∑ ′−= 2)( YYSSE

С у м а т а н а р е г р е с и я т а н а к в а д р а т ( S S R ) е с у м а т а о т к в а д р а т н и т е р а з л и к и м е ж д у

п р о г н о з а т а з а в с я к о н а б л ю д е н и е и с р е д н а т а с т о й н о с т н а п о п у л а ц и я т а .

О б щ а т а с у м а о т к в а д р а т и т е ( S S T ) е р а в н а н а S S R + S S E

(мярка за обяснена вариация)

(мярка за необяснена вариация)

(мярка за общата вариация на y)

Page 42: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

!

Y

Вариацията, обяснена от предикторите (SST)

Page 43: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

!

Y

X1

Вариацията необяснена от X1

(SSE)

Вациацията обяснена с X1

(SSR)

Page 44: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Отношението на общата вариация (SST), която се обяснява с регресията (SSR) е известно като коефициент

на детерминация и се означава са 𝑅𝑅2.

𝑅𝑅2 =𝑆𝑆𝑆𝑆𝑅𝑅𝑆𝑆𝑆𝑆𝑆𝑆

=𝑆𝑆𝑆𝑆𝑅𝑅

𝑆𝑆𝑆𝑆𝑅𝑅 + 𝑆𝑆𝑆𝑆𝐸𝐸

𝑅𝑅2 заема стойности от 0 до 1, и колкото е по-висок, толкова по-точен е регресионния модел.

Често се представя под формата на процент.

Page 45: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Важна мярка за връзка между променливите.

Представено като 𝑅𝑅2 защото неговата стойност е квадратът на друга често използвана мярка за връзка –

коефициент на корелация, който се представя с 𝑟𝑟.

Въпреки че можем да получим 𝑅𝑅2 от 𝑟𝑟, двете мерки не са напълно еквивалентни.

𝑅𝑅2 заема стойност между 0 and 1

𝑟𝑟𝑥𝑥𝑥𝑥 заеам стойности от -1 to +1

𝑟𝑟𝑥𝑥𝑥𝑥 в допълнение към предоставянето на мярка за силата на асоциацията, също ни информира за вида ѝ

И в двата случая, колкото е по-голяма абсолютната стойност на коефициента, толкова по-голяма е силата на асоциацията

За разлика от коефициента на детерминация, корелационният коефициент е абстрактна стойност, която няма директна и точна интерпретация.

Page 46: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Тези две мерки са свързани със степента на разсейване на наблюденията по отношение на регресионната

линия. В диаграмата на разсейването, когато двете променливи са независими, точките са разпределени по

цялата площ на участъка. Регресионната линия е хоризонтална и коефициентът на детерминация е нула.

Когато съществува връзка, регресионната линия е наклонена и точките са повече или по-малко

разпространени по дължина линията. Колкото по-голяма е силата на асоциацията, толкова по-малка е

дисперсията на точките около линията, толкова по-голям ще бъде 𝑅𝑅2 и абсолютната стойност на 𝑟𝑟. Ако

всички точки са над линията, 𝑅𝑅2 има стойност 1 и 𝑟𝑟 стойност +1 или 1.

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Page 47: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Важността на тези мерки за асоциация произтича от факта, че много често е възможно

да се открият доказателства за асоциация между две променливи и точно силата на

асоциацията дава информация за важността ѝ.

В клиничните изследвания асоциациите обясняващи по-малко от 50% от отклонението

на зависимата променлива, т.е. асоциациите с 𝑅𝑅2 по-малко от 0.50 или еквивалентно 𝑟𝑟

0.70 обикновено не се считат за важни.

К О Е Ф И Ц И Е Н Т Н А Д Е Т Е Р М И Н А Ц И Я

Page 48: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

С Т А Н Д А Р Т Н А Т А Г Р Е Ш К А Н А Р Е Г Р Е С И Я Т А

Стандартната грешка на регресията е

мярка за нейната вариабилност. Тя

може да се използва по подобен начин

на стандартното отклонение, което

позволява прогнозни интервали.

Стандартна грешка на регресионния моделSe = Se

2 = σ2

Page 49: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Средна квадратичнагрешка

От регресионното уравнение

се изчисляват прогнозираните

стойности за зависимата

променлива

1

Изчислява се отклонението на

остатъците от y и y*2

3

𝑆𝑆𝑒𝑒2 = � 𝑦𝑦 − �́�𝑦 2 =

𝑆𝑆𝑆𝑆𝐸𝐸𝑛𝑛 − 2

= 𝐵𝐵𝑆𝑆𝐸𝐸

Получава се сумата от

квадратите на х от

отклонението на x

� 𝑥𝑥 − �̅�𝑥 2 𝑛𝑛 − 1 = 𝑆𝑆𝑥𝑥2 𝑛𝑛 − 1

Page 50: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

4Средната грешка на

корелационния

коефициент е:

𝑆𝑆𝑒𝑒 𝛽𝛽 =𝑆𝑆𝑒𝑒

2

𝑥𝑥 − �̅�𝑥 2

Тази оценка на истинската стандартна грешка на β е безпристрастна при условие, че дисперсията на точките

около регресионната линия е приблизително еднаква по дължината на линията. Това ще се случи, ако

отклонението на Y е еднакво за всяка стойност на X, т.е. ако Y е хомосекастичен. Ако това условие не е

изпълнено, тогава оценката на стандартната грешка на β може да бъде по-голяма или по-малка от истинската

стандартна грешка без да има начин да се определи. Накратко, можем да изчислим стандартната грешка на

коефициента на регресия от нашите примерни и конструктивни доверителни интервали, при следните

предположения:

• Зависимата променлива има нормално разпределение за всички стойности на независимата променлива.

• Вариацията на зависимата променлива е равна за всички стойности на независимата променлива.

• Ако независимата променлива е интервална, нейното разпределение е нормално.

• Връзката между двете променливи е линейна.

Page 51: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Оценката на вариацията 𝜎𝜎2 на Y за фиксираните

стойности на X може да бъде получена от отклонението

на остатъците, тоест, вариацията на отклонението на

всяко y от стойността �́�𝑦, предсказана от регресията

СРЕДНО КВАДРАТИЧНО НА ОСТАТЪЦИТЕ

H 𝑥 Т Е СТ Н А Л И Н Е Й Н А Р Е Г Р Е С И Я

Можем да тестваме нулевата хипотеза, че β = 0 с различен тест, основан на анализ на вариацията.

Фигурата сравнява ситуация, в която нулевата хипотеза е вярна, отляво, със ситуация, при която нулевата хипотеза не е вярна, вдясно.

Когато двете променливи са независими, β = 0, а наклона на регресионната линия на извадката ще бъде много близо до нула (не точно нула поради извадковата вариация).

Ако нулевата хипотеза е невярна, регресионната линия ще бъде

стръмна и отклоненията на стойностите y от регресионната линия

ще бъдат по-малки от отклоненията от �𝑦𝑦. Следователно, средното

квадратично на остатъците ще бъде по-малко от общата вариация

на Y. Може да сравним двете оценки 𝑠𝑠𝑇𝑇2 and 𝑠𝑠𝑂𝑂

2 като използваме

отношението им – 𝑠𝑠𝑇𝑇2

𝑠𝑠𝑂𝑂2 .

Полученото съотношение на отклоненията ще последва F

разпределението, ако двете оценки на 𝜎𝜎2 са независими, а ако

нулевата хипотеза е невярна, съотношението на вариация ще има

стойност, много по-голяма от очакваната при 𝐻𝐻𝑥.

Page 52: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ч А С Т 4М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Page 53: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Д О П У С К А Н И Я П Р И М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

зависимата променлива не може да бъде ограничена (т.е. да се променя само между

определени стойности), цензурирана (на стойности под определена долна граница или

над определена горна граница да се задават едни и същи стойности) или съкратена

(стойности под или над определена граница, или и двете, да се изключват).

С в ъ р з а н и с д и з а й н а н а п р о у ч в а н е т о

1

2

данните трябва да са от представителна извадка, а наблюденията трябва да бъдат независими

Page 54: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Д О П У С К А Н И Я П Р И М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Зависимата променлива има нормално разпределение.

Вариацията на зависимата променлива е еднаква за всички комбинации от стойности на независимите

променливи (хомоскедастичност).

Зависимата променлива не може да бъде ограничена, цензурирана или съкратена.

Независимите променливи са или дихотомни, или интервални с нормално разпределение.

Независимите променливи могат да бъдат случайни или контролирани.

Независимите променливи не трябва да се корелират.

Не може да има значителна или перфектна мултиколинеарност.

Връзката между зависимата променлива и всяка независима променлива трябва да бъде линейна.

Д р у г и д о п у с к а н и я :

Page 55: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

Множественият линеен

регресионен анализ е разширение

на единичния линеен регресионен

анализ, който позволява да се

анализира както по отделно, така

и съвместно влиянието на две или

повече независими променливи

върху една зависима променлива.

При множествената линейна

регресия зависимата променлива е

интервална или пропорционална, а

независимите променливи могат да

са както количествени, така и

категорийни или дихотомни.

Page 56: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯЦ е л

Целта на множествената линейна регресия е да

се създаде регресионно уравнение за прогноза

на зависимата променлива от група независими

променливи.

Както и в случая на единичната линейна

регресия, множественото регресионно

уравнение се изчислява на базата на събраната

извадка и затова се нарича извадков вариант на

теоретичното уравнение, което описва

зависимостта между k независими променливи

𝑋𝑋𝑖𝑖, i =1,2,...,k и една зависима променливаY

1 1 2 2 ...o p pY X X Xβ β β β ε= + + + + +

Теоретичната форма на уравнението е:

Page 57: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Page 58: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Y

X1

Вариация, която не е обяснена както от X1, така и от X2

Единична вариация, обяснена от X1

Единична вариация, обяснена от X2

X2

Обща вариация, обяснена от X1 и X2

!

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

Page 59: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Y

X1 X2

“Добър” модел

!

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

Page 60: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Коефициенти на частична регресия (наклони): Регресионният коефициент на X след контролиране на влиянието на други променливи (поддържане на всички други предиктори като константи) едновременно за X и Y

1 1 2 2 ...o p pY X X Xβ β β β ε= + + + + +

частични регресионни коефициенти

пресечнаточка

остатъци (грешки)

М Н О Ж Е С Т В Е Н А Р Е Г Р Е С И ЯП р е г л е д

Page 61: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

М Е Т О Д Н А Н А Й - М А Л К И Т Е К В А Д Р А Т И

Правата линия, която най-добре описва фактическите наблюдения.

Задава правата линия, при която разликите между действителните стойности (𝑌𝑌) и

стойностите, които биха били предвидени от съответната линия на регресия ( �𝑌𝑌) са

възможно най-малки.

Page 62: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И З М Р В А Н Е Н А В А Р И А Ц И Я Т А

Обяснена вариация (сума на квадратите вследствие на

регресията)

Необяснена вариация (сума на квадратите на

остатъците/грешките)

Обща сума на квадратите ∑ −= 2)( YYSST

∑ ′−′= 2)( YYSSR

∑ ′−= 2)( YYSSE

Page 63: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

С Т А Н Д А Р Т Н А Г Р Е Ш К А

𝑠𝑠𝑦𝑦𝑥𝑥

мярка на вариабилността около линията на регресия

Page 64: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

И Н Т Е Р В А Л Н А Д О В Е Р И Т Е Л Н О С Т

Истинска средна

𝜇𝜇𝑥𝑥𝑥𝑥

Индивидуална�𝑌𝑌𝑖𝑖

Интервал на доверителност 𝛽𝛽𝑖𝑖

iiekniiiiekni CStbCStb 2)1(,2/

2)1(,2/ −−−− +≤≤− αα β

Page 65: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И Я

Когато 𝐻𝐻𝑥 е отхвърлена,

съществува връзка между Y

и X променливите.

Силата се измерва с 𝑅𝑅2

𝑅𝑅𝑥𝑥.12𝑥− − −𝑃𝑃2

Частта от Y, която се

обяснява с избрания набор

от независими променливи

Page 66: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Частта от вариацията на Y ‘обяснена’ от всички X променливи

взети заедно: 𝑅𝑅2= Обяснена вариацияОбща вариация

= 𝑆𝑆𝑆𝑆𝑇𝑇𝑆𝑆𝑆𝑆𝑆𝑆

Никога не намалява, когато се добави нова X променлива към

модела

Само Y стойностите определят SST

Недостатък при сравняване на различни модели

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И Я

Page 67: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И ЯК о р и г и р а н

Отразява

Обема на извадката

Броя на независимите променливи

По-малък [по-консервативен] от R2

Използва се за сравняванена вда модела

Page 68: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

𝑅𝑅(𝑎𝑎𝑎𝑎𝑎𝑎)𝑥𝑥.12𝑥− − −𝑃𝑃2

Частта от Y, която се обяснява с избрания набор от независими

[обяснителни] променливи, коригирани с броя на независимите

променливи и размера на извадката.

К О Е Ф И Ц И Е Н Т Н А М Н О Ж Е С Т В Е Н А Д Е Т Е Р М И Н А Ц И ЯК о р и г и р а н

Page 69: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Частта от вариацията на Y "обяснена" с променлива 𝑋𝑋𝑃𝑃, която

контролира всички останали като константи

Построяват се отделни модели

Определя се 𝑅𝑅2 в случай на две X променливи

Коефициентът на частична детерминация на 𝑋𝑋1 за Y с конролирана

𝑋𝑋2 като константа

Полезен при избора на X променливи

К О Е Ф И Ц И Е Н Т Н А Ч А С Т И Ч Н А Д Е Т Е Р М И Н А Ц И Я

Page 70: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

𝑅𝑅𝑥𝑥1.2𝑥4− − −𝑃𝑃2

Коефициентът на частична вариация на променливата Y с X1,

контролираща променливите X2, X3, X4, ... XP като константи.

К О Е Ф И Ц И Е Н Т Н А Ч А С Т И Ч Н А Д Е Т Е Р М И Н А Ц И Я

Page 71: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Т Е СТ З А З Н АЧ И М О СТ

Показва дали има линейна връзка между всички X променливи заедно & Y

Използва p-value

Хипотеза:

H0: β1 = β2 = ... = βP = 0

Няма линейна връзка

H1: Поне един коефициент на е равен на 0

Поне една X променлива оказва влияние върху Y

Page 72: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Т Е СТ Н А Х И П О Т ЕЗ А З А Р Е Г Р Е С И О Н Н И Т Е КО Е Ф И Ц И Е Н Т И

ib

iikn S

bt β−=−− )1(

0:0:

1

0

≠=

i

i

HH

ββ

Page 73: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

iie

ii

ie

ikn

CSb

bSbt

21

)1( )(ββ −

=−

=−−

0:0:0

≠=

iA

i

HH

ββ

xx

e

SS 2

Т Е СТ Н А Х И П О Т ЕЗ А З А Р Е Г Р Е С И О Н Н И Т Е КО Е Ф И Ц И Е Н Т И

Page 74: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• H0 приета или отхвърлена

ако се отхвърли – {p-value < 0.05}

• R2adj

• Корелационна матрица

• Частична корелационна матрица

Д И А Г Н О СТ И Ч Н А П РО В Е Р К А

Page 75: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Силна корелация между X променливите

Коефициентите измерват комбиниран ефект

Води до нестабилни коефициенти зависими от X променливите в модела

Винаги съществува; въпросът е доколко

На практика, обаче, някаква степен на корелация между променливите в модела почти

винаги съществува и може да бъде толерирана. Моделът обаче не толерира

перфектна или значителна мултиколинеарност.

М УЛ Т И КОЛ И Н Е А Р Н О СТ

Page 76: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• Поверка на корелационната матрица

• Корелации между двойки X променливи са повече от корелациите с Y промеливата

• Средства за контрол

• Обособяване на нова извадка

• Премахване на една корелирана X променлива

РАЗ П О З Н А ВА Н Е Н А М УЛ Т И КОЛ И Н Е А Р Н О СТ ТА

Page 77: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• Анализ на мерките на вариация

• Анализ на остатъците/грешките

• Тестване значимостта на параметрите

в общия модел

в части от модела

на индивидуалните коефициенти

• Тест за мултиколинеарност

А Л ГО Р И Т Ъ М Н А М Н ОЖ Е СТ В Е Н И Я Р Е Г Р Е С И О Н Е Н М ОД Е Л

Page 78: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Page 79: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• Включва категорийни променливи с две стойности

напр., мъж-жена, да-не, с подобрение-без подобрение

• Съойностите на променливите се кодират 0 & 1

• Допуска че само пресечната точка е различна

• Наклоните са константа сред категориите

Р Е Г Р Е С И О Н Е Н М ОД Е Л С И Н Д И К АТО Р Н И П РО М Е Л И В И

Page 80: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Y

X100

Same slopes b1

b0

b0 + b2

Females

Males

В Р Ъ З К И М Е Ж Д У И Н Д И К АТО Р Н И Т Е П РО М Е Л И В И В М ОД Е Л А

Page 81: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• Позволява използването на категорийни променливи

(сезонни, стоящи се от класове, местоположение, пол).

• 0, 1 кодиране(номинална скала)

• Като част от диагностичната проверка:

включва екстремни стойности (големи остатъци) и мерки за влияние.

Р Е Г Р Е С И О Н Е Н М ОД Е Л С И Н Д И К АТО Р Н И П РО М Е Л И В И

Page 82: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Page 83: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Допуска взаимодействие между двойки X променливи

Отговорът на една X променлива варира на различни нива спрямо друга X променлива

Съдържа двупосочни кръстосани произведения

Y = β0 + β1x1 + β2x2 + β3x1x2 + ε

Може да се комбинира с други модели (модели с индикаторни променливи)

Р Е Г Р Е С И О Н Е Н М ОД Е Л Н А ВЗ А И М ОД Е Й СТ В И Е ТО

Page 84: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• При дадено:

• Без взаимодействие, ефекта на X1 върху Y се измерва чрез β1

• С взаимодействие, ефекта на X1 върху Y се измерва чрез β1 + β3X2

• Ефектът нараства с наратването на X2i

iiiiii XXXXY εββββ ++++= 21322110

Е Ф Е К Т О Т ВЗ А И М ОД Е Й СТ В И Е ТО

Page 85: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ефектът (наклонът) на X1 върху Y зависи от стойността на X2

X1

4

8

12

00 10.5 1.5

Y 𝑌𝑌 = 1 + 2𝑋𝑋1 + 3𝑋𝑋2 + 4𝑋𝑋1𝑋𝑋2𝑌𝑌 = 1 + 2𝑋𝑋1 + 3(1) + 4𝑋𝑋1(1) = 4 + 6𝑋𝑋1

𝑌𝑌 = 1 + 2𝑋𝑋1 + 3(0) + 4𝑋𝑋1(0) = 1 + 2𝑋𝑋1

П Р И М Е Р

Page 86: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Ч А С Т 5Н Е Л И Н Е Й Н А Р Е Г Р Е С И Я

Page 87: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

П р е г л е дМ Н О Ж Е С Т В Е Н А Р Е Г Р Е С И Я

MultipleRegression

Models

Linear DummyVariable

Linear Non-Linear

Inter-action

Poly-Nomial

SquareRoot Log Reciprocal Exponential

Множествена регресия

Линейна Нелинейна

Линейна Индикаторни променливи

Взаимо-действие

Поли-номинални Квадратични ЛОГ Реципрочни Експоненциални

Page 88: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Понякога промяната в зависимата променлива не е постоянна в диапазона от

стойности на независимата променлива, т.е. връзката между двете е

нелинейна.

Например, може да се случи, че зависимата променлива се увеличава в

същата посока като независимата променлива до определена стойност, като

след това показва тенденция да се намалява, а не да се увеличава.

Page 89: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Пример за това е ежедневното производство на хормон на растежа, който се

увеличава с възрастта до пубертета, а след това постепенно намалява

Връзката между хормона на растежа и възрастта не е линейна; по-скоро тя има

формата на крива.

Page 90: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

• За нелинейните модели, които могат да бъдат изразени в

линейна форма се прилага метода на най-малките квадрати

• Изисква се трансформация на данните

ВЪ Т Р Е Ш Н О Л И Н Е Й Н И М ОД Е Л И

Page 91: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Y

X1

Y

X1

Y

X1

Y

X1

К Р И ВОЛ И Н Е Й Н И ВЗ А И М О О Т Н О Ш Е Н И Я Н А М ОД Е Л И

Page 92: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Л О ГА Р И Т М И Ч Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1

β1 > 0

β1 < 0

Y = β + β1 lnx1 + β2 lnx2 + ε

Page 93: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

КО Р Е Н К ВА Д РАТ Е Н Т РА Н С Ф О РМ А Ц И Я

Y

X1

Y X Xi i i i= + + +β β β ε0 1 1 2 2

β1 > 0

β1 < 0

Page 94: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Р Е Ц И П РОЧ Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1β1 > 0

β1 < 0

iii

i XXY εβββ +++=

22

110

11

Asymptote

Page 95: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Е КС П О Н Е Н Ц И А Л Н А Т РА Н С Ф О РМ А Ц И Я

Y

X1

β1 > 0

β1 < 0

Y eiX X

ii i= + +β β β ε0 1 1 2 2

Page 96: РЕГРЕСИОНЕН · СЪДЪРЖАНИЕ. ЧАСТ . 1. СЛАЙД 4-23. ВЪВЕДЕНИЕ. ЧАСТ . 2. ЕДНОФАКТОРЕН ЛИНЕЕН РЕГРЕСИОНЕН АНАЛИЗ

Б Л А Г О Д А Р ЯR A Y R A L I T S A @ G M A I L . C O M