כריית מידע – רגרסיה Regression

רגרסיה – מידע כרייתRegression

רוזנפלד" אבי ר ד

רגרסיה שימושי

ניבוי 1..A יהיה מה להבין רוצים ואנחנו נתונים של אוסף יש

בעתיד.B:דוגמא) כבר ) עשייתם לינארית רגרסיה

סיווג2.אותם 1. לקטלג רוצים ואנחנו נתונים של אוסף יש

לינארית 1. רגרסיה אפשר גם

.2SVM (Support Vector Machine)

.3Logistic Regression

היום 2. ההרצאה של נושא

Regression

נתונים 1. של אוסף לך יש

טעות 2. של מדד איזשהו מצמצם שהוא קו מכניסים

.3 , לניבוי טוב כלי זה הצלחנו אם

Independent variable (x)

Dep

ende

nt v

aria

ble

ניבוי למען לינארית רגרסיה

דוגמא

לצמצם מנסים ?מהWhich Objective Function?

מוחלט )• ( Least Absolute Errorטעות

בריבוע )• (Least Square Errorטעות

Nonlinear Regression

Nonlinear functions can also be fit as regressions. Common choices

include Power, Logarithmic, Exponential, and Logistic, but any continuous function can be used.

לינארית לא רגרסיה

החלטות – עץ סיווג למען רגרסיה

רגרסיה -- יותר פשוט מודל

איפה– ברור תמיד לא הבעיהלחתוך

SVM – הקטגוריות בין רווח למקסם הכללי הרעיון

הפתרון הגדרת

נתונים: • של אוסף קייםו Xש מאפיינים של הוקטור הקטגוריות Yהוא הם

: רוצים אנחנו אידיאלי במצב

ההגדות ...לפי

נותן תמיד לא המציאות ...אבל

ה • את להקטין צורך או, HINGE LOSSיש" " נכון לא ה בצד שהם המופעים

•HINGE LOSS של אחת פונקציה רק LOSSהוא

Linear SVM Mathematically Goal: 1) Correctly classify all training data

if yi = +1

if yi = -1

for all i 2) Maximize the Margin same as minimize

We can formulate a Quadratic Optimization Problem and solve for w and b

Minimize subject to

wM

2

www t

2

1)(

1bwxi1bwxi

1)( bwxy ii

1)( bwxy ii

i

wwt2

1

Solving the Optimization Problem

Need to optimize a quadratic function subject to linear constraints. Quadratic optimization problems are a well-known class of

mathematical programming problems, and many (rather intricate) algorithms exist for solving them.

The solution involves constructing a dual problem where a Lagrange multiplier αi is associated with every constraint in the primary problem:

Find w and b such thatΦ(w) =½ wTw is minimized;

and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1

Find α1…αN such that

Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and

(1) Σαiyi = 0(2) αi ≥ 0 for all αi

נוספים שיפורים

לינארית )• לא בפונקציה (Kernel Trickשימושפולינומים––GAUSIAN ועוד...–

הסתברותית רגרסיהבפונקציה LOGITנתחיל

הקטגוריה • בתוך קיים שמופע מההסברות בנוישלו • המאיינים כל בהינתןהפונקציה • את למקסם הצורך את שוב יש•Log Likelihood (Log Odds)•! איטי מאוד נגדל

לקטגוריות הסתברויות הופכים איך

ש • לב בתור LOGISTIC REGRESSIONשימו מוציא) מספרים ) ולא קטגוריות פלט

•LOGIT- ( בין מספר פלט בתוך (7ל 7מוציאל: • המספרים את לתרגם דרך log-oddsפתרון

הפוכה = Logistic Functionפונקציה

הסתברותית רגרסיהLogistic Regression

ב • הסתברותי OBJECTIVE FUNCTIONשימוש(logistic)

ל • קרוב גבוה- 1ו 1מקטלג הסתברות אומר

is the intercept where f(x)=0

controls the graph shape

: ה למקסם הרגרסיה TRAINING DATAמטרת

יש • בתוך mאם רכיבים הרבה יש מאפייניםהפונקציה:

ש•של • המשקולות את לקבוע צורך יש שוב

ה ) השונים (βמהאפיינים

מודלים בין בדיוק הבדלים

המודלים בין עקרוניים הבדלים

• – שלב שלב אינקרמנטליים בנויים עציםזמנית • בו פרמטר לכל משקל בונה רגרסיההפונקציה • צורת לפי רק מחלקת רגרסיה

, .LOGISTICלינארית) .)' גמישים, יותר עצים וכוהרופאים ) • העץ של לפלט משמעות יותר יש

) אותם מעדיפים לקוחות ורובלרגרסיה • טוב יותר דיוק שיש להיות יכול

רגרסיה של הפלט

עצים של הפלט

ברגרסיה – המודלים בין שינוייםלינארית חלוקה תמיד לא

Documents

כריית מידע – רגרסיה Regression