Upload
caine
View
113
Download
16
Embed Size (px)
DESCRIPTION
כריית מידע – רגרסיה Regression. ד"ר אבי רוזנפלד. שימושי רגרסיה. ניבוי יש אוסף של נתונים ואנחנו רוצים להבין מה יהיה בעתיד דוגמא: רגרסיה לינארית (עשייתם כבר) סיווג יש אוסף של נתונים ואנחנו רוצים לקטלג אותם גם אפשר רגרסיה לינארית SVM ( Support Vector Machine ) Logistic Regression - PowerPoint PPT Presentation
Citation preview
רגרסיה – מידע כרייתRegression
רוזנפלד" אבי ר ד
רגרסיה שימושי
ניבוי 1..A יהיה מה להבין רוצים ואנחנו נתונים של אוסף יש
בעתיד.B:דוגמא) כבר ) עשייתם לינארית רגרסיה
סיווג2.אותם 1. לקטלג רוצים ואנחנו נתונים של אוסף יש
לינארית 1. רגרסיה אפשר גם
.2SVM (Support Vector Machine)
.3Logistic Regression
היום 2. ההרצאה של נושא
Regression
נתונים 1. של אוסף לך יש
טעות 2. של מדד איזשהו מצמצם שהוא קו מכניסים
.3 , לניבוי טוב כלי זה הצלחנו אם
Independent variable (x)
Dep
ende
nt v
aria
ble
ניבוי למען לינארית רגרסיה
דוגמא
לצמצם מנסים ?מהWhich Objective Function?
מוחלט )• ( Least Absolute Errorטעות
בריבוע )• (Least Square Errorטעות
Nonlinear Regression
Nonlinear functions can also be fit as regressions. Common choices
include Power, Logarithmic, Exponential, and Logistic, but any continuous function can be used.
לינארית לא רגרסיה
החלטות – עץ סיווג למען רגרסיה
רגרסיה -- יותר פשוט מודל
איפה– ברור תמיד לא הבעיהלחתוך
SVM – הקטגוריות בין רווח למקסם הכללי הרעיון
הפתרון הגדרת
נתונים: • של אוסף קייםו Xש מאפיינים של הוקטור הקטגוריות Yהוא הם
: רוצים אנחנו אידיאלי במצב
ההגדות ...לפי
נותן תמיד לא המציאות ...אבל
ה • את להקטין צורך או, HINGE LOSSיש" " נכון לא ה בצד שהם המופעים
•HINGE LOSS של אחת פונקציה רק LOSSהוא
Linear SVM Mathematically Goal: 1) Correctly classify all training data
if yi = +1
if yi = -1
for all i 2) Maximize the Margin same as minimize
We can formulate a Quadratic Optimization Problem and solve for w and b
Minimize subject to
wM
2
www t
2
1)(
1bwxi1bwxi
1)( bwxy ii
1)( bwxy ii
i
wwt2
1
Solving the Optimization Problem
Need to optimize a quadratic function subject to linear constraints. Quadratic optimization problems are a well-known class of
mathematical programming problems, and many (rather intricate) algorithms exist for solving them.
The solution involves constructing a dual problem where a Lagrange multiplier αi is associated with every constraint in the primary problem:
Find w and b such thatΦ(w) =½ wTw is minimized;
and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1
Find α1…αN such that
Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and
(1) Σαiyi = 0(2) αi ≥ 0 for all αi
נוספים שיפורים
לינארית )• לא בפונקציה (Kernel Trickשימושפולינומים––GAUSIAN ועוד...–
הסתברותית רגרסיהבפונקציה LOGITנתחיל
הקטגוריה • בתוך קיים שמופע מההסברות בנוישלו • המאיינים כל בהינתןהפונקציה • את למקסם הצורך את שוב יש•Log Likelihood (Log Odds)•! איטי מאוד נגדל
לקטגוריות הסתברויות הופכים איך
ש • לב בתור LOGISTIC REGRESSIONשימו מוציא) מספרים ) ולא קטגוריות פלט
•LOGIT- ( בין מספר פלט בתוך (7ל 7מוציאל: • המספרים את לתרגם דרך log-oddsפתרון
הפוכה = Logistic Functionפונקציה
הסתברותית רגרסיהLogistic Regression
ב • הסתברותי OBJECTIVE FUNCTIONשימוש(logistic)
ל • קרוב גבוה- 1ו 1מקטלג הסתברות אומר
is the intercept where f(x)=0
controls the graph shape
: ה למקסם הרגרסיה TRAINING DATAמטרת
יש • בתוך mאם רכיבים הרבה יש מאפייניםהפונקציה:
ש•של • המשקולות את לקבוע צורך יש שוב
ה ) השונים (βמהאפיינים
מודלים בין בדיוק הבדלים
המודלים בין עקרוניים הבדלים
• – שלב שלב אינקרמנטליים בנויים עציםזמנית • בו פרמטר לכל משקל בונה רגרסיההפונקציה • צורת לפי רק מחלקת רגרסיה
, .LOGISTICלינארית) .)' גמישים, יותר עצים וכוהרופאים ) • העץ של לפלט משמעות יותר יש
) אותם מעדיפים לקוחות ורובלרגרסיה • טוב יותר דיוק שיש להיות יכול
רגרסיה של הפלט
עצים של הפלט
ברגרסיה – המודלים בין שינוייםלינארית חלוקה תמיד לא