תיאוריה
המטרה
להעריך את מתוך הדוגמאות ב .
כפי שנלמד בהרצאה, ניתן להבחין בין הגישות הבאות להסקה סטטיסטית:
- גישה פרמטרית לעומת גישה לא-פרמטרית (א-פרמטרית)
- גישה בייסיאנית לעומת גישה לא-בייסיאנית (קלאסית \ תדירותית).
הגישה הפרמטרית והלא פרמטרית
הבעיה בגישה הלא פרמטרית
-
-
מניחה כי יש מספיק של דגימות בכל איזור.
-
הבעיה: גודל המדגם שאנו צריכים גדל אקספונציאלית עם מספר המשתנים.
-
- התוצאה המתקבלת אינה פונקציה שנוח לעבוד איתה.
הגישה הפרמטרית
- נציע משפחה של פונקציות פרמטריות (לדוגמא משפחת הגאוסיאנים)
- נקווה כי נוכל לקרב את פונקציית הפילוג בעזרת אחת הפונקציות מהמשפחה
- את משפחת הפונקציות הזו אנו מכנים המודל, או המודל הפרמטרי.
- את סט הפרמטרים של המודל נייצג כוקטור ונסמנו ב.
המטרה
בהינתן מודל פרמטרי + מדגם: לשערך את וקטור הפרמטרים האופטימאלי .
הגישה באייסיאנית והלא-בייסיאנית
הגישה באייסיאנית
מניחים כי וקטור הפרמטרים הינו וקטור אקראי.
הפילוג :
נקרא הפילוג הפריורי (prior distribution) או הא-פריורי (a priori distribution)
הפילוג :
נקרא הפילוג הפוסטריורי (posterior distribution) או א-פוסטריורי (a posteriori distribution) (או הפילוג בדיעבד).
נבחר לרוב את המשערך על פי ההסתברות המקסימאלית, התוחלת וכו’ של הפילוג הא-פוסטריורי.
הגישה באייסיאנית והלא-בייסיאנית
הגישה הלא-בייסיאנית (המכונה גם: קלאסית או תדירותית (Frequintist))
מניחים כי וקטור הפרמטרים הינו גודל קבוע, אך לא יודע.
- אין כל העדפה של ערך מסויים של הוקטור על פני ערך אחר.
- נסמן במקרה שהפילוג תלוי בפרמטרים.
נסמן את פונקציית הסבירות (likelihood):
שיטות שיערוך
משערך (Maximum a Posteriori (MAP (שיטה בייסיאנית)
המשערך האופטימאלי: וקטור הפרמטרים אשר ממקסם את צפיפות ההסתברות האפוסטריורית
שיטות שיערוך
משערך (Maximum a Posteriori (MAP (שיטה בייסיאנית) - המשך
נשתמש לרוב בכלל בייס:
אנו מחפשים את המקסימום של המכפלה של:
-
הסבירות:
-
צפיפות ההסתברות הא-פריורית:
שיטות שיערוך
משערך Maximum Likelihood Estimator (MLE) (שיטה לא בייסיאנית)
המשערך האופטימאלי: וקטור הפרמטרים אשר ממקסם את פונקציית הסבירות
הlog-likelihood והנחת הIID
תחת ההנחה כי הדגמים במדגם הינם IID:
משום ש הינה פונקציה מונוטונית עולה:
נסמן:
הlog-likelihood והנחת הIID - המשך
מכאן ש:
הlog-likelihood והנחת הIID - המשך 2
באופן זהה:
✍️ תרגיל 3.1 - שיערוך MLE
נתונות דגימות בלתי תלויות של משתנה אקראי : , מצאו את משערך הMLE במקרים הבאים:
א) פילוג נורמלי: עם פרמטרים ו לא ידועים.
ב) פילוג אחיד: , עם פרמטר לא יודע.
ג) פילוג אקספונציאלי (לקריאה עצמית): . עם פרמטר לא ידוע.
ד) פילוג דיסקרטי: נתונה קוביה בעלת 6 פאות והסתברות . עם פרמטרים לא ידועים.
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: א) פילוג נורמלי
נסמן
על פי הגדרה, משערך הMLE נתון על ידי:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: א) פילוג נורמלי - המשך
נפתור על ידי גזירה והשוואה ל 0:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: א) פילוג נורמלי - המשך 2
מכאן ש:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ב) פילוג אחיד
פונקציית צפיפות ההסתברות של הפילוג הנתון הינה:
ולכן:
מכאן ש:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ג) פילוג אקספוננציאלי
פונקציית צפיפות ההסתברות של הפילוג הנתון הינה:
ולכן על פי הגדרת משערך הMLE נקבל כי:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ג) פילוג אקספוננציאלי - המשך
נפתור על ידי גזירה והשוואה ל 0:
מכאן ש:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ד) פילוג דיסקרטי
נסמן: .
פונקציית ההסתברות של הפילוג הנתון הינה:
עלינו להתחשב באילוץ:
את משערך הMLE מקבל על ידי פתרון:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ד) פילוג דיסקרטי - המשך
נרשום את הLagrangian
( - פונקציית הסבירות, - Lagrangian)
- מספר הפעמים אשר הערך מופיע במדגם.
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ד) פילוג דיסקרטי - המשך 2
נגזור את הLagrangian לפי הפרמטרים ונשווה ל-0:
✍️ תרגיל 3.1 - שיערוך MLE
💡 פיתרון: ד) פילוג דיסקרטי - המשך 3
קיבלנו כי
מקרי הקצה
- הטלה בודדת שתוצאתה : .
- בגבול : על פי חוק המספרים הגדולים:
✍️ תרגיל 3.2
נתון שהרווח היומי של חברת “רווחילי” מתפלג גאוסית . נתון לנו מדגם אשר מכיל את הרווחים של החברה ב הימים האחרונים .
לשם הפשטות נניח שהרווחים בימים שונים הינם בעלי פילוג זהה וכי הם בלתי תלויים סטטיסטית, כלומר הם משתנים i.i.d.
בשאלה זו נניח ש הינו פרמטר ידוע וקבוע ונרצה לחשב את תוחלת הרווח היומי, כלומר לשערך את .
לשם כך, יוסי הציע להשתמש במודל עבור ההתפלגות הפירורית של בהתאם למחקר שביצעו על חברות שונות במשק. יוסי טען שתוחלת הרווח היומי של חברות מתפלגת נורמלי , עם פרמטרים ידועים ו .
א) חשב את משערך הMAP בהתאם למדגם ולפילוג האפריורי שהציע יוסי.
ב) נתחו את תוצאת השיערוך המתקבלת עבור ערכים שונים של ו .
✍️ תרגיל 3.2
💡 פיתרון
נחשב את משערך הMAP על פי הגדרה
✍️ תרגיל 3.2
💡 פיתרון - המשך
נגזור ונשווה ל-0
✍️ תרגיל 3.2
💡 פיתרון - המשך 2
קיבלנו כי:
נרשום זאת באופן מעט שונה:
כאשר:
✍️ תרגיל 3.2
💡 פיתרון - המשך 3
נשים לב למספר דברים:
- הינו ממוצע הדגימות. זהו הערך אשר ממקסם את פונקציית הסבירות (והוא למעשה משערך הMLE של ).
- הערך הינו הערך אשר ממקסם את הפילוג האפריורי.
- הגודל הינו השונות של .
התוצאה היא ממוצע מושכלל בין הערך אשר ממקסם את הlikelihood, אשר תלוי במדגם, לבין הערך אשר ממקסם את הפילוג האפריורי.
✍️ תרגיל 3.2
💡 פיתרון - המשך 3
ב) מקרי הקצה.
- כאשר אזי החלק אשר תלוי במדגם מקבל את מרבית המשקל, ומתקיים כי:
- כאשר אזי החלק אשר תלוי בפילוג האפריורי מקבל את מרבית המשקל, ומתקיים כי:
בעיה מעשית
🚖 תזכורת: מדגם נסיעות המונית בNew York
עשרת הדגמים הראשונים במדגם הנסיעות בעיר New York
passenger_count | trip_distance | payment_type | fare_amount | tip_amount | pickup_easting | pickup_northing | dropoff_easting | dropoff_northing | duration | day_of_week | day_of_month | time_of_day | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 2 | 2.768065 | 2 | 9.5 | 0.00 | 586.996941 | 4512.979705 | 588.155118 | 4515.180889 | 11.516667 | 3 | 13 | 12.801944 |
1 | 1 | 3.218680 | 2 | 10.0 | 0.00 | 587.151523 | 4512.923924 | 584.850489 | 4512.632082 | 12.666667 | 6 | 16 | 20.961389 |
2 | 1 | 2.574944 | 1 | 7.0 | 2.49 | 587.005357 | 4513.359700 | 585.434188 | 4513.174964 | 5.516667 | 0 | 31 | 20.412778 |
3 | 1 | 0.965604 | 1 | 7.5 | 1.65 | 586.648975 | 4511.729212 | 586.671530 | 4512.554065 | 9.883333 | 1 | 25 | 13.031389 |
4 | 1 | 2.462290 | 1 | 7.5 | 1.66 | 586.967178 | 4511.894301 | 585.262474 | 4511.755477 | 8.683333 | 2 | 5 | 7.703333 |
5 | 5 | 1.561060 | 1 | 7.5 | 2.20 | 585.926415 | 4512.880385 | 585.168973 | 4511.540103 | 9.433333 | 3 | 20 | 20.667222 |
6 | 1 | 2.574944 | 1 | 8.0 | 1.00 | 586.731409 | 4515.084445 | 588.710175 | 4514.209184 | 7.950000 | 5 | 8 | 23.841944 |
7 | 1 | 0.804670 | 2 | 5.0 | 0.00 | 585.344614 | 4509.712541 | 585.843967 | 4509.545089 | 4.950000 | 5 | 29 | 15.831389 |
8 | 1 | 3.653202 | 1 | 10.0 | 1.10 | 585.422062 | 4509.477536 | 583.671081 | 4507.735573 | 11.066667 | 5 | 8 | 2.098333 |
9 | 6 | 1.625433 | 1 | 5.5 | 1.36 | 587.875433 | 4514.931073 | 587.701248 | 4513.709691 | 4.216667 | 3 | 13 | 21.783056 |
❓️ הבעיה: שיעורך הפילוג של משך הנסיעה
אנו מעוניינים לשערך את הפילוג של משך הנסיעה
💡 ניסיון 1: MLE ופילוג גאוסי
שני פרמטרים: התוחלת והשונות .
סימונים והנחות:
-
- מספר הדגמים במדגם.
- - וקטור הפרמטרים של המודל
- - המודל
במקרה של המודל הנורמלי ניתן לפתור באופן מפורש (אנליטית):
💡 ניסיון 1: MLE ופילוג גאוסי - המשך
בעבור המדגם הנתון נקבל:
- נותן קירוב מאד גס לפילוג האמיתי.
- במקרים רבים קירוב זה יהיה מספיק.
- ישנו סיכוי לא אפסי לקבל נסיעות עם משך נסיעה שלילי.
ננסה להציע מודל טוב יותר
💡 נסיון 2: MLE ופילוג Rayleigh
בהינתן וקטור גסואי המפולג כך:
פילוג Rayleigh מתאר את הפילוג של האורך האוקלידי ( norm) של הוקטור:
פונקציית צפיפות ההסתברות של פילוג Reyligh נתונה על ידי:
- מוגדר רק בעבור ערכים חיוביים.
- פרמטר יחיד . (פה אינה שווה לסטיית התקן של הפילוג).
מוטיבציה לשימוש בפילוג Rayleigh
הנחות:
- הוקטור המחבר את נקודת תחילת הנסיעה עם נקודת סיום הנסיעה מפולג נורמלית
- רכיביו מפולגים i.i.d.
- המונית נוסעת בקירוב בקו ישר בין נקודת ההתחלה והסיום
- מהירות הנסיעה קבוע ולכן משך הנסיעה פורפורציוני למרחק.
תחת הנחות אלו נקבל כי:
המרחק אותו נוסעת המכונית יהיה מפולג על פי פילוג Reyleigh וכך גםמשך הנסיעה.
💡 נסיון 2: MLE ופילוג Rayleigh - המשך
נסמן:
המודל נתון על ידי:
פונקציית ה log likelihood תהיה:
בעיית האופטימיזציה שלנו תהיה:
💡 נסיון 2: MLE ופילוג Rayleigh - המשך
גם בעבור המקרה הזה נוכל לפתור את בעיית האופטימיזציה באופן אנליטי על ידי גזירה והשוואה לאפס:
💡 נסיון 2: MLE ופילוג Rayleigh - המשך 2
בעבור המדגם הנתון נקבל:
- נותן תוצאה מעט יותר טובה מהמודל הנורמלי
- אין הסתברות שונה מ0 לקבל משך נסיעה שלילי.
ננסה מודל נוסף.
💡נסיון 3: MLE ו Generalized Gamma Distribution
פילוג Rayleigh הינו מקרה פרטי של Generalized Gamma Distribution:
( היא פונקציה המוכנה פונקציית גמא (gamma function) )
למודל זה 3 פרמטרים: .
בעבור ו נקבל את פילוג Rayleight כאשר .
💡נסיון 3: MLE ו Generalized Gamma Distribution - המשך
לא נוכל לפתרון בעיה זו באופן אנליטי, נאלץ להעזר פתרון נומרי.
נשתמש באובייקט הGeneralized Gamma Distribution של SciPy.
💡נסיון 3: MLE ו Generalized Gamma Distribution - המשך
קיבלנו:
Generalized Gamma Distribution מניב תוצאה דומה מאד לצורת ההסטוגרמה.
✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3
נתונות לנו מדידות IID, כאשר מגיע מההתפלגות הבאה:
א) מצאו את משערך הMLE עבור הפרמטר בהנחה כי פרמטר ידוע
ב) מצאו את משערך הMLE עבור הפרמטר בהנחה כי פרמטר ידוע
✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3
💡 פתרון: א
תחת התנאי כי .
פונקציית הlog-likelihood הינה:
מגזירה והשוואה לאפס נקבל:
הנגזרת השנייה שלילית ולכן זוהי אכן נקודת מקסימום.
✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3
💡 פתרון: ב
נכתוב את ה-likelihood:
נשים לב כי היא פונקציה מונוטונית עולה ב בתחום שבו . לכן שמערך הסבירות המירבית יתקבל בערך המקסימאלי האפשרי עבור בתחום זה: .