תרגול 3
שיערוך פילוג בשיטות פרמטריות

Print

תיאוריה

המטרה


להעריך את מתוך הדוגמאות ב .


כפי שנלמד בהרצאה, ניתן להבחין בין הגישות הבאות להסקה סטטיסטית:


  • גישה פרמטרית לעומת גישה לא-פרמטרית (א-פרמטרית)


  • גישה בייסיאנית לעומת גישה לא-בייסיאנית (קלאסית \ תדירותית).

הגישה הפרמטרית והלא פרמטרית

הבעיה בגישה הלא פרמטרית


    • מניחה כי יש מספיק של דגימות בכל איזור.

    • הבעיה: גודל המדגם שאנו צריכים גדל אקספונציאלית עם מספר המשתנים.


  • התוצאה המתקבלת אינה פונקציה שנוח לעבוד איתה.

הגישה הפרמטרית


  • נציע משפחה של פונקציות פרמטריות (לדוגמא משפחת הגאוסיאנים)


  • נקווה כי נוכל לקרב את פונקציית הפילוג בעזרת אחת הפונקציות מהמשפחה


  • את משפחת הפונקציות הזו אנו מכנים המודל, או המודל הפרמטרי.


  • את סט הפרמטרים של המודל נייצג כוקטור ונסמנו ב.


המטרה

בהינתן מודל פרמטרי + מדגם: לשערך את וקטור הפרמטרים האופטימאלי .

הגישה באייסיאנית והלא-בייסיאנית

הגישה באייסיאנית

מניחים כי וקטור הפרמטרים הינו וקטור אקראי.


הפילוג :

נקרא הפילוג הפריורי (prior distribution) או הא-פריורי (a priori distribution)


הפילוג :

נקרא הפילוג הפוסטריורי (posterior distribution) או א-פוסטריורי (a posteriori distribution) (או הפילוג בדיעבד).


נבחר לרוב את המשערך על פי ההסתברות המקסימאלית, התוחלת וכו’ של הפילוג הא-פוסטריורי.

הגישה באייסיאנית והלא-בייסיאנית

הגישה הלא-בייסיאנית (המכונה גם: קלאסית או תדירותית (Frequintist))

מניחים כי וקטור הפרמטרים הינו גודל קבוע, אך לא יודע.


  • אין כל העדפה של ערך מסויים של הוקטור על פני ערך אחר.


  • נסמן במקרה שהפילוג תלוי בפרמטרים.


נסמן את פונקציית הסבירות (likelihood):

שיטות שיערוך

משערך (Maximum a Posteriori (MAP (שיטה בייסיאנית)


המשערך האופטימאלי: וקטור הפרמטרים אשר ממקסם את צפיפות ההסתברות האפוסטריורית


שיטות שיערוך

משערך (Maximum a Posteriori (MAP (שיטה בייסיאנית) - המשך

נשתמש לרוב בכלל בייס:


אנו מחפשים את המקסימום של המכפלה של:

  1. הסבירות:

  2. צפיפות ההסתברות הא-פריורית:

שיטות שיערוך

משערך Maximum Likelihood Estimator (MLE) (שיטה לא בייסיאנית)

המשערך האופטימאלי: וקטור הפרמטרים אשר ממקסם את פונקציית הסבירות



הlog-likelihood והנחת הIID

תחת ההנחה כי הדגמים במדגם הינם IID:



משום ש הינה פונקציה מונוטונית עולה:



נסמן:

הlog-likelihood והנחת הIID - המשך


מכאן ש:

הlog-likelihood והנחת הIID - המשך 2


באופן זהה:

✍️ תרגיל 3.1 - שיערוך MLE


נתונות דגימות בלתי תלויות של משתנה אקראי : , מצאו את משערך הMLE במקרים הבאים:


א) פילוג נורמלי: עם פרמטרים ו לא ידועים.


ב) פילוג אחיד: , עם פרמטר לא יודע.


ג) פילוג אקספונציאלי (לקריאה עצמית): . עם פרמטר לא ידוע.


ד) פילוג דיסקרטי: נתונה קוביה בעלת 6 פאות והסתברות . עם פרמטרים לא ידועים.

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: א) פילוג נורמלי

נסמן


על פי הגדרה, משערך הMLE נתון על ידי:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: א) פילוג נורמלי - המשך

נפתור על ידי גזירה והשוואה ל 0:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: א) פילוג נורמלי - המשך 2

מכאן ש:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ב) פילוג אחיד

פונקציית צפיפות ההסתברות של הפילוג הנתון הינה:

ולכן:

מכאן ש:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ג) פילוג אקספוננציאלי

פונקציית צפיפות ההסתברות של הפילוג הנתון הינה:

ולכן על פי הגדרת משערך הMLE נקבל כי:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ג) פילוג אקספוננציאלי - המשך

נפתור על ידי גזירה והשוואה ל 0:

מכאן ש:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ד) פילוג דיסקרטי

נסמן: .

פונקציית ההסתברות של הפילוג הנתון הינה:

עלינו להתחשב באילוץ:

את משערך הMLE מקבל על ידי פתרון:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ד) פילוג דיסקרטי - המשך

נרשום את הLagrangian

( - פונקציית הסבירות, - Lagrangian)

- מספר הפעמים אשר הערך מופיע במדגם.

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ד) פילוג דיסקרטי - המשך 2

נגזור את הLagrangian לפי הפרמטרים ונשווה ל-0:

✍️ תרגיל 3.1 - שיערוך MLE

💡 פיתרון: ד) פילוג דיסקרטי - המשך 3

קיבלנו כי

מקרי הקצה
  1. הטלה בודדת שתוצאתה : .
  2. בגבול : על פי חוק המספרים הגדולים:

✍️ תרגיל 3.2

נתון שהרווח היומי של חברת “רווחילי” מתפלג גאוסית . נתון לנו מדגם אשר מכיל את הרווחים של החברה ב הימים האחרונים .

לשם הפשטות נניח שהרווחים בימים שונים הינם בעלי פילוג זהה וכי הם בלתי תלויים סטטיסטית, כלומר הם משתנים i.i.d.

בשאלה זו נניח ש הינו פרמטר ידוע וקבוע ונרצה לחשב את תוחלת הרווח היומי, כלומר לשערך את .

לשם כך, יוסי הציע להשתמש במודל עבור ההתפלגות הפירורית של בהתאם למחקר שביצעו על חברות שונות במשק. יוסי טען שתוחלת הרווח היומי של חברות מתפלגת נורמלי , עם פרמטרים ידועים ו .


א) חשב את משערך הMAP בהתאם למדגם ולפילוג האפריורי שהציע יוסי.

ב) נתחו את תוצאת השיערוך המתקבלת עבור ערכים שונים של ו .

✍️ תרגיל 3.2

💡 פיתרון

נחשב את משערך הMAP על פי הגדרה

✍️ תרגיל 3.2

💡 פיתרון - המשך

נגזור ונשווה ל-0

✍️ תרגיל 3.2

💡 פיתרון - המשך 2

קיבלנו כי:


נרשום זאת באופן מעט שונה:

כאשר:

✍️ תרגיל 3.2

💡 פיתרון - המשך 3


נשים לב למספר דברים:

  • הינו ממוצע הדגימות. זהו הערך אשר ממקסם את פונקציית הסבירות (והוא למעשה משערך הMLE של ).
  • הערך הינו הערך אשר ממקסם את הפילוג האפריורי.
  • הגודל הינו השונות של .

התוצאה היא ממוצע מושכלל בין הערך אשר ממקסם את הlikelihood, אשר תלוי במדגם, לבין הערך אשר ממקסם את הפילוג האפריורי.

✍️ תרגיל 3.2

💡 פיתרון - המשך 3

ב) מקרי הקצה.

  • כאשר אזי החלק אשר תלוי במדגם מקבל את מרבית המשקל, ומתקיים כי:


  • כאשר אזי החלק אשר תלוי בפילוג האפריורי מקבל את מרבית המשקל, ומתקיים כי:

בעיה מעשית

🚖 תזכורת: מדגם נסיעות המונית בNew York

עשרת הדגמים הראשונים במדגם הנסיעות בעיר New York

passenger_count trip_distance payment_type fare_amount tip_amount pickup_easting pickup_northing dropoff_easting dropoff_northing duration day_of_week day_of_month time_of_day
0 2 2.768065 2 9.5 0.00 586.996941 4512.979705 588.155118 4515.180889 11.516667 3 13 12.801944
1 1 3.218680 2 10.0 0.00 587.151523 4512.923924 584.850489 4512.632082 12.666667 6 16 20.961389
2 1 2.574944 1 7.0 2.49 587.005357 4513.359700 585.434188 4513.174964 5.516667 0 31 20.412778
3 1 0.965604 1 7.5 1.65 586.648975 4511.729212 586.671530 4512.554065 9.883333 1 25 13.031389
4 1 2.462290 1 7.5 1.66 586.967178 4511.894301 585.262474 4511.755477 8.683333 2 5 7.703333
5 5 1.561060 1 7.5 2.20 585.926415 4512.880385 585.168973 4511.540103 9.433333 3 20 20.667222
6 1 2.574944 1 8.0 1.00 586.731409 4515.084445 588.710175 4514.209184 7.950000 5 8 23.841944
7 1 0.804670 2 5.0 0.00 585.344614 4509.712541 585.843967 4509.545089 4.950000 5 29 15.831389
8 1 3.653202 1 10.0 1.10 585.422062 4509.477536 583.671081 4507.735573 11.066667 5 8 2.098333
9 6 1.625433 1 5.5 1.36 587.875433 4514.931073 587.701248 4513.709691 4.216667 3 13 21.783056


❓️ הבעיה: שיעורך הפילוג של משך הנסיעה

אנו מעוניינים לשערך את הפילוג של משך הנסיעה

💡 ניסיון 1: MLE ופילוג גאוסי

שני פרמטרים: התוחלת והשונות .

סימונים והנחות:

  • - מספר הדגמים במדגם.

  • - וקטור הפרמטרים של המודל
  • - המודל

במקרה של המודל הנורמלי ניתן לפתור באופן מפורש (אנליטית):

💡 ניסיון 1: MLE ופילוג גאוסי - המשך

בעבור המדגם הנתון נקבל:

normal

  • נותן קירוב מאד גס לפילוג האמיתי.
  • במקרים רבים קירוב זה יהיה מספיק.
  • ישנו סיכוי לא אפסי לקבל נסיעות עם משך נסיעה שלילי.

ננסה להציע מודל טוב יותר

💡 נסיון 2: MLE ופילוג Rayleigh

בהינתן וקטור גסואי המפולג כך:

פילוג Rayleigh מתאר את הפילוג של האורך האוקלידי ( norm) של הוקטור:

פונקציית צפיפות ההסתברות של פילוג Reyligh נתונה על ידי:

  • מוגדר רק בעבור ערכים חיוביים.
  • פרמטר יחיד . (פה אינה שווה לסטיית התקן של הפילוג).

מוטיבציה לשימוש בפילוג Rayleigh


הנחות:

  • הוקטור המחבר את נקודת תחילת הנסיעה עם נקודת סיום הנסיעה מפולג נורמלית
  • רכיביו מפולגים i.i.d.
  • המונית נוסעת בקירוב בקו ישר בין נקודת ההתחלה והסיום
  • מהירות הנסיעה קבוע ולכן משך הנסיעה פורפורציוני למרחק.


תחת הנחות אלו נקבל כי:

המרחק אותו נוסעת המכונית יהיה מפולג על פי פילוג Reyleigh וכך גםמשך הנסיעה.

💡 נסיון 2: MLE ופילוג Rayleigh - המשך

נסמן:

המודל נתון על ידי:

פונקציית ה log likelihood תהיה:

בעיית האופטימיזציה שלנו תהיה:

💡 נסיון 2: MLE ופילוג Rayleigh - המשך


גם בעבור המקרה הזה נוכל לפתור את בעיית האופטימיזציה באופן אנליטי על ידי גזירה והשוואה לאפס:

💡 נסיון 2: MLE ופילוג Rayleigh - המשך 2

בעבור המדגם הנתון נקבל:

rayleigh

  • נותן תוצאה מעט יותר טובה מהמודל הנורמלי
  • אין הסתברות שונה מ0 לקבל משך נסיעה שלילי.

ננסה מודל נוסף.

💡נסיון 3: MLE ו Generalized Gamma Distribution


פילוג Rayleigh הינו מקרה פרטי של Generalized Gamma Distribution:



( היא פונקציה המוכנה פונקציית גמא (gamma function) )


למודל זה 3 פרמטרים: .


בעבור ו נקבל את פילוג Rayleight כאשר .

💡נסיון 3: MLE ו Generalized Gamma Distribution - המשך


לא נוכל לפתרון בעיה זו באופן אנליטי, נאלץ להעזר פתרון נומרי.


נשתמש באובייקט הGeneralized Gamma Distribution של SciPy.

💡נסיון 3: MLE ו Generalized Gamma Distribution - המשך

קיבלנו:

generalized_gamma


Generalized Gamma Distribution מניב תוצאה דומה מאד לצורת ההסטוגרמה.

✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3

נתונות לנו מדידות IID, כאשר מגיע מההתפלגות הבאה:



א) מצאו את משערך הMLE עבור הפרמטר בהנחה כי פרמטר ידוע

ב) מצאו את משערך הMLE עבור הפרמטר בהנחה כי פרמטר ידוע

✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3

💡 פתרון: א

תחת התנאי כי .

פונקציית הlog-likelihood הינה:

מגזירה והשוואה לאפס נקבל:

הנגזרת השנייה שלילית ולכן זוהי אכן נקודת מקסימום.

✍️ תרגיל 3.3: תרגיל ממבחן - אביב 2019, מועד ב’ שאלה 3

💡 פתרון: ב

נכתוב את ה-likelihood:


נשים לב כי היא פונקציה מונוטונית עולה ב בתחום שבו . לכן שמערך הסבירות המירבית יתקבל בערך המקסימאלי האפשרי עבור בתחום זה: .