Upload
dustin
View
71
Download
2
Embed Size (px)
DESCRIPTION
הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה. מגישים: משה שגיברועי דימינטשטיין מנחה: כפיר לוי. מערכות לומדות מימוש סוכן לומד המשחק פקמן. מבנה המצגת. הצגת הנושא מימוש האלגוריתמים סוכן אמיץ/פחדן התוכנה הדגמה תוצאות ומסקנות שלבים בפיתוח. הצגת הנושא. למידה ע"י חיזוקים - PowerPoint PPT Presentation
Citation preview
חשמל להנדסת הפקולטהורובוטיקה לבקרה המעבדה
לומדות מערכות
המשחק לומד סוכן מימושפקמןמגישים:
שגיב דימינטשטיין משה רועי
מנחה:לוי כפיר
המצגת מבנה
הנושא • הצגתהאלגוריתמים • מימוש•/ פחדן אמיץ סוכןהתוכנה•הדגמה •ומסקנות • תוצאותבפיתוח • שלבים
הנושא הצגת
• " חיזוקים י ע למידהבנושא • קודמות עבודותמוטיבציה•
" חיזוקים י ע למידה
•? " חיזוקים י ע למידה מהיהמודל • הצגת
– , , פונקצית אפשריות פעולות אפשריים מצבים. רווח, ופונקצית מדיניות פונקצית מעבר
בנושא קודמות עבודותSarsaאלגוריתם •
תוחלות – חישוב על מתבססבלמן - – משוואת את 1957משערך
:actor-criticגישת •
'
( , ) ( , ) ( ' | , ) ( , )s
Q s a r s a P s s a V s a
בנושא קודמות עבודות
CVaR – 2010אלגוריתם •תוחלת – במקום הסתברות צפיפות פונקצית משערךבלמן – משוואת את שכתבו הראשונים הם של לפילוגהיפנים
, התגמול פונקצית ושל הרווח .Qפונקצית
–: במאמר העבודה מקור Nonparametric return distribution approximation for
reinforcement learning by Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, Toshiyuki
Tanaka
1 1
1 1 1 1 1 1( | , ) ( | , ) ( | ) | , ( | , , )t t
E T t t t E t t R ts S a A r R
rP s a p s s a a s P s a dP r s a s
מוטיבציה
בין • - Sarsaהשוואה CvaRל
•/ פחדן אמיץ סוכן יצירת
האלגוריתמים - Sarsaמימוש
•: על במבט האלגוריתםאקראית – ממדיניות מתחיליםפונקצית – לפי הנוכחי למצב פעולה בוחרים
המדיניות– , שהתקבל ) הבא המצב התצפית בערכי צופים
.)' וכד הרווחהתגמול , – פונקצית ופעולה, Qעדכון המצב עבור
: הנוסחא לפי1 1 1( , ) (1 ) ( , ) [ ( , )]t t t t t t t t t t t tQ s a Q s a r Q s a
האלגוריתמים - Sarsaמימוש
•Bellman error – " את " לעדכן ויש מספיק למד הסוכן למתי מדד
המדיניות.
1 2 1 1
( | ) ( | ) ( )
( ) ( | ) ( , )
( ) ( , ) ( , )
1 1[ ... ]
1 1
a
t t t t t t
T T t t t
Q s a r s a V s
V s a s Q s a
V s r s a Q s a
tM M M
T t t
האלגוריתמים - Sarsaמימוש
המניבה: – דרך מוצא הפקמן בו מצב נניח בעיה , הדרך איננה היא אך מאוד חיוביים רווחים
נקרא. זה מצב exploitationהאופטימאלית
ובכך: – הפעולה לבחירת אקראיות נוסיף פתרון. explorationנאפשר
greedy
האלגוריתם - CVaRמימוש
ההסתברות • צפיפות פונקצית שערוך–Particles
צפיפות – בין התלות את המראה המאמר לפי פיתוחהמצבים של לזו הנוכחי המצב של ההסתברות
האחרים.– - ב לשערוך particlesשימוש
האלגוריתם - CVaRמימוש
על • במבט האלגוריתםפעולה – מצב כל עבור מפולגים K particlesמאתחלים
בגובה (. K/1יוניפורמית עדיין ) מידע בידינו איןפונקצית – לפי פעולה בוחרים הנוכחי המצב עבור
המדיניות.–.) הבא ) והמצב הרווח התצפית בערכי צופיםמספר – :particlesמזיזים הנוסחא לפי מראש קבוע
שני p , qכאשר -particlesמייצגים ו מיצג vאקראיים. מיקומם את
, 1, , ,t t p t ts a t s a qv r v
האלגוריתם - CVaRמימוש
לשגיאת • דואלי bellmanמדדהמצב – של הסתברות צפיפות פונקציות על מיצוע יצירת
נסמן הבא והמצב .f , gהנוכחי– : מצטברת הסתברות פונקציות .F, Gיצירת–: ש מכך
להיות ) צריך הנוכחי המצב של המצטבר המהוון הרווח
.) " הבא" המצב של לזה קרובהבא – שהביטוי נקבל
קטן להיות צריך
( | ) ( | ) ( )
( ) ( | ) ( , )a
Q s a r s a V s
V s a s Q s a
1( ) ( )
b
a
x rF x G dx
b a
/ פחדן אמיץ סוכן
• / מפונקצית פחדנית אמיצה התנהגות גזירתההסתברות
מצטברת – הסתברות פונקצית יצירת– / ההסברות פונקצית של תחתון עליון חלק שערוך
/ פחדן אמיץ סוכן
להצליח: " • רוצה אני אז מצליח אני אם אמיץ" שאפשר הרבה הכי
•" פחות: " אפול אז נפלתי כבר אם פחדן
התוכנה
בשפת • מונחה – Javaפותחה תכנות מבוססתעצמים.
מאובייקט • היורש כאובייקט מומש אלגוריתם כל ( " מוח " הנקרא (Brainאבסטרקטי בתוכנה
" reuseמאפשרת • " אחרים מוחות ל והרחבהלמשחק • האלגוריתמים מימוש בין מלאה הפרדה
עצמו.• – " קונבנציות י עפ javadocתיעוד•UML
התוכנה
UML – Class Diagram
הדגמה
ומסקנות תוצאות
איסוף • על מתבססים ההשוואה קריטריוני( אונליין נתונים הרווח) של ריצה כדי תוך
. שונות דגימה בנקודות המהווןנותחו • אלו .matlabבעזרת אופליין נתונים• , מהווים האופייניים לגרפים פרט הגרפים כל
של , 10אינטרפולציה המשחק של הרצות. שעה כחצי של למידה היא הרצה כל כאשר
) !!! קשה ) עבד הפקמן
אופייניים גרפים
אופייניים גרפים
אופייניים גרפים
אומץ מדד
פחדנות מדד
פחדנות מדד
ממוצע מדד
לבגרות מינקות הפקמן
של • ראשונית – Sarsaהרצה– , מפלצת ללא גדול מסךבקירות – נתקע הפקמן
מצב על עונש .standהוספתמספר • כעבור לפני ) עדכון צעדים של קבוע
bellman error )מהירים – , עדכונים נמנע קצר מסלול לומד
. " מהר" יותר שיגעון מ–.".. , לומד: " הוא לומד הוא רועי
• " אליה " קרוב שהוא ברגע המטרה על התבייתות ישעדיין ) המסך אקראי נראה המצב המקומות בשאר
גדול(–" למידה: " פה יש משה
• , כל בין הזמן הגדלת אקראיות הוספת) קבוע ) עדיין עדכון
יותר – נחלץ הוא אקראיות הרבה יש כאשר." " שטויות מ מהר
מסקנה: •מהירים – מהירה עדכונים יותר התחלתית למידהארוכים – יותר טובה עדכונים יותר התכנסות
הוא " • כאשר סטירות לו לתת אקראיות צריך תמידנתקע".
להקטין: • הזמן ועם רבה אקראיות עם להתחיל רעיוןאותה.
בלמן • שגיאת הוספתמסך • הקטנתמצב • fast forwardהוספת
התכנסות + • למידה ישמפלצת • הוספנו
!!!!!!!!!!"רועי: • עובד" זה
... בעתיד הפקמן
נוספים • מוחות בחינתסוכנים • שני בין תחרות•" מוח " עם מפלצתמשחק • לוחות על במוחות שימוש
שונים משחקים או
שאלות???
!!! ההקשבה על תודה