Final Thesis Saeed Amizadeh - people.cs.pitt.edupeople.cs.pitt.edu/~saeed/pdfs/Final Thesis _Saeed Amizadeh.pdf · ﺮﺛا ﺖﻟﺎﺻا ﻪﻣﺎﻧﺪﻬﻌﺗ ﻦﻳا رد جرﺪﻨﻣ

دانشگاه تهران هاي فني پرديس دانشكده

برق و كامپيوتر مهندسيدانشكده

مراتبي با استفاده ايجاد و يادگيري مفاهيم سلسله از روش بيزي

:نگارش

زاده سعيد عامي

:استاد راهنما دكتر مجيد نيلي احمدآبادي

:استاد مشاور دكتر بابك نجار اعرابي

درجة كارشناسي ارشد در رشتةنامه براي دريافت پايان

ماشين و رباتيك هوش، گرايش مهندسي كامپيوتر 1386 ماهتير

دانشگاه تهران

هاي فني پرديس دانشكده

برق و كامپيوتر مهندسيدانشكده

:عنوان مراتبي با استفاده از روش بيزي ايجاد و يادگيري مفاهيم سلسله

:نگارش زاده سعيد عامي

راي دريافت درجة كارشناسي ارشد در رشتةنامه ب پايان

كامپيوتر، گرايش هوش ماشين و رباتيكمهندسي

. و مورد تصويب قرار گرفتگرديد دفاع در مقابل هيئت داوران 30/4/1386نامه در تاريخ اين پايان

جواد فيضدكتر هاي فني معاونت آموزشي و تحصيالت تكميلي پرديس دانشكده

دار ماراالني پرويز جبه دكتر رئيس دانشكده

سعيد نادر اصفهانيدكتر سرپرست تحصيالت تكميلي دانشكده

دكتر مجيد نيلي احمدآبادي استاد راهنما

دكتر بابك نجار اعرابي استاد مشاور

دار ماراالني دكتر پرويز جبه عضو هيئت داوران

دكتر سعيد باقري شوركي عضو هيئت داوران

زاده دهكردي غالمعلي حسينر دكت عضو هيئت داوران

تعهدنامه اصالت اثر

كنم كه مطالب مندرج در اين تائيد مي زاده سعيد عامي اينجانبنامه حاصل كار پژوهشي اينجانب است و به دستاوردهاي پژوهشي پايان

استفاده شده است مطابق مقررات ارجاع ها آنديگران كه در اين نوشته از براي احراز هيچ مدرك هم سطح يا باالتر تر پيشنامه اناين پاي. گرديده است

. ارائه نشده استكليه حقوق مادي و معنوي اين اثر متعلق به دانشكده فني دانشگاه

.باشد تهران مي

زاده سعيد عامي : نام و نام خانوادگي دانشجو

: دانشجوامضاي

»يك«

تقديم به

مادر مهربانم، پدر بزرگوارم، عزيزمبرادران و

»دو«

»سه«

تقدير و تشكر

هاي ارزشمندي كه از ران به دليل حمايتدر ابتدا الزم است كه از مركز تحقيقات مخابرات اي

.اين پروژه به عمل آوردند قدرداني و تشكر گردد

»چهار«

»پنج«

چكيده

هاي حسي هايي كه به عنوان ورودي موجودات هوشمند به منظور مديريت حجم عظيم داده

مجردسازي در واقع . كه توانايي مجردسازي اين اطالعات را داشته باشندالزم استكنند دريافت مي

هايي كه در محيط واقعي قرار دارند را عالوه بر قدرت تعميم، امكان انتقال آسان دانش بين عامل

يادگيري مفاهيم يك روش براي مجردسازي است كه در آن فضاهاي پيوسته حسي و . آورد هم ميافر

هاي در ميان مدل. شوند نگاشته مي"مفهوم"اي به نام هاي گسسته به موجوديت عاملحركتي

قويتي هايي كه بر مبناي يادگيري ت محاسباتي مختلف براي يادگيري مفاهيم در هوش مصنوعي، روش

نامه در پايان. اند به دليل كاربردشان در مسائل واقعي از محبوبيت بيشتري برخوردارند طراحي شده

آن يك روش نوين براي يادگيري مفاهيم بر اساس چارچوب بيزي پيشنهاد شده است كه در حاضر

اين روش عامل .شود كل فرآيند يادگيري توسط سيگنال تقويتي دريافت شده از محيط هدايت مي

هاي نويزي و غيرقطعي به شكل با عدم قطعيت در محيطهسازد تا در مواجه هوشمند را قادر مي

به عالوه بر اين، با استفاده از روش پيشنهادي، عامل.گيري و يادگيري انجام دهد كارآمدي تصميم

مفاهيم را خودهاي ها و هم از ناكامي هم از موفقيت تعامل با محيطه و به واسطصورت ترتيبي

كننده كالسيك بندي هاي طبقه ها در مجموع چارچوب پيشنهادي را از سيستم اين ويژگي .آموزد مي

هيم واحد در ها، در چارچوب پيشنهادي امكان يادگيري مفا در كنار تمام اين ويژگي. سازد متمايز مي

اين نوع يادگيري . وجود داردزمان به صورت هم)مانند بينايي، شنوايي و غيره (چندين فضاي ادراكي

در بر دارد كه زيادي براي عامل مزاياي شده استبيني پيشكه به صورت ذاتي در روش پيشنهادي

.عت يادگيري اشاره نمودهاي عامل و افزايش سر گيري ها به بهبود دقت تصميم توان از ميان آن مي

»شش«

فوائد ،مفاهيم مختلف تخمين درست توزيع عالوه برنامه سازي در اين پايان بيهنتايج ش

نتايج عملي . دهد ها در افزايش سرعت همگرايي را نشان مي ها و ناكامي از موفقيتزمان يادگيري هم

مانند دنبال كردن ديواري كارآمدي چارچوب پيشنهادي در يك مساله دنياي واقع براز سوي ديگر

زمان در فضاهاي ادراكي هاي عملي مزاياي يادگيري هم همچنين در آزمايش. گذارند صحه مي

.چندگانه با استفاده از روش پيشنهادي نشان داده شده است

»هفت«

فهرست مطالب

1................................................................................................. فصل اول مقدمه1

9.....................................................................مي مفاهيريادگي فصل دوم مفهوم و 2

12......................................................................................................ع آن مفهوم و انوا-2-1

13............................................................................................................. مفاهيم حسي-1-1- 2

14.........................................................................................................اي مفاهيم رابطه-1-2- 2

15..........................................................................................................اهيم انجمني مف-1-3- 2

16................................................................................................ فوائد يادگيري مفاهيم-1-4- 2

18........................................................................................................ بازنمايي مفاهيم-2-2

18...........................................................................................................اي نظريه نمونه-2-1- 2

19....................................................................................................ها دسته نظرية نشان-2-2- 2

19........................................................................................................... نظريه قواعدي-2-3- 2

21........................................................................................هاي يادگيري مفاهيم روش-2-3

26................................................................................................يريگ جهي خالصه و نت-2-4

27................................................................................يزي فصل سوم چارچوب ب3

30.........................................................................................................هاي بيزي شبكه-3-1

31........................................................................................ روابط استقالل و وابستگي-3-2

34......................................................................................................... نگاشت استقالل-2-1- 3

37..................................................................................................................... استنباط-3-3

37................................................................................................................ حذف متغير-3-1- 3

39.............................................................................................. الگوريتم درخت تقاطع-3-2- 3

42........................................................................................................... استنباط تقريبي-3-3- 3

45................................................................................. يادگيري پارامترها با دادة كامل-3-4

46........................................................................................نمايي بيشينه ين درست تخم-4-1- 3

»هشت«

48............................................................................................................... تخمين بيزي-4-2- 3

51....................................................................................................... يادگيري ساختار-3-5

52................................................................................................گيري خالصه و نتيجه-3-6

53.........................................مي مفاهيريادگي ي برايشنهادي فصل چهارم ساختار پ4

56............................................................................. مدل بيزي براي ساختار پيشنهادي-4-1

56................................................................................................... مدل بيزي پيشنهادي-1-1- 4

60........................................................................................................هاي پارامتري فرم-1-2- 4

P(M | C)...........................................................................................................................60 احتمال عيتوز

P(C)....................................................................................................................................61 احتمال عيتوز

P(X | M)...........................................................................................................................62 احتمال عيتوز

65.....................................................................................يتم يادگيري پيشنهادي الگور-4-2

67....................................................نمايي فضاهاي ادراكي عامل يادگيري توابع درست-2-1- 4

69.............................................................................................................نمايي محاسبه تابع درست-گام اول

70....................................................................................................ها محاسبه وزن مشاركت مولفه-گام دوم

71.......................................................................................ها رساني توزيع هر يك از مولفه به روز-گام سوم

72.......................................................................................................ها رساني وزن مولفه به روز-گام چهارم

75.............................................................. يادگيري تابع توزيع احتمال پيشين مفاهيم-2-2- 4

76.........................................................................................................هاي نابالغ مؤلفه-2-3- 4

77................................................................ هرس كردن و يادگيري مجدديها مكانيزم-2-4- 4

79................................................................................................گيري خالصه و نتيجه-4-3

81..............................................................................سازي فصل پنجم نتايج پياده5

84.......................................................................................................سازي نتايج شبيه-5-1

84............................................................................................................ اوليساز هي شب-1-1- 5

84...........................................................................................................................................يساز هيهدف شب

84...................................................................................................................................................شرح مسأله

85.......................................................................................................................................نتايج به دست آمده

87........................................................................................................... دوميساز هي شب-1-2- 5

»نه«

87..........................................................................................................................................يساز هيهدف شب

87...................................................................................................................................................شرح مسأله

88......................................................................................................................................ايج به دست آمدهنت

92................................................................................................. نتايج آزمايش عملي-5-2

92................................................................................................................ بستر آزمون-2-1- 5

92............................................................................................................... آزمايش اول-2-2- 5

92..............................................................................................................................................هدف آزمايش

93...............................................................................................................................................شرح آزمايش

94...............................................................................................................................................نتايج آزمايش

95............................................................................................................... آزمايش دوم-2-3- 5

95..............................................................................................................................................هدف آزمايش

96...............................................................................................................................................شرح آزمايش

98...............................................................................................................................................نتايج آزمايش

101..............................................................................................يريگ جهي خالصه و نت-5-3

103...............................................................شنهاداتي و پيريگ جهي فصل ششم نت6

106................................................................................................................... خالصه-6-1

108...................................................................................................................... بحث-6-2

110..............................................................................................................گيري نتيجه-6-3

111.............................................................................................................. پيشنهادات-6-4

112...................................................................................................مراجع و مĤخذ

116...........................................................نامه اني اول مقاالت مستخرج از پاوستيپ

»ده«

تصاويرفهرست

13...........................................................................................[Mobahi 05]ي حسمي مفاهني نمادعي توز- 1-2شكل

14.......................................................................................[Mobahi 05]يا رابطهميه مفاني نمادعي توز- 2-2شكل

15........................................................................................[Mobahi 05]ي انجمنمي مفاهني نمادعيتوز - 3-2شكل

22...........................................................................................[Kruschke 92] مدل الكوو ي شبكه عصب- 4-2شكل

23.......................................................................................[Iba]ي در مدل لنگلمي از درخت مفاهي قسمت- 5-2شكل

25................................................................................[Mobahi 05] مي مفاهيريادگي ي برايمدل مباه - 6-2شكل

عبارت استقالل ني ساختار چندنيا. ري دزدگطي محي ساده برايزي ساختار شبكة بكي از يمثال) الف (1-3شكل ): دهد ي را نشان ميشرط )BEInd ⊥ ،( )EBRAInd ,⊥ ،),,( ECBARInd و ⊥

),,( AREBCInd احتمال توأم به صورت حاصلضرب عيشكل توز. ⊥)()(),()()(),,,,( ACPERPEBAPEPBPRECBAP عي نگاشت استقالل از توزكي) ب. (است= 32.......................................................................................................................................).الف(ر ساختار شده درهيذخ

پدران آن ري نوادگانش به شرط داشتن مقادري مستقل از غX. ي عبارات مستقل شرطشي نماي براي مثال2-3شكل 32..............................................................................................................................................................................است

),()()( عي نگاشت استقالل از توزكي سه ساختار كه هر كدام 3-3شكل YPXPYXP X كه ي هستند هنگام= 35........................................................................................................................................ مستقل باشندگريكدي از Yو

UX از ري متغكيدر هر مرحله فقط . X از U يا هي حاشعي محاسبة توزي براري روال حذف متغ4-3شكل به \ 39..........................................................................................گردد ي حذف مشوند ي كه آن را شامل ميي فاكتورهالةيوس

انگري نماها يضي، ب)الف( شكل يزيدرخت تقاطع متناظر با شبكة ب) ب. ( سادهيزي شبكة بكي) الف (5-3شكل 41........................................................................................................هستندها جداكنندهانگري نماها ليها و مستط خوشه

42..................................................................................................... فراوانيالهاي با هي دو اليزي شبكة بكي 6-3شكل

42.......................................................................... متغير حالت مخفي3 يك شبكة بيزي متغير با زمان شامل 7-3شكل

57.............................................................................. مذكورفرض شي شده بر اساس پي طراحيزي شبكه ب- 1-4شكل

58.............................................................................ي با اعمال استقالل شرطافتهي شكل ريي تغيزي شبكه ب- 2-4شكل

65...............................................................................................................يشنهادي پستمي سي نمودار بلوك- 3-4شكل

66.................................................................................................................يشنهادي پستمي سي شبه كد كل- 4-4شكل

68................................................................................يينما تابع درستيريادگي ي برايشنهادي پتمي الگور- 5-4 شكل

75...........................................................................مي مفاهنيشي پعي توزيريادگي ي برايشنهادي پتمي الگور- 6-4شكل

85...........................................................)چپ( هدف عيتوز) راست( زده شده توسط مدل ني تخمعي توز- 1-5شكل

پاداش نيانگيم) وستهينمودار پ (يشنهادي پيريادگي تمي الگوري در طول زمان برايافتي پاداش درنيانگي م- 2-5شكل 86..........................)نيچ نمودار خط (يشنهادي پيريادگي تميامال باسرپرست الگور نسخه كي در طول زمان برايافتيدر

»يازده«

يي به تنهاي دوبعدي، فضا)نيچ نمودار خط (يبعد پنجي فضاي در طول زمان برايافتي پاداش درنيانگي م- 3-5شكل 89..................................................................................)دار نمودار ستاره (يي به تنهايبعد سهيو فضا) دار نمودارمثلث(

، )وستهينمودار پ (يبعد دو و سهيزمان در فضاها هميريادگي ي در طول زمان برايافتي پاداش درنيانگي م- 4-5شكل 90..........................................)دار نمودار ستاره (ييبه تنها يبعد سهيو فضا) دار نمودارمثلث (يي به تنهاي دوبعديفضا

، )وستهينمودار پ (يبعد دو و سهيزمان در فضاها هميريادگي ي در طول زمان برايافتي پاداش درنيانگي م- 5-5شكل 91..........................................................................................................)نيچ نمودار خط( در دو فضا ري باتاخيريادگيو

93...............................................................................................................................پاك ي ربات متحرك ا- 6-5شكل

95.............................................................. اولشي آزماي در طول زمان برايافتي پاداش درنيانگي نمودار م- 7-5شكل

97................................................................. رباتني از دوربيافتي درري دو نمونه از دو نوع مختلف تصاو- 8-5شكل

98............................................................. نمونهري در دو تصويژگي استخراج وي خطوط محاسبه شده برا- 9-5شكل

98................................................................................... نمونهري دو تصوي برايابي لبهتمي الگوري خروج- 10-5شكل

را با چهار اجيقرمز برا مادون ي از فضايريادگي بعد از ييناي بي فضايافتي پاداش درنيانگي نمودار م- 11-5شكل در فاز اول يريادگيقرمز بعد از مادون ي فضايافتي پاداش درنيانگي، نمودار م)نيچ نمودار خط( مختلف هي اولطيشرا در هنگام يادگيري با استفاده يو نمودار ميانگين پاداش دريافت) وستهينمودار پ( مختلف هي اولطي چهار اجرا با شرايبرا

99........................................................)دار نمودار ستاره( مادون قرمز يدون كمك فضااز فضاي ادراكي بينايي از ابتدا ب

ولافهرست جد

)|,( ي احتمال شرطعي توزرةي ذخي ممكن براي جدول احتمال شرطكي 1-3جدول EBAP در ساختار نشان داده 36......................................................................................................................).الف (1-3 شكل ري دزدگطيشده در مح

اولفصل 1 مقدمه

1 1

مراتبي با استفاده از روش بيزي ايجاد و يادگيري مفاهيم سلسله

٢

مقدمه- اول فصل

٣

ترين ركن هوشمندي، نقش مهمي در حفظ بقاي موجودات هوشمند و يادگيري به عنوان اساسيت سرشار از ي اساز آنجا كه دنياي واقعي دنياي. كند ء مي ها با محيط اطراف ايفا پذيري آن قيتطب

. نمايد همراه با انواع گوناگون نايقيني، يادگيري در آن در نگاه اول ناممكن جلوه مياطالعات مختلف الزم نيست كه شما تمام : برد سازي در يادگيري پي توان به اهميت تجريد و يا مجرد از اين رو مي

ها را هاي بارز و مشترك تمام سيب ست كه تنها ويژگي اهاي دنيا را به خاطر بسپاريد، بلكه كافي سيببه بياني ديگر، براي يادگيري . ها سيب را از غير سيب تشخيص دهيد بدانيد تا بتوانيد به كمك آن

با اين توضيح . ست كه مفهوم مجرد آن در ذهن شما شكل بگيرد اموجوديتي به نام سيب، كافيطي فرآيند سازي دارد بدين ترتيب كه در توان دريافت كه مجردسازي ارتباط تنگاتنگي با مفهوم مي

هاي مجردي از جهان در ذهن موجود هوشمند اعم از انسان و مجرد كردن جهان پيرامون، موجوديتتوان به اهميت مبحث از اين رو مي. گويند ها مفاهيم ذهني مي گيرد كه اصطالحاٌ به آن حيوان شكل مي

نمود كه مفاهيم در به اين نكته توجهالزم استالبته . برد يادگيري مفاهيم در هوش مصنوعي پي . سطوح مختلف تجريد قابل تعريف و يادگيري هستند

اي كه از عامل در قبال هاي بهينه پاسخ يادگيرينامه يادگيري مفاهيم در سطح در اين پايان در حقيقت در پژوهش حاضر .ستا رود مورد توجه واقع شده هاي خارجي انتظار مي مشاهده محرك

اند كه عامل در فرآيند يادگيري ممكن عامل در نظر گرفته شدههاي اسخمفاهيم متناظر با تمام پيادگيري مفاهيم در اين سطح .ها بيابد فضاهاي حسي خود را به آن نواحي مختلف نگاشتخواهد مي

پذيرد در مغز صورت مي1اي هاي آينه تجريد در انسان و برخي از حيوانات توسط عصب.[Buccino 04]محيطي، كامال به شرايط شده در ذهن عاملت كه مفاهيم شكل گرفته شايان ذكر اس

از اين رو در صورت عدم وجود يك زبان . هاي عامل و نگاه عامل به محيط وابسته است قابليت به همين دليل. متفاوت باشندتوانند كامال مفاهيم شكل گرفته شده در ذهن دو عامل مشابه ميمشترك

كه به يك مساله يافتن پاسخ بهينه در مواجهه با الزم استگيري مفاهيم در اين حالت يك روش ياد .خواهند بودسازي جي قابل تبديل باشد كه مفاهيم يادگرفته شده حاصل اين پروسه بهينهمحرك خار

.نامه قابل توجيه است گيري روش پيشنهادي در اين پايان جهت بر پايه اين توضيحات،در . شود نمينيز مساله جديدي نيست و منحصر به هوش مصنوعي اما مساله يادگيري مفاهيم،

ي، بيتشناسي و علوم تر شناسي، رفتارشناسي، زبان شناسي، عصب بسياري از علوم شناختي اعم از روانمساله يادگيري مفاهيم ذهني از جهان خارج شاخه مهمي از تحقيقات و دستاوردهاي علمي را تشكيل

1 - Mirror Neurons


٤

شود يادگيري مفاهيم و مفهوم به صورت كامالً كالسيك تعريف مي1ناختيشناسي ش در روان. دهد ميشود كه طي آن چيزهايي كه به سازي به فرآيندي اطالق مي يادگيري مفاهيم و مفهوم«: بدين ترتيب كه

ها و اتفاقات مشابه را در خود هايي كه محرك به هر يك از دسته. شوند هم تعلق دارند مشخص ميتوان به تشابه ذاتي مساله از اين تعريف مي[Zentall 02].»شود فهوم گفته ميجاي دهند يك م

در واقع به همين دليل بسياري از . برد در هوش مصنوعي پي2بندي يادگيري مفاهيم و مساله طبقه استفاده 3كننده بندي هاي محاسباتي ارائه شده براي يادگيري مفاهيم در بطن خود از يك طبقه مدل. توان براي يادگيري مفاهيم استفاده كرد؟ پاسخ منفي است اي مي كننده بندي اما آيا از هر طبقه.كنند مي

عامل هوشمند با جهان هاز آنجا كه يادگيري مفاهيم به شكلي كه در باال تعريف شد تنها در مواجههاي ط و ويژگيكننده استفاده شده در يك مدل يادگيري مفاهيم شراي بندي يابد، طبقه واقعي معنا مي

هر مدل محاسباتي ارائه شده براي يادگيري مفاهيم برخي از اين شرايط را . كند خاصي را طلب مي و در عين حال از كاراتربديهي است كه هرچه يك مدل شرايط بيشتري را ارضا كند . كند ارضا مي

ي يادگيري مفاهيم در نامه برا مدل پيشنهادي در اين پايان. پيچيدگي بيشتري برخوردار خواهد بودهاي مشابه چارچوبي كلي و تا حد امكان واقع سعي دارد كه با ارضاء شرايط بيشتري نسبت به مدل

لذا در اينجا الزم است . هاي مصنوعي فراهم آورد نزديك به واقعيت براي يادگيري مفاهيم در سيستم تا به واسطه آن تمايز كلي آن با هاي روش پيشنهادي بپردازيم ترين ويژگي كه به بيان برخي از مهم

.هاي مطرح شده در اين شاخه هوش مصنوعي آشكار گردد ديگر روشتواند در يك فضاي چند بعدي و پيوسته اولين ويژگي چارچوب پيشنهادي اين است كه مي

شود كه يك سيستم يادگيري مفاهيم اهميت اين موضوع از آنجا ناشي مي. ادراكي مفاهيم را ياد بگيردبعدي هاي چند هاي حسي به شكل سيگنال با دنياي واقعي قرار دارد كه در آن اكثر وروديهدر مواجه

هاي گسسته كار اي كه تنها بر روي ورودي كننده بندي هاي طبقه در نتيجه سيستم. هستندو پيوسته سيستم . [Davidsson 94]توانند جوابگوي يادگيري مفاهيم در يك محيط واقعي باشند كنند نمي مي

بعدي و پيوسته حسي به هاي چند كوشد تا با تبديل سيگنال طراحي شده در اين پژوهش در واقع ميهاي اطالعات سطح باالتري به منظور استفاده در پردازش) همان مفاهيم(نمادهاي گسسته معنايي

هاي مشابه آن به ستمتوان از سيستم پيشنهادي و سي از اين رو مي. زباني و سطح باالتر فراهم آوردعنوان يك واسط بين دنياي واقعي و فرآيندهاي سطح باالي ذهني عامل كه بر روي مفاهيم زباني و

.كنند بهره برد معنايي كار مي 1 - Cognitive Psychology 2 - Classification 3 - Classifier


٥

با هاصوال عملكرد مناسب در مواجه. خاصيت دوم مدل پيشنهادي احتماالتي بودن آن استيكي از . شود واقعي كار كنند يك اصل محسوب ميهايي كه قرار است در دنياي نايقيني در سيستم

. [Lebeltel 04, Bessière 03]استقويترين ابزارها براي اين مهم، استفاده از چارچوب احتماالتي سيستم يادگيري و 1كارگيري چارچوب احتماالتي و به خصوص چارچوب بيزي همدل پيشنهادي با ب

به طور مشخص در . ي محيطي و ادراكي مقاوم ساخته استگيري را در مقابل نايقيني و نويزها تصميمهاي بيزي، يادگيري بيزي گيري از شبكه سازي، يادگيري و تصميم مدل پيشنهادي براي فرآيندهاي مدلهمچنين با طراحي برخي فرآيندهاي هوشمند در بطن روش، . و استنباط بيزي استفاده شده است

اين ويژگي موجب جامعيت . هم شده استاو تابع دلخواهي فرامكان تخمين توزيع مفاهيم با هر فرم اي استفاده كرد توان از آن در هر مساله شود بدين معني كه مي بخشيدن به چارچوب پيشنهادي مي

. توزيع مفاهيم در آن مساله خاص داشته باشيم از پيش دانستن فرم تابعبدون آنكه نياز بهفلسفه وجوب . است2برخط الگوريتم يادگيري آن سومين ويژگي روش پيشنهادي آن است كه

كه در طول زندگي عامل و به صورت الزم استسيستم پيشنهادي . اين ويژگي نيز روشن است كه در بسياري از 3برخطغيرهاي يادگيري از اين رو، الگوريتم. تدريجي مفاهيم مختلف را ياد بگيرد

البته بايد به اين نكته . توانند در اين مورد استفاده شوند شوند نمي كارگرفته مي ها به كننده بندي طبقهها نيست بلكه روش بودن تنها به معني يادگيري ترتيبي محركبرخط توجه شود كه منظور از

زمان گيري را هم دهد، تصميم هر محرك ديده شده يادگيري انجام ميازاءپيشنهادي عالوه بر اينكه به عني در هر لحظه با توجه به دانشي كه تا آن لحظه كسب كرده است دهد؛ ي با يادگيري انجام مي

. واحد از آن ياد بگيردتواند در محيط زندگي كند و در آنِ در نتيجه عامل مي. نمايد گيري مي تصميمدر بسياري از مسائل دنياي واقعي به علت پراكندگي مشاهدات، ندانستن ترتيب آنها، عدم

يجود يك سرپرست امكان كنترل محيط و عدم و شود استفاده مي 4از يادگيري تقويت[Mahadevan 92, Smith 02] در فرآيند خاصيت چهارم مدل پيشنهادي استفاده از يادگيري تقويتي

كه همان تشخيص مفهوم (چارچوب پيشنهادي به ازاء هر تصميم عامل در واقع در . است آنيادگيريشود كه گنال تقويتي از طرف محيط و يا مربي به آن داده مييك سي) استمرتبط با محرك ورودي

به (و صفر ) به معني تصميم نادرست عامل(، منفي )به معني تصميم درست عامل(تواند مثبت ميها يادگيري به در هر يك از اين حالت. باشد) معني عدم آگاهي محيط نسبت به درستي تصميم عامل

1 - Bayesian Framework 2 - Online 3 - Offline 4 - Reinforcement Learning


٦

بدين معني است كه با استفاده از چارچوب پيشنهادي عامل اين. پذيرد شكل متفاوتي صورت ميدر اينجا يك تمايز اساسي روش . آموزد نيز مي خودهاي درستش از اشتباهات عالوه بر تشخيص

كننده كالسيك بندي از آنجا كه يك طبقه: گردد بندي مشخص مي پيشنهادي با روشهاي كالسيك طبقهاندازي و استفاده از آن الزم ، براي راه)يعني يادگيري با سرپرست(آموزد هاي درست مي تنها از نمونه

اما براي عاملي كه قرار . هاي درست را براي تعليم آن فراهم آوريم اي از نمونه است كه در ابتدا تودهاي از است از جهل مطلق زندگي خود را در يك محيط واقعي شروع كند دسترسي به چنين توده

در اكثر جهل مطلق، عامل در ابتداي زندگيپذير نيست زيرا به علت شروع از انهاي درست امك نمونهشود تا هاي نادرست ايجاد مي كند و عمالٌ حجم عظيمي از نمونه قريب به اتفاق موارد اشتباه مي

از روش يادگيري پيشنهادي كه به ازاء همه اين در حالي است كه با استفاده. هاي درست نمونهتوان با شروع از جهل مطلق دهد، مي يادگيري انجام مي) چه درست و چه نادرست(ل تجربيات عام

طور همچنين همان. در يك محيط كامالً ناآشنا و واقعي به صورت تدريجي رفتار مورد نظر را آموخت .شود شود، يادگيري از همه تجربيات عامل باعث افزايش سرعت يادگيري مي كه بعداً ديده مي

هاي چارچوب پيشنهادي يادگيري مفاهيم واحد در يد يكي از ممتازترين ويژگيآخرين و شاگانه خود موجودات زنده دنيا را از طريق حواس پنج. زمان است چندين فضاي ادراكي به صورت هم

بعدي تواند معادل با يك فضاي پيوسته چند كنند كه هريك از اين حواس به نوبه خود مي درك ميتوانند هاي مهم استفاده از چندين ارگان حسي اين است كه حواس مختلف مي سفهيكي از فل. باشد

توانيد به عنوان مثال شما نمي. هاي خارجي را جبران كنند هاي يكديگر در جداپذيري محرك ضعف بين آنها تميز قائل شويد ولي كافيست كه صداي 1صرفاً با نگاه كردن به دو ساز پيانو و هارپسيكورد

استفاده از دومفلسفه . توانيد پيانو را از هارپسيكورد تشخيص دهيد بشنويد آنگاه به سرعت ميآنها راكه بتوان از دانش يادگرفته شده چندين فضاي ادراكي ايجاد اينهماني بين حواس مختلف است طوري

حواس شما به عنوان مثالي از اينهماني بين . در يك فضاي ادراكي در فضاهاي ديگر نيز استفاده كردرا را تشخيص دهيد بدون اينكه آن توانيد تنها با نگاه كردن به يك سطح ميزان زبري و نرمي آن مي

ايجاد اينهماني بين حواس و يا به عبارت ديگر نگاشته شدن دانش فضاهاي ادراكي . لمس كنيدتواند كه عامل ميست ا بدين معني اين.آورد را فراهم مي2مختلف در يكديگر امكان يادگيري افزايشي به تدريج زمان هم بقاي خود در محيط را حفظ كرده و با شروع يادگيري در فضاهاي ادراكي ساده

سومين .تر منتقل نمايد طور غير مستقيم به فضاهاي ادركي پيچيده دانش كسب شده در اين فضاها را به

1 - Harpsichord 2 - Incremental Learning


٧

به علت مساله . عد استهش بدگيري در چندين فضاي ادراكي كااترين علت ي فلسفه و شايد مهم ادراكي كه تمام اطالعات حسي عامل را در بر داشته باشد ييادگيري در يك فضا، 1نفرين بعديت

موجوديت عامل را به مخاطره با كاهش سرعت يادگيري به صورت نمايي،عمال غير ممكن است ون فضاي ادراكي تقسيم كنيم از اين رو، مطلوب است كه اطالعات حسي عامل را بين چندي .اندازد مي

سپس در هر فضاي ادراكي .هاي مرتبط با هم را در خود جاي دهد به شكلي كه هر زير فضا ويژگيدر چارچوب پيشنهادي امكان يادگيري مفاهيم واحد در .به صورت مستقل يادگيري انجام دهيم

شنهادي به ما اين امكان همچنين سيستم پي. بيني شده است چندين فضاي ادراكي به صورت ذاتي پيشدهد كه به صورت پويا به سيستم فضاهاي ادراكي جديد اضافه كنيم و يا يك سري از فضاهاي را مي

.موجود را حذف نمائيمهاي مختلف يادگيري مفهوم آشنا نامه با مفهوم و مدل پس از اين مقدمه، در فصل دوم اين پايان

ريم سپس با ذكر اشم ف كرده و انواع مختلف آن را بر ميدراين فصل ابتدا مفهوم را تعري. شويم مينهايتاٌ در پايان . پردازيم هاي مختلف بازنمايي مفهوم مي فوائد اصلي يادگيري مفاهيم به ذكر نظريه

.پردازيم هاي محاسباتي موجود در يادگيري مفاهيم مي فصل به توضيح برخي از روشهاي بيزي به در اين فصل ابتدا شبكه. دازيمپر در فصل سوم، به معرفي چارچوب بيزي مي

. شويم ها آشنا مي شوند و سپس با روابط استقالل و وابستگي در اين شبكه صورت دقيق تعريف ميهاي مختلف براي و الگوريتمشود ميهاي بيزي به صورت دقيق تعريف پس از آن استنباط در شبكه

هاي هاي بيزي به سراغ يادگيري در شبكه در شبكهپس از آشنايي با استنباط. د شدنخواهآن تشريح در نهايت مرور . دهيم رويم و دو روش عمده در يادگيري پارامترهاي شبكه را توضيح مي بيزي مي

.هاي بيزي خواهيم داشت كوتاهي بر روي يادگيري ساختار در شبكهرچوب پيشنهادي پس از آشنايي با چارچوب بيزي در فصل چهارم به معرفي دقيق و تشريح چا

در اين فصل ابتدا مدل كل سيستم كه توسط يك . پردازيم نامه براي يادگيري مفاهيم مي در اين پايانپس از . دنشو هاي پارامتري به كار گرفته شده توضيح داده مي شبكه بيزي بيان شده است به عالوه فرم

تشكيل شده است به تفصيل آن الگوريتم يادگيري پيشنهادي كه خود از چندين الگوريتم مختلف دو فرآيند كمكي تعبيه شده در سيستم يادگيري توضيحشود در پايان نيز به توضيح داده مي

.پردازيم ميدر قسمت اول . سازي چارچوب پيشنهادي است فصل پنجم حاوي نتايج به دست آمده از پياده

پس از آن در قسمت نتايج عملي .سازي پرداخته شده است دست آمده در شبيه اين فصل به نتايج به

1 - Curse of Dimensionality


٨

ها به بررسي دو آزمايش انجام شده، اهداف و پس از معرفي بستر آزمون به كارگرفته شده در آزمايشگيري و ارائه پيشنهاداتي براي در نهايت فصل ششم قرار دارد كه به نتيجه. پردازيم نتايج هريك مي

.پردازد نامه مي توسعه چارچوب پيشنهاد شده در اين پايان

فصل دوم2 مفهوم و يادگيري مفاهيم

2 2


١٠

مفهوم و يادگيري مفاهيم–فصل دوم

١١

سزايي ه از اهميت بدنياي خارجسازي در درك گفته شد، فرآيند مجرد نيزطور كه در مقدمه همان واقع شده در هاي هوشمند مصنوعي اين اهميت در طراحي ساختار ذهني عامل. برخوردار استمحدود خواهان درك ساختار ذهني داشتن باها اين عاملشود چرا كه دو چندان مي 1محيط واقعي

. هستندگوناگون دنيايي مملو از اطالعات ترين نمودهاي مجردسازي در فرآيند گونه كه اشاره شد، يكي از بديهي از سوي ديگر همان

كه شاخه مهمي از ادبيات يادگيري ماشين را به خود اختصاص شود يادگيري مفاهيم ذهني متجلي مينامه، در اين در روش ارائه شده در اين پايان“ مفهوم“با توجه به نقش كليدي رو، از اين. داده است

برخي ذكربهانواع آن كنيم و پس از برشمردن تعريف مي به صورت كلي ومستقلفصل ابتدا مفهوم رادر . گيرند مي بازنمايي مفاهيم مورد بررسي قراردرسه نظريه مهم ، از آنپس. پردازيم مياز مزاياي آن

هاي متداول در يادگيري مفاهيم توسط برخي از روش بررسي اين فصل بهآخر قسمت درنهايت، .كنيم ها با مدل پيشنهادي را بيان مي هاي هر يك از اين روش و شباهتپردازيم هاي هوشمند مي عامل

1 - Situated Agents


١٢

مفهوم و انواع آن - 2-1 در هستندوان و انسان اين است كه قادرترين خصلت ممتاز موجودات هوشمند واقعي اعم از حي مهم

شود كه دنياي اهميت اين توانايي از آنجا ناشي مي. دنياي واقعي زندگي كنند و از آن ياد بگيرندواقعي محيطي است سرشار از اطالعات پيوسته و گسسته كه با انواع مختلف نايقيني و نويز آميخته

تبع آن يادگيري در آن بدون استفاده از يك سري رو، ادراك چنين محيطي و به از اين. اند شدههايي چه هايي كه در يادگيري در چنين محيط ترين مكانيزم يكي از مهم. نمايد ها ناممكن مي مكانيزم

. است1شود مجردسازي و يا تجريد توسط موجودات واقعي و چه موجودات مصنوعي استفاده مي يك عامل هوشمند به يك اكي پيوسته و پيچيدةمجردسازي مكانيزمي است كه طي آن فضاي ادر

شود و از آنجا كه سعي مي. شود باشد نگاشته مي تر كه توسط عامل قابل مديريت كردن مي فضاي سادهدر اين فرآيند تا حد امكان محتواي اطالعاتي فضاي ادراكي اصلي حفظ شود، فضاي ادراكي حاصل

.از فضاي اصلي خواهد بود“ ردترمج”به نوعي يك بازنمايي سطح باالتر و يا هاي موجود براي مجردسازي، تقسيم فضاي ادراكي عامل به يك ترين روش يكي از بديهي

هاي مشابه در فضاي ادراكي را در خود كه هر كالس حالت هاي شباهت است به طوري سري كالسترتيب هر مفهوم بدين. شود هاي شباهت اصطالحاً مفهوم گفته مي به هر يك از اين كالس. جاي دهدها در فضاي ادراكي موجود هوشمند است كه در برخي از جهات به يكديگر اي از محرك مجموعه

[Zentall 02] .ندا شبيهها بپردازيم، الزم است كه ابتدا ن قبل از آنكه به ادامة بحث در مورد انواع مفاهيم و فوائد آ

اي ادراكي ممكن است از جهات مختلفي به دو محرك در فض. شباهت دو محرك را تعريف كنيمبه عنوان مثال دو عدد . ترين نوع شباهت، شباهت فيزيكي و حسي است بديهي. يكديگر شبيه باشد

كه اين نوع شباهت در حالي سيب در بسيار از خواص ظاهري و حسي به يكديگر شباهت دارند در. شود شباهت فيزيكي و حسي خالصه نمياما شباهت تنها به . مورد يك سيب و يك موز وجود ندارد

هايي به يكديگر شباهت داشته باشند بدين معنا كه پاسخ2دو محرك ممكن است از ديدگاه عملكردگرابا اين ديد يك سيب و يك موز . دهد يكسان و يا مشابه باشند كه عامل هوشمند به اين دو محرك مي

دهد عموماً عمل خوردن ه اين دو محرك ميشوند چرا كه پاسخي كه يك انسان ب مشابه تلقي مي. بندي نمود طبقه“ خوردني”ها و موزهاي دنيا را تحت مفهوم توان تمام سيب رو مي از اين. است

1 - Abstraction 2 - Functionalism


١٣

شود بسته به اينكه شباهت دو محرك را چگونه تعريف كنيم، مفاهيم بنابراين همانطور كه ديده مي .شوند كنند ايجاد مي بندي نمي شابهي را دستههاي م مختلفي كه بعضاً در فضاي حسي عامل محرك

توانيم شباهت را به صورت يك براي آنكه شباهت دو محرك را به صورت كمي بيان كنيم، ميبسته به اينكه اين تابع رياضي به چه شكل تعريف شود انواع مختلف . تابع رياضي تعريف كنيم

[Zentall 02] پردازيم نواع مختلف مفهوم ميهاي بعدي به ذكر ا تمدر قس. دنشو مفاهيم پديدار مي

[Roberts 98].

1مفاهيم حسي -2-1-1هاي ادراك شده در فضاي حسي عامل مفاهيم حسي مفاهيمي هستند كه بر اساس شباهت محرك

هاي حسي مفاهيم حسي را در توان تنها بر اساس داده از آنجا كه مي[Herrnstein 64] .شوند ايجاد مي براي 3 و يادگيري بدون سرپرست2يابي هاي خوشه يجاد نمود معموالً از روشفضاي ادراكي عامل ا

معموالً هر مفهوم حسي با يك . شود هاي مصنوعي استفاده مي توليد اين گونه از مفاهيم در سيستم دو مفهوم حسي نمادين را در فضاي 1-2شكل . گردد بزرگ در فضاي حسي عامل متناظر مي4خوشه

[Mobahi 05] .دهد ميادراكي عامل نشان

[Mobahi 05] توزيع نمادين مفاهيم حسي-1-2 شكل

1 - Perceptual concepts 2 - Clustering 3 - Supervised Learning 4 - Cluster


١٤

1اي مفاهيم رابطه -2-1-2 الزاماً ناشي از شباهت در ها شباهت آندهد كه هايي را در خود جاي مي اي محرك يك مفهوم رابطههاي حسي بلكه ممكن است شباهت دو محرك چيزي وراي شباهت ويژگييستفضاي حسي ن

اي رو ممكن است كه يك مفهوم رابطه از اين. گويند ها شباهت معنايي مي باهتبه اين گونه ش. باشدشامل چندين خوشه جدا از هم در فضاي ادراكي عامل باشد كه از جهت شباهت معنايي در يك

اي در فضاي حسي توزيع دو مفهوم رابطه2-2 شكل [Oden 88] .اند سطح باالتر به هم پيوند خورده [Mobahi 05] .دهد مادين نشان ميعامل را به صورت ن

[Mobahi 05]اي توزيع نمادين مفاهيم رابطه-2-2 شكل

هاي حسي توان به داده ست كه براي تشخيص شباهت معنايي دو محرك صرفاً نمي ابديهيند در فضاي حسي هست كه ممكن است دو محركي كه از لحاظ معنايي به يكديگر شبيهچرااتكاء كرد

بنابراين براي اينكه عامل شباهت معنايي دو محرك را . دن نداشته باشيكديگر گونه مشابهتي به هيچهاي در سيستم. داده شوداواي به تشخيص دهد الزم است كه از طرف محيط و يا معلم اطالع اضافه

شود و عامل بر حسب نوع اين واقعي، اين اطالع معموالً در قالب سيگنال تقويتي به عامل داده مي .كند گيري مي قويتي در مورد شباهت معنايي دو محرك تصميمسيگنال ت

نامه نيز روش ارائه شده در واقع در چارچوب پيشنهادي براي يادگيري مفاهيم در اين پايان فرآيند يادگيري مفاهيم ، محيط ازروشي احتماالتي است كه بر پايه سيگنال تقويتي دريافت شده

.كند اي را مديريت مي رابطه

1 - Relational concepts


١٥

1 انجمنيمفاهيم -2-1-3گيرند كه تنها شباهت معنايي با يكديگر دارند و در فضاي هايي را در برمي مفاهيم انجمني، محرك

در واقع، شباهت در يك مفهوم انجمني از . گونه نزديكي و شباهتي به يكديگر ندارند حسي هيچلف، آن دو شود و به صرف يكسان بودن پاسخ عامل به دو محرك مخت ديدگاه عملكردگرا تعريف مي

اي اين تفاوت مفاهيم انجمني با مفاهيم رابطه. شوند محرك شبيه و جز و يك مفهوم انجمني تلقي مياند به شده هاي مرتبط با يك مفهوم انجمني كامالً در فضاي ادراكي عامل پخش است كه محرك

م انجمني را به دو مفهو) 3- 2(شكل . ها در نظر گرفت ها را در قالب خوشه توان آن كه نمي طوري [Mobahi 05] .دهد صورت نمادين در فضاي ادراكي عامل نشان مي

[Mobahi 05]توزيع نمادين مفاهيم انجمني -3-2 شكل

اي الزم است كه عامل اطالعي اضافه بر در يادگيري مفاهيم انجمني نيز مانند مفاهيم رابطه ادراكي براي مفاهيم انجمني اما از آنجا كه فضاي. هاي حسي محرك از محيط دريافت كند ويژگي

. يابي مناسب نيست، بهتر است كه اطالع اضافه چيزي بيشتر از يك سيگنال تقويتي باشد براي خوشهبه عبارت ديگر . در اين گونه موارد اطالع اضافه معموالً مفهوم واقعي مرتبط با محرك ديده شده است

.پذيرد انجام مي 2يادگيري مفاهيم انجمني معموالً به صورت با سرپرست

1 - Associative concepts 2 - Supervised


١٦

فوائد يادگيري مفاهيم - 2-1-4شايد بتوان . پردازيم ترين فوائد يادگيري مفاهيم مي حال كه با مفهوم و انواع آن آشنا شديم به ذكر مهم

هاي پيوسته و چند بعدي فضاي ادراكي به ترين كاركرد يك مفهوم تبديل سيگنال مهم كهگفت :ها عبارتند از ترين آن د زيادي در بردارد كه مهماين تبديل فوائ. نمادهاي مجرد و گسسته است

هاي پيوسته ادراكي به نمادهاي گسسته، با تبديل سيگنال: ايجاد يك پايه دانش براي عامل •توان بر روي آن بسياري از آورد كه مي عامل در واقع دانشي نمادين براي خود فراهم مي

در حقيقت با تبديل . عمال نمودگيري كالسيك را ا هاي يادگيري ماشين و تصميم روشهايي كه تنها فضاهاي چندبعدي پيوسته ورودي به نمادهاي گسسته امكان استفاده از روش

.شود گيرند فراهم مي هاي گسسته مي وروديهاي پيوسته ورودي به نمادهاي مجرد قابليت تعميم عامل با تبديل سيگنال: 1قابليت تعميم •

با يك نمونه جديد از يك هني است كه عامل در صورت مواجهاين بدين مع. يابد افزايش ميرو از اين. بندي نمايد تواند آن را به درستي طبقه مفهوم ذهني كه قبالً ايجاد كرده است مي

خواهد هاي مرتبط با آن مفهوم ن براي يادگيري يك مفهوم ديگر نيازي به ديدن تمام محرك .بود

پيوسته و هاي ياي واقعي دنيايي است سرشار از سيگنالاز آنجا كه دن: 2جويي شناختي صرفه •رو از اين. توان بدون مجردسازي به يك مدل كلي از آن دست يافت چندبعدي، نمي

هاي ادراكي عامل به يك مدل دهد كه با مجرد كردن ورودي مي سازي به ما امكان مفهومبنابراين، با استفاده از . مجرد از دنيا دست يابيم كه در آن جزئيات زائد حذف شده است

ه با دنياي واقعي دچار هسازي عامل مصنوعي كه ساختار ذهني محدودي دارد در مواج مفهوم .مشكل نخواهد شد

از آنجا كه مجموعه مفاهيم ذهني عامل بيانگر دانش عامل نسبت به : سان دانش امكان انتقال آ •توان به راحتي ذهن عامل ديگر ميمحيط اطراف است، با انتقال مفاهيم ذهني يك عامل به

البته شايان ذكر است كه اين انتقال تنها در . دانش يك عامل را به عامل ديگر منتقل نموددهنده و گيرنده از يك جنس باشند و ثانياً دو پذير است كه اوالً دو عامل انتقال صورتي امكان

توان انتظار داشت كه مفاهيم به عنوان مثال نمي. عامل داراي يك زبان ذهني مشترك باشندتوان انتظار همچنين نمي. افزاري باشد ذهني يك ربات جاروبرقي قابل انتقال به يك عامل نرم

1 - Generalization Ability 2 - Cognitive economy


١٧

داشت كه دانش دو ربات جاروبرقي كه واژگان ذهني متفاوتي دارند به يكديگر قابل انتقال .باشد


١٨

بازنمايي مفاهيم -2-2هاي مختلف بازنمايي مفاهيم در هوش ديم، به بيان روش آشنا ش آنحال كه با مفهوم، انواع و فوائداما قبل از آن الزم است كه بدانيم منظور از بازنمايي يك مفهوم . پردازيم مصنوعي و علوم شناختي مي

آنهاي ويژگي يك ازدارد كه اوالً يك مفهوم را با كدام يك روش بازنمايي مفهوم بيان مي. چيستهاي يك در بازنمايي ويژگي. شود معيار شباهت دو محرك چگونه تعيين ميكنيم و ثانياً بازنمايي مي

:شود مفهوم معموالً از دو روش عمده استفاده ميدر اين . شود استفاده مي آنهاي در روش كلي اول براي بازنمايي يك مفهوم از نمونه .1

ه آن مفهوم هاي يك مفهوم به عنوان نمايند روش معموالً از يك، چند و يا تمام نمونه .شود استفاده مي

. شود ها تأكيد مي در روش كلي دوم براي بازنمايي مفاهيم مختلف بر مرزهاي بين آن .2شود بلكه مرز بين دو اي از مفاهيم مختلف نگهداري نمي در واقع در اين روش نمونه

.شود اي بازنمايي مي مفهوم به گونههاي مختلفي براي بيان شباهت دو از روشهاي مختلف بازنمايي مفاهيم از سوي ديگر، روش

هاي مختلف ممكن است به صورت رو شباهت دو محرك در روش از اين. كنند محرك استفاده ميحال كه . مدل شود) شباهت و يا عدم شباهت(اي و يا حتي دودويي كميتي احتماالتي، فازي، فاصله

بيان سه نظريه معروف براي بازنمايي هاي مختلف يك روش بازنمايي مفهوم آشنا شديم به با جنبه .پردازيم مفاهيم مي

1اي نظريه نمونه -2-2-1اند بازنمايي هاي كه تاكنون از آن مشاهده شده اي يك مفهوم با تمام نمونه بر اساس نظريه نمونه

. شود هاي يك مفهوم استفاده نمي كه از هيچ قالب و يا فرم خاصي به غير از نمونه طوري شود به ميجديد را مشاهده كرد شباهت آن محرك را با تمام ) نمونه(رتيب وقتي كه عامل يك محرك بدين تهاي اگر عامل تشخيص داد كه محرك ديده شده به نمونه. سنجد هاي متعلق به يك مفهوم مي نمونه

بندي كرده و آن را به مجموعه آن محرك را به عنوان آن مفهوم طبقه،متعلق به آن مفهوم شبيه است .كند هاي آن مفهوم اضافه مي ونهنم

1 - Exemplar


١٩

هاي بازنمايي مفاهيم كه قبالً توضيح داده شدند، نظريه هاي مختلف روش بر اساس جنبهها براي بازنمايي مفهوم استفاده بندي نمود كه از نمونه هايي دسته توان در زمره روش اي را مي نمونه [Sieck 01] .شود ها تعريف مي نمونهتك بر اساس شباهت به تكشباهت آنهاكنند و معيار مي

1ها دسته نشاننظرية - 2-2-2شوند، حافظة هاي آن نگهداري مي اي براي بازنمايي يك مفهوم تمام نمونه از آنجا كه در نظريه نمونهها متعلق به ها به جاي نگهداري تمام نمونه دسته نشانرو در نظريه از اين. زيادي مصرف خواهد شد

به . شود ها براي بازنمايي مفهوم نگهداري مي مونه به نمايندگي از ساير نمونهيك مفهوم تنها يك ندسته بايد داشته باشد اين نشاناي كه ترين ويژگي مهم. شود دسته گفته مي نشاناين نمونه اصطالحاً

ها را هاي يك مفهوم شباهت داشته باشد تا بتواند همة آن است كه تا حد امكان به تمام نمونهها روش اينيكي از. هاي مختلفي وجود دارد دسته روش نشانبراي تعيين نمونه . يندگي كندنما

از اينجا . شود ها تعريف مي دسته به عنوان ميانگين ساير نمونه نشانميانگين است كه در آن نمونه ديده شده باشد هاي واقعي دستة الزاماً نبايد يكي از نمونه نشانتوان به اين نكته پي برد كه نمونه مي

روش ديگر براي . هاي واقعي شباهت دارد تواند يك نمونه فرضي باشد كه به همه نمونه بلكه مياي كه هاي يك مفهوم است بدين ترتيب كه نمونه دسته استفاده از فركانس مشاهده نمونه نشانتعيين

.شود دسته انتخاب مي نشانها مشاهده شده باشد به عنوان بيش از ساير نمونهها براي گيرد كه از نمونه هايي براي بازنمايي مفاهيم قرار مي ها در زمرة روش دسته نشاننظريه

ها دسته نشانكنند و معيار شباهت بر اساس شباهت محرك ديده شده با بازنمايي مفاهيم استفاده مياي، با روش نمونهشود تا عالوه بر مصرف كم حافظه در مقايسه اين مسأله باعث مي. شود تعريف مي

.ها از سرعت محاسباتي بيشتري نيز برخوردار باشد دسته نشانروش

2نظريه قواعدي -2-2-3در نوع خاص اين قواعد كه . شود در نظريه قواعدي از قواعد شرطي براي بازنمايي مفاهيم استفاده مي

هاي متعلق هاي محرك ند با معين كردن حدود مشخصي براي ويژگي هستها معروف به قواعد ويژگيدر واقع نظريه قواعدي . شود يك مفهوم بيان ميبه تعلق عمالً شروط الزم و كافي براي ،به يك مفهوميعني همان (ها شود كه در آنها مفاهيم با مشخص كردن مرز بين آن بندي مي هايي طبقه در زمرة روش

1 - Prototypes Theory 2 - Rules Theory


٢٠

ي كالسيك اين نظريه به ها همچنين معيار شباهت در بسياري از روش. دنشو بازنمايي مي) قواعدكند كه آيا محرك مشاهده بدين معني كه هر قاعده به صورت قطعي تعيين مي. استصورت دودويي

ميزان شباهت به صورت يك كميت عددي بيان يعني( .شده متعلق به يك مفهوم است و يا نه .)شود نمي


٢١

هاي يادگيري مفاهيم روش -2-3 .پردازيم يري مفاهيم ميدر اين قسمت به ذكر چند روش مهم در يادگ

1 نام دارد كه توسط نوسوفسكيGCMهاي يادگيري مفاهيم مدل ترين مدل يكي از مهم در اين مدل يك فضاي ادراكي توسط يك فضاي چندبعدي [Nosofsky 84] .پيشنهاد شده است

شده به در اين صورت هر محرك مشاهده . هستندهاي ادراكي شود كه ابعادش ويژگي نمايش داده ميشباهت دو محرك در اين مدل نيز به صورت . صورت يك نقطه در اين فضا نمايش داده خواهد شد

چارچوب پيشنهادي در اين . شود يك تابع نزولي نمايي از فاصلة دو محرك در فضاي ادراكي بيان مي روش ها در فضاي ادراكي و محاسبه ميزان شباهت دو محرك از نامه براي بازنمايي محرك پايان

GCM بهره برده است. شود اي براي بازنمايي مفاهيم استفاده مي از نظريه نمونه GCMشايان ذكر است كه در مدل

عالوه بر اين، . شوند هاي متعلق به يك مفهوم بر بازنمايي آن نگهداري مي بدين معني كه تمام نمونههاي مختلف يك محرك را كنترل گيرا دارد كه بتوان در آن ميزان توجه به ويژ اين مدل قابليت آن

كنند استفاده هاي يادگيري مفاهيم كه ميزان توجه را نيز كنترل مي توان از آن در مدل رو مي از اين. كرد .نمود

. پيشنهاد شده است3كروشكي نام دارد كه توسط 2الكووپردازيم مدل مدل بعدي كه به آن مي[Kruschke 92]هر نود . است كه از سه اليه تشكيل شده است4ور اين مدل يك شبكه عصبي پيش

بر اساس مقدار محرك ورودي آنورودي متناظر با يكي از ابعاد فضاي ادراكي است كه ميزان فعاليتهاي به هر يك از ويژگي5هاي اليه اول ميزان توجه هاي سيناپس وزن. شود در آن راستا تعيين ميبتدا مساوي هستند ولي در طي فرآيند يادگيري اصالح اين وزنها در ا. كنند ورودي را مدل مي

رسيم كه هر يك معادل يك نمونه در فضاي ادراكي پس از آن به نودهاي اليه دوم مي. شوند مي هر ميزان فعاليتكه ها هستند دسته نشانها در نظريه دسته نشاناين نودها در واقع متناظر با . هستند

. سازد دسته متناظر با هر نود را مشخص مي نشانهت محرك ورودي با در واقع ميزان شباها يك از آنتوان عالوه بر شايان ذكر است كه مي. گردد محاسبه مي GCMاين ميزان شباهت نيز مشابه با مدل

1 - Nosofsky 2 - ALCOVE 3 - Kruschke 4 - Feed forward 5 - Attention


٢٢

در اين صورت هر نود اليه مياني . استفاده نمودالكوو ها نيز در مدل ها از نظريه نمونه دسته نشاننظريه .گردد ه ثبت شده متناظر ميبا يك نمون

يك مفهوم و خروجي آن بيانگر ميزان تعلق محرك بااز سوي ديگر هر نود اليه خارجي معادلو خروجي نيز ارتباط بين هاي بين الية مياني هاي سيناپس وزن. ديده شده به آن مفهوم است

گر مدل پيشنهادي در اين ذكر اين نكته ضروري است كه ا. كنند ها و مفاهيم را مدل مي دسته نشانخواهد الكوو نامه در قالب يك شبكه عصبي بازنمايي شود آن شبكه عصبي بسيار شبيه به مدل پايان

بود با اين تفاوت كه الگوريتم يادگيري در مدل پيشنهادي تلفيقي از يادگيري تقويتي و يادگيري بيزي شبكه عصبي 4- 2شكل . شود فاده مياز يادگيري با سرپرست استالكوو است در حالي كه در مدل

.دهد را نمايش ميالكوو مدل

[Kruschke 92] شبكه عصبي مدل الكوو-4-2 شكل

[Kruschke 99] . استالكوويافته مدل نام دارد كه در واقع توسعه1مدل بعدي مدل راشنلغيير وزن اي طراحي شده است كه در آن ت به گونهراشنل تفاوت اصلي اين دو مدل اين است كه مدل شود كه عامل تنها با ديدن پذيرد كه اين مسأله باعث مي توجه در اليه اول خيلي سريع صورت مي

.ها را به سرعت ياد بگيرد هاي مختلف آن چند محرك ميزان توجه به ويژگي

1 - RASHNL


٢٣

هايي كه تاكنون ارائه شد اي با مدل هاي عمده نام دارد كه تفاوت1مدل بعدي مدل لنگليشود كه خود آن ر اين مدل هر مفهوم به صورت نودي در يك درخت نمايش داده ميد. [Iba]دارد

توان مفاهيم در واقع با استفاده از مدل لنگلي مي. مراتب مفاهيم است درخت بيانگر سلسله . مراتبي را مدل نمود سلسله

تر آئيم د و هر چه پائيننشو تر و مجردتر مي هرچه در درخت مذكور باالتر رويم مفاهيم كليبايد توجه داشت كه مدل لنگلي براي بازنمايي مفاهيم برخالف . شوند تر مي تر و ملموس مفاهيم جزئي

متناظر با يك نود در (كند بلكه براي هر مفهوم ها استفاده نمي هاي مرتبط با آن هاي قبلي از نمونه مدل از سوي ديگر مدل لنگلي يك مدل .كند هداري ميها را نگ هاي مهم و مقادير معتبر آن ويژگي) درخت

آن و توزيع توابع 2احتماالتي است بدين معني كه براي هر يك از مفاهيم موجود توزيع پيشين يك درخت 5- 2شكل . شوند هاي مرتبط با آن مفهوم ياد گرفته و نگهداري مي ويژگي3نمايي درست

.اند هاي مرتبط با هر نود مشخص شده دهد كه در آن توزيع احتمال مفاهيم در مدل لنگلي را نشان مي

[Iba] قسمتي از درخت مفاهيم در مدل لنگلي-5-2 شكل

شايان ذكر است كه يادگيري و تشكيل درخت مفاهيم در مدل لنگلي به صورت بدون طي زمان يعني در ابتدا مفاهيم كلي وجود دارند و در. پذيرد سرپرست و از باال به پائين صورت مي

.گردند هاي مشخصي ايجاد مي تر با مكانيزم تر و ملموس مفاهيم جزئي 1 - Langley 2 - Prior Distribution 3 - Likelihood Distribution Function


٢٤

تواند اند كه مي سازي شده هاي واقعي نيز طراحي و پياده بر اساس مدل لنگلي يك سري سيستمروش . اشاره نمود4و آكسبو [Martin 94] 3، توئيليكس2، آراكني [Fisher 87] 1از ميان آنها به كابوب

نامه نيز از لحاظ بازنمايي احتماالتي و بيزي مفاهيم به روش لنگلي شباهت ي در اين پايانپيشنهاد .دارد

يابي كه از نظر مكانيزم به مدل پيشنهادي در هاي خوشه يك دسته از الگوريتماز سوي ديگر، ها با در اين روش. [Baraldi 98] هستند ART 5هاي مبتني بر نامه شباهت دارند، روش اين پايان

اي فضاي ورودي به صورت شود كه ساختار خوشه تعريف يك معيار شباهت نامتقارن سعي ميشود از يك ناظر خارجي سعي ميبازخوردها همچنين با دريافت در اين روش. تدريجي به دست آيد .ها در دنياي واقعي تخمين زده شود تا اندازه واقعي خوشهيابي هستند و نه روش يادگيري مفاهيم، از هاي خوشه ش روARTهاي مبتني بر با اينكه روش

ها در فضاي ورودي به صورت تدريجي، به روش نظر به دست آوردن توزيع پراكندگي نمونهها معادل با در اين روش6در واقع عناصر پردازشگر. نامه شباهت دارند پيشنهادي در اين پايان

هاي روش م است به اين نكته توجه شود كه هدف اصلي البته الز.ها در روش حاضر هستند دسته نشانها توان از آن از اين رو نمي.گيري در آن يابي فضاي ورودي است و نه تصميم خوشهARTمبتني بر

.هايي كه قرار است در محيط واقعي زندگي كنند استفاده كرد به تنهايي در عاملكنيم يك روش مبتني بر يادگيري ي ميآخرين روش يادگيري مفاهيم كه در اين قسمت بررس

در . پيشنهاد شده است [Mobahi 05] است كه توسط مباهي [Billard 01]تقويتي و يادگيري تقليدي، مدل يادگيري [Buccino 04] در مغز الهام گرفته است7اي هاي آينه اين روش كه از عملكرد عصب

فضاي ادراكي، فضاي : ار فضا عبارتند ازاين چه. مفاهيم از چهار فضاي متوالي تشكيل شده استكل فرآيند يادگيري در يادگيري سه نگاشت بين اين چهار . ها، فضاي مفاهيم و فضاي پاسخ دسته نشان

از سوي ديگر از يادگيري تقليدي به منظور يادگيري در فضاي پاسخ براي توليد . شود فضا خالصه مي .دهد ار شماتيك اين مدل را نشان مي نمود6- 2شكل . گردد پاسخ بهينه استفاده مي

1 - COBWEB 2 - ARACHNE 3 - TWILIX 4 - OXBOW 5 - Adaptive Resonance Theory 6 - Processing Elements 7 - Mirror Neurons


٢٥

[Mobahi 05] مدل مباهي براي يادگيري مفاهيم -6-2 شكل

شود تا مدت و بلندمدت سعي مي هاي كوتاه عالوه بر اين در مدل مباهي با استفاده از حافظه .هاي طبيعي نزديك باشد مدل تا حد امكان به سيستم

كلي مدل مباهي در يادگيري ايده حاضر از نامه شايان ذكر است كه روش پيشنهادي در پايانتفاوت اصلي مدل پيشنهادي با مدل مباهي اين . كند مفاهيم با استفاده از يادگيري تقويتي پيروي مي

ها و دسته نشاناست كه در مدل پيشنهادي از چارچوب بيزي و احتماالتي براي يادگيري، ايجاد .يابي استفاده شده است خوشه


٢٦

گيري و نتيجهخالصه -2-4هاي مطرح همچنين برخي از نظريه. آشنا شديم آن ، انواع و فلسفه وجودي"مفهوم"در اين فصل با

هاي در قسمت پاياني اين فصل نيز برخي از مدل. نددر بازنمايي مفاهيم مورد بررسي قرار گرفتنامه در اين پايانشده براي يادگيري مفاهيم تشريح و شباهت هر يك با مدل پيشنهاديمحاسباتي ارائه

گيرد كه هايي قرار مي كه مدل پيشنهادي در زمره روشطي اين بررسي مشخص شد. بررسي شد از اين رو اگر اين مدل را در قالب يك شبكه عصبي .كنند اي بازنمايي مي دسته نشانمفاهيم را به شكل

دليل استفاده از چارچوب ، به از سوي ديگر. بيان كنيم بسيار به مدل الكوو شباهت خواهد داشت. توان آن را به نوعي شبيه به مدل لنگلي دانست گيري بيزي در مدل پيشنهادي مي احتماالتي و تصميم

كلي مدل مباهي به منظور مديريت كردن كل ايدهگونه كه بيان شد مدل پيشنهادي از نهايتا همان در فصل چهارم مدل پيشنهادي به تفصيل .كند فرآيند يادگيري با استفاده از سيگنال تقويتي پيروي مي

جا كه اين مدل بر پايه چارچوب بيزي استوار شده است، الزم است كه ابتدا با شود اما از آن بيان مي .فصل بعدي بدين منظور تنظيم شده است. طور دقيق و كامل آشنا شويم اين چارچوب به

سومفصل 3 چارچوب بيزي

3 3


٢٨

چارچوب بيزي–فصل سوم

٢٩

اين با استفاده از . استسازي دنياي غني و پيچيدة اطراف ما راي مدل روشي طبيعي بچارچوب بيزيهاي متفاوتي مانند عملآن نمود و با استفاده از فسيرتوان ساختار ذاتي يك فرآيند را ت ميچارچوب

را زيربراي درك اهميت اين موضوع مثال . پذير نمود استنباط احتمالي و يادگيري را به سادگي امكانخواهيم براي يك دامنة دلخواه مدلي از توزيع احتمال توأم مجموعه فرض كنيد مي. گيريدبدر نظر

}متغيرهاي تصادفي }NXX ,...,1=Xترين مدل كه تمام متغيرها حتي براي ساده. دست آوريم ه را ب انتساب مختلف براي نمايش اين توزيع محاسبه و N2دودويي در نظر گرفته شوند، بايد احتمال

وح نمايان است كه بدون در نظر گرفتن نظمي كه در اين دامنه وجود دارد عمل به وض. ذخيره گردد هاي بيزي چارچوب بيزي و به خصوص شبكهيكي از خواص مهم . فوق مقرون به صرفه نخواهد بود

تواند اين توزيع احتمال توأم اي است كه مي گونه ه كردن روابط استقالل شرطي و استفاده از آن بمدلسازي توان به مدل همچنين از خواص مهم ديگر اين روش مي. فشرده در خود حفظ كندرا به صورت

عدم قطعيت با استفاده از عملگرهاي احتماالتي و تعيين توزيع پيشين بر روي پارامترها و ساختار ذاتي كه در محيط موردنظر وجود نظمتواند در نهايت، بازبيني كيفي ساختار مدل مي. مدل اشاره كرد

.رد و برخي روابط علت و معلولي را نمايان سازددا تا به كمك آن مطرح گرددچارچوب بيزيدر اين فصل سعي بر آن است تا كلياتي در مورد

.كار گرفته شده در مدل پيشنهاد شده در فصل چهارم ميسر گردد ههاي ب درك بسياري از روش


٣٠

هاي بيزي شبكه -3-1اي از متغيرهاي تصادفي احتمال توأم بر روي مجموعهاي از توزيع يك شبكة بيزي نمايش فشرده

اين مدل شامل يك گراف است كه به صورت كيفي روابط استقالل ميان متغيرها را در خود . استكند و همچنين شامل پارامترهايي است كه به صورت كمي به همراه ساختاري كه گراف ذخيره ميهاي بيزي شبكهكالسيكدر ادامه تعريف . ندنك مينمايد يك توزيع منحصر به فرد ايجاد ارائه مي

سازي روابط استقالل توسط چگونگي ذخيره در موردشود و سپس در بخش بعدي آورده مي .شود ساختاري مانند گراف بحث مي

=⟩Θ⟨ يك شبكة بيزي 1-1-3تعريف ,GB نمايانگر توزيع احتمال توأم بر روي مجموعة }X,...,X,X{متغيرهاي تصادفي 21 n=X دار جزء اول گراف جهت. شود مي شامل دو جزءواست

هاي آن متناظر با متغيرهاي تصادفي است و ساختار آن روابط استقالل است كه گرهGبدون دور است كه توزيع Θاي از پارامترهاي جزء دوم آن مجموعه. نمايد را در خود ذخيره مي1ماركوف

)|( 2احتمال شرطي iiXP Pa را براي هر متغير تصادفيXiآنان به شرط داشتن پدر Pai تعيين .نمايد مي

1- Markov Independence statements 2- Conditional Probability Distribution


٣١

روابط استقالل و وابستگي -3-2 .شود هاي بيزي از مفهوم استقالل شرطي استفاده مي در قلب شبكه

در صورتي كه است Z به شرط Y مستقل از Xشود گفته مي1-2-3تعريف

0)()(),( >= ZZXZYX PwhenPP ZYX )(. شود و با عبارت زير نوشته مي ⊥= IndP.

نشان داده شده است )الف (1-3شكل در كه [Pearl 88]اين مفهوم را با استفاده از مثالي از و يا با (B)تواند يا با دزدي دهد كه مي را نشان مي(A)خانه اين گراف يك دزدگير. دهيم توضيح مي

اگر دزدگير توسط هر كدام از اين وقايع. شوند اين وقايع مستقل از هم فرض مي. فعال شود(E)زلزله عالوه بر آن . از خانة همسايه مورد انتظار است(C) يتلفن تماسطور خودكار فعال شود يك يا بهو

تلفن ،اگر ما بدانيم كه دزدگير فعال است. همراه است(R)اي معموالً با يك خبر از راديو هر زلزلههمچنين يك خبر از راديو راجع به . دشو همسايه به وضوح مستقل از علت فعال شدن دزدگير مي

ولي اگر .دهد ه احتمال وقوع دزدي هنگامي كه دزدگير فعال است كاهش ميبنسبت ه اعتقاد ما را لزلزحال روابط استقالل و وابستگي كه . تأثير خواهد بود اي اتفاق افتاده است اين اطالع بي هلبدانيم كه زلز

.كنيم د را تعريف مينگير به صورت شهودي در ذهن ما شكل مي

هاي آن متناظر با نودگيريد كه ب در نظر راGدار بدون دور گراف جهت2-2-3تعريف },...,{متغيرهاي تصادفي 1 nXX=X شود گفته مي. هستندG ماركوف را مستقل يك سري عبارات : اگركند در خود ذخيره مي

،باشد Gنوادگانش در از غير به نودهاساير به شرط داشتن پدران آن مستقل ازiXهر متغير )antsNonDescend( iXii i

XIndX Pa⊥∀ Markov)(و مجموعة اين عبارات را با Gدهيم نمايش مي.

توان با استفاده از قوانين احتمال مي. دده ماركوف را نشان ميمستقل مفهوم عبارات 2- 3شكل Markov)( بيشتري از مستقلعبارات Gتوان مي)الف (1-3شكل به عنوان مثال در . استخراج كرد

)گفت )ERAInd ),,()(اين عبارت از روي . ⊥ EARIndECBARInd و تقارن در ⊥⇒⊥ موردكه در ه تمامي روابط استقالليتوان دريافت ك به طور مشابه مي. شود استقالل ناشي مي


٣٢

اين ساختار چندين عبارت استقالل . مثالي از يك ساختار شبكة بيزي ساده براي محيط دزدگير) الف (1-3 شكل

): دهد شرطي را نشان مي )BEInd ⊥ ،( )EBRAInd ,⊥ ،),,( ECBARInd و ⊥),,( AREBCInd شكل توزيع احتمال توأم به صورت حاصلضرب . ⊥

)()(),()()(),,,,( ACPERPEBAPEPBPRECBAP وزيع يك نگاشت استقالل از ت) ب. (است= ).الف(ذخيره شده در ساختار

آن پدران مقادير مستقل از غير نوادگانش به شرط داشتنX. شرطيمستقلمثالي براي نمايش عبارات 2-3 شكل

.است

ماركوفي كه در گراف آن ذخيره شده به صورت مستقلمحيط دزدگير گفته شد از روي عبارات منجر بهرا به سادگي استخراج كرد مستقلروابط توان اين قابليت كه مي. مستقيم قابل استخراج است

:شود ميتعريف زير

arthquakeE urglaryB

dioaR larmA

allC

arthquakeEurglaryB

dioaR

larmA

allC

)الف()ب(


٣٣

را مستقل از ساير متغيرها به iX كه متغير Xي در ي كمترين تعداد متغيرها3-2-3تعريف نمايش iMB نام دارند و با iX متغير Markov Blanket (MB) ،كنند شرط داشتن اين مجموعه مي

طبق تعريف. شوند داده مي)MB}MB,{\( iiii XXInd X⊥

Markov)( فوق و عبارات از تعريف Gتوان دريافت كه ميiMB شامل پدران iX فرزندان ،iX و .استتمامي پدران فرزندان آن

Markov)(توان از را ميمستقلدر حالت كلي تعداد بسيار زيادي روابط Gاستخراج كرد .)(مانند مستقلبراي فهميدن درستي يك رابطه ZYXInd استفاده 1 از مفهوم جداپذيري مستقيم⊥

جداپذير است اگر تمام مسيرهاي Zبه شرط داشتن Y از Xتوان گفت ميطور خالصه هب. شود مي در صورتي كه داراي زير مسيري استيك مسير مسدود . مسدود باشندY و Xدار بين غيرجهت

:هاي زير باشد گره در يكي از حالت3متشكل از 1 - VZU i Z⊂iZ به طوري كه →→2 - VZU i Z⊂iZ به طوري كه ←→3 - VWU .دننباش Z در Wدام از نوادگان شكل، به طوري كه هيچ كV، يك →←

خواهد جداپذير ن Z به شرط Y از Xفتد آنگاه ز موارد فوق در يك مسير اتفاق نياگر هيچ كدام ا كارآمدي، در زماني كه متناسب با تعداد متغيرها به صورت طور توان به جداپذيري مستقيم را مي. بود

تواند توجه شود كه جداپذيري مستقيم تنها ميد باي.[Geiger 90]يابد، محاسبه نمود خطي افزايش مي اطالع است در خود ذخيره كردهG ماركوفي كه گراف مستقل كه از عبارات مستقليدر مورد روابط

)( در نتيجه، جداپذير باشند Z به شرط Y و Xيعني اگر . دهد ZYXInd اما اگر . برقرار است⊥)(ها جداپذير نباشند لزوماً به اين معني نيست كه آن ZYXInd بنابراين . نيست برقرار Pدر توزيع ⊥

د و ن وجود داشته باشPدر ممكن است كه يتواند از نبود روابط استقالل ديگر جداپذيري مستقيم نمينمايد كه هايي را معرفي مي تعريف بعدي گراف. دست دهد به اطالعي ندا در گراف ذخيره نشده

كه تنها به يديگريا با هر روش ( شوند ز يكديگر جداتوانند به وسيلة جداپذيري مستقيم ا نمي .)اطالعات ذخيره شده در ساختار گراف اكتفا كند

از نظر استقالل معادل هستند در صورتي كه2G و 1G گرافهاي 4-2-3تعريف )()( 21 GG MarkovMarkov ⇔

1- Direct Separation


٣٤

)(يعني 1GMarkov و )( 2GMarkov يكساني را تداعي كنندمستقل مجموعه روابط . ك كالس هستند درارزي دو ساختار كه متعلق به ي روش كارآمدي براي آزمودن هم

[Chickering 95]ارائه شده است .

1نگاشت استقالل -3-2-1كننده روابط استقالل ميان را توسط گرافي كه ذخيرهPم توزيع احتمال توأم هستيبه علت اينكه مايل

بررسي رابطة ميان اين گراف و توزيع ،سازي نماييم است مدلPمجموعه متغيرهاي تصادفي در دامنة .نمايد روري مياحتمال توأم ض

روي متغيرهاي تصادفي P نگاشت استقالل از توزيع G گراف 5-2-3تعريف },...,{ 21 XX=X است اگر )( GMarkovP =.

توسط هستند قابل استخراج GMarkov)( كه از مستقلياين بدان معني است كه تمام روابط ديگري نيز داشته باشد مستقلتواند روابط ميPهر چند بايد توجه شود كه . شوند ارضاء نيز Pتوزيع

همچنين، نگاشت استقالل يك . تواند باشد در نتيجه يك گراف كامل نگاشت استقالل هر توزيعي مياند، هر سه نمايش داده شده3-3شكل مثالً سه گرافي كه در . فرد نيست توزيع خاص، منحصربه

هستند هنگامي كه اين دو متغير مستقل Y و X بر روي دو متغير Pنگاشت استقالل توزيع احتمال .باشند

برقرار P و توزيع Gاي محدودتر ميان گراف بايست رابطه دهد كه مي توضيحات فوق نشان ميه بباشد ني ديگرمستقل شامل رابطة P و توزيع باشد Pنگاشت استقالل از يك Gهنگامي كه . نمود

متأسفانه اين . استP توزيع 2 نگاشت كاملGشوند، گراف استخراج ميGMarkov)(جز آنها كه از بيزي با هاي زيادي وجود دارند كه براي آنها هيچ شبكه كننده است و توزيع بطه بسيار محدودرا

بدين جهت تعريف زير را در . بين سه متغير تصادفيXORنگاشت كامل وجود ندارد، مانند رابطة :گيريم نظر مي

روي متغيرهاي تصادفي P كمترين نگاشت استقالل توزيع G گراف 6-2-3تعريف },...{ 1 nXX=X اگر يك نگاشت استقالل باشد و حذف هر يال از آن رابطة نگاشت استقالل ستا

. آن را از بين ببرد

1- Independence Map 2- Perfect Map


٣٥

توانند و ميندفرد نيست استقالل منحصربههاي توان نشان داد كه كمترين نگاشت به سادگي مي نگاشت يككهدهد را نشان ميساختار گرافي )ب (1-3شكل . كامالً با يكديگر متفاوت باشندختار براي توزيعي كه اين سا. (است )الف (1-3شكل وسيله گراف هاستقالل از توزيع تعريف شده ب

را P مهم نگاشت استقالل اين است كه تجزيه توزيع خاصيتيك ). آن يك نگاشت كامل است .توان به صورت زير بيان كرد پذيري را مي قضيه تجزيه. سازد پذير مي امكان

است اگر و تنها اگر Pنگاشت استقالل از توزيع يك G گراف 1-2-3قضيه

)3-1( ∏=

=n

iiin XPXXXP

121 )(),...,,( GPa

Gكه در آن

iPa پدران متغير i در گراف Gباشد مي. .استاي احتمال و خواص استقالل شرطي اين قضيه نتيجة مستقيم قانون زنجيره

),()()( از توزيع سه ساختار كه هر كدام يك نگاشت استقالل 3-3 شكل YPXPYXP X كه هنگاميهستند =

. از يكديگر مستقل باشندYو

فردي را توزيع احتمال منحصربهΘ و Gبا استفاده از اصل تجزيه، دو جزء شبكه بيزي، يعني . هاي بيزي نام دارد اي براي شبكه اين معادله قانون زنجيره. نمايند ايجاد مي) 1-3(به صورت معادله

وأم را به صورت فشرده، يعني با تعداد پارامترهاي اين نوع ساختار توانايي ارائه يك توزيع احتمال ت نشان الف1-3 را كه در شكل P(B,E,R,A,C)به عنوان مثال توزيع احتمال توأم . باشد كم، دارا مي

:اي و با فرض عدم استقالل داريم طبق قاعدة زنجيره. گيريدبداده شده است در نظر ),,,(),,(),()()(),,,,( AREBCPREBAPEBRPBEPBPCAREBP =

. پارامتر نياز دارد31=16+8+4+2+1اين نمايش به دويي فرض شوند، در صورتي كه همة متغيرها دو :توان نوشت گيريم ميبحال اگر فرض استقالل را در نظر

)(),()()()(),,,,( ACPEPAPERPEPBPCAREBP = متغير N روي Gدر حالت كلي اگر . پارامتر نياز است10=2+4+2+1+1كه در اين نمايش تنها به

شد، آنگاه به باK) نود يك انحداكثر تعداد پدر(دودويي تعريف شود و حداكثر درجة ورودي آن

X Y X Y X Y

)الف( )ب( )پ(


٣٦

12 با ي توزيعجاي نمايش −Nتوان با حداكثر پارامتر مستقل ميNK2 پارامتر مستقل آن را ذخيره .كرد

، نحوة تجزيه توزيع را به صورت كيفي تعريف مستقل عالوه بر ذخيره روابط Gساختار گراف في يك سري پارامتر كي، iXبه فرد روي براي تعيين توزيع احتمال توأم منحصر. كند مي

iiX Pa|θ )(توزيع احتمال شرطي يك iXP Paتواند به هر فرمي آورند كه در حالت كلي مي را به وجود مي هر سطر جدول .استترين نوع نمايش جدول احتمال شرطي براي متغيرهاي گسسته عمومي. باشد

ن دانست مشروط بهiXكننده بردار احتمال و مشخصiPa به ipaمتناظر با يك انتساب خاص متغير دودويي باشد، جدول حاصل داراي K شامل iPaبه عنوان مثال اگر . است آن پدرانمقادير

K2و توزيع احتمال شرطي 1-3شكل مجدداً به مثال . توزيع متفاوت خواهد بود ),( EBAP دقت اين . نمايد هاي كه دزدگير ممكن است فعال شود ارائه مي شهودي از موقعيت1- 3جدول . كنيد

شود و در صورت وقوع صورت وقوع زلزله احتماالً فعال ميدهد كه دزدگير در جدول نشان مي .شود دزدي به احتمال بسيار زياد فعال مي

)|,(يك جدول احتمال شرطي ممكن براي ذخيرة توزيع احتمال شرطي 1-3 جدول EBAP در ساختار نشان ).الف (1-3گير شكل دداده شده در محيط دز

)( trueaP = )( falseaP = e b 0.04 0.96 false false 0.33 0.67 true false 0.09 0.91 false true 0.04 0.96 true true


٣٧

استنباط -3-3اي ، و همچنين محاسبه توزيع حاشيهe ،)(eP واقعه نمايي درستكلمه استنباط به معناي محاسبة

)(، X⊆Uزيرمجموعة eUP ارتباط هستند اين دو مسأله با هم به صورت زير در. است.

)(),()(

eeueu

PPP =

)(در نتيجه اگر eu,P مقادير تمامازاء را به uتوان با نرماليزه كردن، ، مي محاسبه كنيم)( euP را .محاسبه كرد

Xبه عنوان مثال فرض كنيد . اي است مسألة استنباط در حالت كلي مسألة بسيار پيچيده. ها وجود ندارد هيچ فرض استقاللي بين آنكه استاي از متغيرهاي تصادفي دودويي مجموعه

\)( را به صورت Wمجموعة EUXW U= اي توزيع حاشيه. گيريدب در نظر),( euP به صورت .زير خواهد بود

( ) ( )∑∈

=)(

,,,Ww

euweudom

PP

در . حالت نياز داريمW2اي به جمع بستن روي در نتيجه، براي محاسبة اين توزيع حاشيهتوان با استفاده از ساختار گراف از پيچيدگي استنباط تا حدودي خواهيم ديد كه مي هاي بعدي قسمتها به را براي بسياري از حالتتوانند استنباط هاي آينده مي هاي ارائه شده در قسمت روش. كاست از هاي بيزي شبكهاما مسأله استنباط در حالت كلي براي . دنهاي كارا تبديل نماي حل اي با راه مسألهدار در حالتي كه شبكة بيزي به صورت گراف جهتقضية زير اين مسأله را . است سخت - NPدستة

.كند بدون دور با جداول توزيع احتمال شرطي باشد بيان مي

: سخت است- NP مسألة زير 1-3-3قضيه )(0، آيا X از x در آن و مقدار مشخص X، متغير تصادفي Bبا داشتن شبكه بيزي >= xXPB

است؟

حذف متغير -3-3-1اي حاصل توزيع حاشيه، شرطيبرداري از روابط استقالل توان با بهره ميهاي بيزي شبكهدر بسياري از

:رپذير است به صورت زير فاكتوPفرض كنيد توزيع . موداز استنباط را به صورت كارآمد محاسبه ن


٣٨

)3-2( ( ) ( )∏=

=K

iii

PZP

1

1 dx φ

اي به وسيلة ضرب و حذف هاي حاشيه محاسبة توزيع. استXاي از زيرمجموعهidكه در آن .كنيم در نتيجه قبل از هر كاري اين دو عمليات را تعريف مي. شود فاكتورها انجام مي

را ψ و φهمچنين . اي از متغيرها باشند مجموعهWو V فرض كنيد 1-3-3تعريف :كنيم عمليات زير را روي اين فاكتورها تعريف مي. گيريدبمتناظراً در نظر W و Vفاكتورهايي براي

ψφل ضرب صحا: ضرب WVU فاكتوري بر روي ⋅ U= است به صورت زير.

)()())(( wvu ψφψφ ⋅=⋅ VWمجموعه متغيرهاي : اي محاسبة توزيع حاشيه اين صورت توزيع در . گيريدب را در نظر ⊃

.شود به شكل زير محاسبه ميW به Vاي از حاشيه

∑=WV

vw\

)()( φψ

XUخواهيم جدول توزيع احتمال زيرمجموعه فرض كنيد مي يك روال ساده به . را محاسبه كنيم⊃=∑: يماين ترتيب خواهد بود كه تمام مقادير را با يكديگر جمع بزن

UXxu

\)()( PP . اما در اين

اي را با روش حذف متغير توزيع حاشيه. خواهد بود نماييXصورت ميزان محاسبات برحسب اندازة اين روش روي متغيرهايي كه . نمايد استفاده از فرم تجزيه شده توزيع به صورت كارآمدي محاسبه مي

شود تا جمع بسته ميU∉kXدر هر مرحله يكي از متغيرها . كند وجود ندارند حركت ميUدر .دهد اين روش را نشان مي4-3شكل . گرددفاكتور توزيعي كه شامل اين متغير نيست حاصل

توزيع احتمال توأم در يك زنجيره ماركوف به . گيريدببه عنوان مثال يك زنجيرة ماركوف را در نظر :صورت زير است

)3-3( ( )∏=

−=n

iii xxPxPP

211)()(x

1x(P(خواهيم فرض كنيد تمام متغيرها دودويي هستند و مي n ترين در ساده. را محاسبه نماييم=

1nبراي هر جمله نياز به . خواهد بود جمله2n-1روش نياز به جمع بستن ضرب داريم كه در −)1(12مجموع −− nnكنيم تعريف مي، ابتدابا استفاده از روش حذف متغير. ضرب خواهد بود

)()( 111 xPx =ψ كنيم از رابطه زير استفاده ميسپس در هر مرحلهو:

∑−

−−− ⋅=1

)()()( 111ix

iiiiii xxPxx ψψ


٣٩

باابرهاي انجام شده بر داشت و مجموع ضربيم ضرب خواه2 جمع و 2در نتيجه، هر مرحله نياز به )1(2 −⋅ nدر حالت كلي پيچيدگي محاسباتي روش حذف متغير متناسب با اندازة كلي . شود مي

خواهد حافظه نيز متناسب با اندازة بزرگترين خوشه مياني از نظر پيچيدگي. استهاي مياني خوشه .اين اندازه نيز به ترتيب حذف متغيرها و ساختار گراف وابسته است. بود

UXدر هر مرحله فقط يك متغير از . X از Uاي روال حذف متغير براي محاسبة توزيع حاشيه4-3 شكل به \

.گردد شوند حذف مي وسيلة فاكتورهايي كه آن را شامل مي

1الگوريتم درخت تقاطع -3-3-2 كه توانايي پاسخ به چند باشد ميهاي بيزي شبكهالگوريتم درخت تقاطع يك الگوريتم استنباط براي

اين الگوريتم قادر است توزيع ،eبا دريافت مشاهدة . باشد زمان دارا مي درخواست را به طور همهاي آن را در زماني كه پيچيدگي موعهج و برخي از زيرمXاحتمال شرطي تمامي متغيرهاي مجموعة

زمان چند درخواست به اسبة همقابليت مح. پيچيدگي يك درخواست است محاسبه نمايد باآن برابرهاي يادگيري نيز ضروري و عالوه بر آن براي الگوريتمشود محسوب مي مهمي امتيازخودي خود

.است

1- junction tree algorithm

Variable Elimination Procedure Input:

- A factored distribution ( ) ( )∏=

=K

iii

PZP

1

1 dx φ

- A subset XU ⊂ Output: The probability table )(UP WUXW // \← is the set of variables that should be marginalized. FF //}{ 1

kii =← φ is the set of intermediate factors.

while W is not empty do, choose a variable }{\, kk XX WWW ←∈

}(|{ ), φφφ domX k ∈∈←′ FF

∑ ∏ ′∈←

kX Fφφψ

}{}{ ψUF\FF ′←

∏ ∈←

Fφφ

pZP 1)(U


٤٠

اين الگوريتم فاكتورهاي . كند سازي پويا استفاده مي الگوريتم درخت تقاطع از روش برنامهفاكتورهاي مياني مربوط به . نمايد ميكند و از آنها در محاسبات مختلف استفاده مياني را ذخيره مي

:شود كه به صورت زير تعريف ميهستندساختار مخصوصي به نام درخت تقاطع

هاي و مجموعه يالIهاي نود با مجموعه T يك درخت تقاطع درختي مانند 2-3-3تعريف E هر گره . استI∈i در ارتباط با مجموعة XC ⊆iبراي هر يال . به نام خوشه استE∈),( ji

jijiكننده كه مجموعة يك جدا CCS I=),(يك درخت تقاطع داراي خاصيت زير . است وجود داردj ، ji و iبراي هر : است CC Iها در مسير در تمام خوشهi به jوجود دارد .

د نشو تعريف مي)2-3(رابطه به صورت كهالگوريتم درخت تقاطع مدلي كه به وسيله توابعيeEرا به همراه مشاهدة الگوريتم درخت تقاطعي است كه هر خروجي اين. كند دريافت مي=

و iC عالوه بر آن هر خوشه. خواهد بود زيرمجموعة يك خوشه ،زيرمجموعه از فاكتورهاي آن),(جداكننده jiS در ارتباط با يك تابع پتانسيل كه نماينده توزيع احتمال شرطي )( eCii P=φ و ( )eS ),(),( jiji P=φ 5-3شكل يك درخت تقاطع از شبكة بيزي )ب (5- 3شكل . خواهد بود است

.دهد ا نشان مي ر)الف( را به صورت Xتواند احتمال پسين روي خاصيت اصلي درخت تقاطع اين است كه مي

:اي در خود ذخيره كند فشرده

( ))(

)()|(

)(

),(),(),(),(),( jijiEji

iiIi

jiEji

iIi

PP

PS

CeS

eCex

φφ

∏∏

∏∏

∈

∈

∈

∈ ==

اي از متغيرها را محاسبه توان احتمال پسين مجموعه با در اختيار داشتن درخت تقاطع به راحتي ميتوان با استفاده از داشته باشد، مي قرارCمانند در يك خوشهUدر صورتي كه مجموعة . نمود

.اي، احتمال پسين آن را پيدا كرد محاسبة توزيع حاشيه


٤١

ها نمايانگر يض، بي)الف(ع متناظر با شبكة بيزي شكل طدرخت تقا) ب. (يك شبكة بيزي ساده) الف( 5-3 شكل

.ها هستند ها نمايانگر جداكننده ها و مستطيل خوشه

درخت تقاطع اين است كه به شرط داشتن تمام متغيرهاي ها در يكي از خواص مهم جداكنندهجداكننده، توزيع احتمال زيرمجموعه متغيرهاي يك طرف آن در درخت تقاطع مستقل از زيرمجموعه

در )ب (5- 3شكل توان ديد كه در درخت تقاطع براي مثال مي. متغيرهاي طرف ديگر آن خواهد بود .شوند مي {X5,X6} مستقل از متغيرهاي {X1,X2} متغيرهاي X4 و X3صورت داشتن

پيچيدگي محاسباتي الگوريتم درخت تقاطع با مجموع اندازه دامنة تمامدر اينجا دو . خواهد بوددر نتيجه نسبت به اندازة بزرگترين خوشه نمايي . ها نسبت خطي دارد خوشه

مذكور با استفاده از دو روش اه هاي بيزي كه استنباط دقيق در آن هاي بارزي از شبكه نمونه از مثال راهاي متراكم يك شبكه بيزي دو اليه با يال6-3شكل . شود مقرون به صرفه نيست نشان داده مي

توزيع احتمال . توانند تعداد زيادي پدر داشته باشند هاي الية دوم مي نوددر اين شبكه . دهد نشان مي ارائه ها اي از آن كنند تا بتوان نمايشي فشرده ره مي ذخيمتريها را به صورت پارا گونه شبكه محلي اين

حالتي را نشان 7-3شكل . كند از پيچيدگي نمايي استنباط جلوگيري نمي اما فرم پارامتري.كرداين . ها تعداد محدودي پدر داشته باشند نوددهد كه استنباط بسيار سخت است حتي اگر تمامي مي

iسته به زمان با متغيرهاي مخفيشبكه بيزي نمايانگر يك فرآيند وابtX و متغيرهاي آشكار tO است .

اندازه . متغير مخفي براي هر برش زماني نشان داده شوند Nند با نتوا هاي مخفي مي حالتدر نتيجه، است N+1شود حداقل هايي كه توسط روش حذف متغير يا الگوريتم درخت تقاطع ايجاد مي خوشه

)2(مرتبة بنابراين پيچيدگي استنباط از NO خواهد بود. مسأله ساختن درخت تقاطع بهينه، يعني درختي كه كمترين زمان محاسبات را براي استنباط

هاي ذكر شده و روش ساخت جزئيات روش. [Corneil 87]سخت است - NPبطلبد، يك مسألة


٤٢

توان در درخت تقاطع، نحوة استفاده از آن و همچنين اثبات خواص اين روشها را مي[Pearl 88, Jensen 96, Cowell 99]دنبال كرد .

استنباط تقريبي -3-3-3 نتيجه عملي براي چند مدل يك نشان داده شد،1- 3-3قضيه پيچيدگي نظري استنباط دقيق، كه در

اگرچه تقريب . استهاي استنباط تقريبي روشاستفاده ازاين نتيجه . آورد دنياي واقعي به بار ميهاي تقريبي بسياري ، الگوريتم[Dagum 97] استسخت -NPاي اي نيز مسأله توزيع احتمال حاشيه

. را افزايش دهندها استنباط در آن وهاي بيزي شبكهاند تا دامنه كارايي به وجود آمده

.يك شبكة بيزي دو اليه با يالهاي فراوان 6-3 شكل

غير حالت مخفيت م3بيزي متغير با زمان شامل يك شبكة 7-3 شكل

هاي تخمين بسياري سخت است، الگوريتم- NP در حالت كلي دقيقبه علت اينكه استنباط ها براي به عنوان مثل برخي از الگوريتم. اند هاي خاص به وجود آمده هاي با ويژگي براي توزيع

كارايي بعضي از . كامالً تصادفيهاي ، برخي براي توزيع هستند هاي متمركز مناسب توزيعهاي هايي مخصوص توزيع همچنين الگوريتم. هاي ديگر نيز به ساختار گراف بستگي دارد الگوريتم

.وابسته به زمان وجود دارند


٤٣

هاي تقريبي تصادفي هستند كه بر اساس اي از الگوريتم دسته1هاي مونت كارلو روشهاي چند متغيره موجب ايجاد برداري از توزيع چيدگي نمونهپي. كنند برداري از توزيع كار مي نمونه

نمايد و هايي پشت سر هم توليد مي شود كه نمونه مي [Mackay 98] 2كارلو زنجيرة ماركوف مونت سرعت همگرايي از قبل مشخص البته. ها به توزيع واقعي همگرا شود كند توزيع اين نمونه تضمين مي

MCMCهاي روش. بسيار طوالني الزم باشد تا همگرايي رخ دهدنيست و امكان دارد مدت زمانهاي تصادفي براي نمونة ديگري از الگوريتم. باشد هاي كامالً تصادفي مناسب مي براي توزيع

مرزي نباشد، يعني به صفر يا يك نزديك نباشد، ها اي كه احتماالت شرطي آن هاي بيزي شبكه احتمال زياد تقريب خوبي در ااين الگوريتم ب. باشد مي[Dagum 97] 3الگوريتم واريانس محدود .نمايد اي است ارائه مي زماني كه از مرتبة چندجمله

، هستنداي مناسب هاي قله هاي تقريبي قطعي، كه براي توزيع يك دسته از الگوريتمحتمال باال به جستجوي نقاطي با ا5شهوديها به صورت اين الگوريتم. هستند 4هاي جستجو الگوريتم

الگوريتم مقيد توان ميبه عنوان مثال . زنند اي از اين نقاط تقريب مي روند و توزيع را با مجموعه ميتوانند محدودة كارايي خود را بالفاصله تعيين ها مي اين الگوريتم. را نام برد[Dagum 97]محدود .دن با نقاط محتمل نباششود كه مشاهدات سازگار ولي ضعف آنها هنگامي نمايان مي. نمايند

ها اين الگوريتم. هستندهاي تقريب ساختاري ي تقريبي، الگوريتم دستة مهمي از الگوريتمهافرضيات . دهند سازي ساختار گراف انجام مي قطعي هستند و محاسبة احتماالت را به وسيله ساده

باشد، سازي شامل موارد زير مي ساده )باشد ها مي آن حذف برخي يالكه نتيجه(فرضيات استقالل اضافي • هاي نامربوطنودحذف • نودكاهش حاالت يك • هاي پارامتري در روشتر براي نمايش توزيع احتمال شرطي محلي هاي ساده استفاده از مدل •

كارلو هستند، ولي دقت آنها بستگي به نوع هاي مونت ها معموالً سريعتر از روش اين الگوريتمها داراي قابليت ايجاد تعادل ميان پيچيدگي محاسبات عموماً اين الگوريتم. رد داها آنهاي سازي ساده

.هستندو دقت محاسبات

1- Monte Carlo 2- Markov Chain Monte Carlo (MCMC) 3- Bounded-variance Algorithm 4- Search Algorithms 5- Heuristic


٤٤

. هايي است كه اخيراً مورد توجه زيادي قرار گرفته است از جمله الگوريتمvariationalتقريب . ا هستندرا دار ند و مزايا و معايب آنگير در دستة ترتيب ساختاري قرار مي كهها اين نوع الگوريتم

اي براي محاسبة احتماالت موردنظر فراهم نمايند و توانند محدوده ها مي عالوه بر آن اين الگوريتم .هاي يادگيري مفيد واقع شوند جهت براي الگوريتم بدين

باز در اين قسمت ها هاي استنباط تقريبي، ما را از پوشش كامل آن تعداد بسيار زياد الگوريتمروش انتشار اعتقاد از توان ميهاي تقريب، از الگوريتمي ديگرفقط به عنوان نمونة جالب. دارد مي

به وسيلة هاي موجود در ساختار گراف را اين الگوريتم احتمال پسين خانواده توزيع. نام برد1دوريتأثير حتدر اين روش هر خانواده تمامي همسايگان خود را ت. نمايد روز ميهاي محلي به انتقال پيامدر . اين روش معادل الگوريتم درخت تقاطع است2اتصالي تك هاي بيزي شبكهبراي . دهد قرار مي

ميان اين الگوريتم و راتحقيقات اخير رابطة جالبي. غير اين صورت يك الگوريتم تقريبي خواهد بود .[Freeman 00]د نده نشان ميvariationalهاي روش

1- Loopy Belief Propagation 2- Singly Connected


٤٥

ة كامليادگيري پارامترها با داد -3-4، مدلي است كه به كمك ساختارها و پارامترهاي دروني خود هاي بيزي شبكه، مانند 1يك مدل مولد

از كه بيزيبشبدين علت هنگام يادگيري . هاي مشاهده شده را مشخص كند بتواند نحوة توليد داده وسيله آن توليد ها به كه داده*Pخواهيم توانايي فراگيري درست توزيع احتمال واقعي روي داده، مي

كه نگاشت استقالل Gخواهيم ساختاري با كمترين اجزا به عبارت ديگر مي. اند را دارا باشد شدهتوانايي ما در انجام اين كار به وضوح به . باشد را به همراه پارامترهاي آن تعيين نماييم مي*Pتوزيع

توان به وسيلة ها را نمي توزيع ازطور كه قبالً بحث شد برخي همان. قدرت مدل بستگي خواهد داشتتواند توانايي ما را براي هاي احتمال شرطي نيز مي همچنين انتخاب توزيع. يك شبكة بيزي ذخيره كرد

. محدود كند*Pيادگيري يا مشابه و*Pبه جاي در اختيار داشتن . تر نيز مواجه هستيم در عمل ما با يك مشكل اساسي

هاي آموزشي توليد شده از آن، تعداد محدودي از دادهآن تعداد نامحدودي نمونة ]}[],...1[{ Mxx=D كه به صورت مستقل از هم از توزيع P*با در . در اختيار داريم رااند توليد شده

خواهيم به شكلي مدل ، مي است به ما رسيدهDاختيار داشتن اطالعات محدودي كه از طريق ⟩Θ⟨= ,GB را به نحوي كه بهترين تقريب براي P*الزم كهدر نتيجه ممكن است. باشد بياموزيم

ها اتفاق افتاده را شود و تنها به علت محدود بودن تعداد نمونه مشاهده ميDشود رفتارهايي كه در Dبه خصوص، براي جلوگيري از برازش بيش از حد، ممكن است تمام اطالعات . گيريمبدر نظر

. به طور كامل استفاده نكنيمراچه از لحاظ روابط استقالل و چه از لحاظ پارامترهاي مدل هاي در اين قسمت كليات يادگيري پارامترهاي يك شبكه بيزي را هنگام در اختيار داشتن داده

هستيم و Gشود داراي ساختاري ثابت مانند اين بدان معني است كه فرض مي. كنيم كامل بررسي مينمايي بيشينه براي ا با روش درستابتد. بياموزيمB را براي شبكة بيزي Θخواهيم پارامترهاي مي

هاي بيزي مقاوم كه عموماً از كارايي باالتري كنيم و سپس به روش يادگيري پارامترها شروع مي .پردازيم برخوردارند مي

1- Generative Model


٤٦

نمايي بيشينه تخمين درست -3-4-1در قلب آن اين . شود هاي يادگيري استفاده مي در بسياري از زمينه1نمايي بيشينه روش تخمين درست

خواهيم در نتيجه مي. باشدD براي داده مناسبي است كه برازندة مناسبوجود دارد كه مدلي ايده .هاي مشاهده شده باشد را محاسبه نماييم احتمال اينكه يك مدل، مولد داده

)نمايي تابع درست 1-4-3تعريف )D:ΘLهاي مستقل عبارت از احتمال توليد نمونهD به :گردد صورت زير محاسبه مي و بهاست Θشرط پارامترهاي

)3-4( ( ) ( )∏=

Θ=ΘM

m

mPL1

][: xD

)كه در آن )Θ][mP x احتمال مشاهدة نمونة كامل mكه شبكه داراي پارامترهاي ي در صورت استام Θكنند كه به صورت زير لگاريتم اين مقدار را به علت راحتي در عمل بيشتر استفاده مي. باشد

:گردد تعريف مي

)3-5( ( ) ( )∑=

Θ=ΘM

m

mP1

][log: xDl

.نمايي را بيشينه كند درست بيابيم كهاي گونه به راΘ̂ مايليم MLEدر روش

)3-6( ( )D:maxargˆ Θ=ΘΘ

L

كند، زيرا بايد به صورت تعريف مي راسازي با فضاي بعد باال يك مسأله بهينه)6-3(رابطه همانند آنچه . سازي صورت گيرد هاي احتمال شرطي بهينه توأم روي مجموعة پارامترهاي كل توزيعروي ما قرار تجزيه اين مسأله پيشهاي بيزي راهي براي در نحوة نمايش و استنباط رخ داد، شبكه

: نوشت به صورت زيرتوان مي)1- 3(معادلة طبق خاصيت جداپذيري . دهند مي

( ) ( )

( )( )

( )∏

∏ ∏

∏∏

∏

=

= =

= =

=

=

⎥⎦

⎤⎢⎣

⎡=

=

Θ=Θ

N

iXi

N

i

M

mXii

M

m

N

iXii

M

m

ii

ii

ii

L

mmxP

mmxP

mPL

1

1 1

1 1

1

:

:][][

:][][

][:

D

D

Pa

Pa

Pa

pa

pa

x

θ

θ

θ

1- Maximum Likelihood Estimation (MLE)


٤٧

كه در آن iiX Paθ پارامترهايي هستند كه توزيع احتمال شرطي iXآن را به شرط پدران iPa ذخيره

كنند و مي

)3-7( ( )∏=

=M

mXiiXi iiii

mmxPL1

:][][):( PaPa pa θθ D

سازي كلي به چندين مسأله در نتيجه مسأله بهينه. است iXنمايي محلي براي متغير تابع درستشود، كه ما در آن تنها پارامترهاي هر توزيع احتمال شرطي سازي محلي كوچكتر تجزيه مي بهينه

)( iiXP Paنماييم سازي مي را مستقل از ساير پارامترها بهينه. فرض كنيد . نمايي محلي باز هم قابل تجزيه است در حالت جدول احتمال شرطي كامل، درست

و مجموعه پارامترهاي iPa آنن با پدراiXمتغير iiX Paθ تمامي حالت انتساب ممكن به ازاء به iX

iiهاي متفاوتي كه در آن انتساب)7-3(معادلة در . وجود دارد آنو پدران xX ii و = paPa به =بندي نماييم و هاي مشابه را دسته گذارند در نتيجه اگر انتساب ميزان يكساني بر حاصل ضرب تأثير مي

],[با iixS paتوان نوشت مايش دهيم مي تعداد آنها را ن:

)3-8( ∏ ∏=i i

ii

iiix

xSxiXiL

pa

papaPa|

],[):( θθ D

كه در آن

)3-9( ∑=

===M

miiiiii mxmxxS

1}][,][{1],[ papapa

. يا شاخص است1 تابع دلتاي كرنكر{}1و

پارامترهاي يك شبكه بيزي با جداول (MLE)نمايي بيشينه تخمين درست 2-4-3قاعدة :استاي به صورت زير احتمال شرطي چند جمله

)3-10( ∑=

i

ii

xii

iix xS

xS],[

],[ˆpa

papaθ

],[گر شمارش iixS pa در حقيقت همان آمار كافي دادة D خالصة كل اين اعداد. است }]1,...,[]{[هاي اطالعات موردنياز از مجموعه داده mxx=Dبيشينهنمايي در روش تخمين درست

در نتيجه دو مجموعه دادة آموزشي متفاوت . استبراي پارامترهاي جداول احتمال شرطي كامل دنگرد بيشينهنمايي زده شده به روش درست براي پارامترهاي تخمينيد موجب جواب يكساننتوان مي

],[گرهاي رشاگر شما iixS paبنابراين . براي تمامي متغيرها در اين دو مجموعه داده يكسان باشند 1- Kronecker


٤٨

نمايي معادل يافتن بهترين تخمين براي توزيع تجربي محدود شده به وسيله سازي تابع درست بهينه .است G موجود در ساختار شرطيروابط استقالل

تخمين بيزي -3-4-2. استهاي مشاهده شده كند و تنها متكي بر داده ل مي را در آمار دنباfrequentist روش MLEتخمين

باشند، اين روش ممكن است بيش از حد ها بسيار محدود يا داراي نويز اما در عمل، هنگامي كه دادههاي آموزشي پيروي كند اما قابليت تعميم يعني ممكن است مدل به طور كامل از داده. برازش نمايد

را )الف (1-3 شكلمدلبه عنوان مثال يادگيري پارامترهاي . دارا نباشدهاي مشاهده نشده را به دادهخيزي مثل حتي در منطقه زلزله. گيريدبدر توكيو در نظر ير در يك هفته ژهاي صداي آ از روي داده

فتد بيير، بدون يك نمونه وقوع زلزله، اتفاق ژتوكيو احتمال اينكه صدها دزدي و بلند شدن صداي آ خواهيم داشت MLEدر اين حالت، با استفاده از روش . استبسيار زياد

( ) 0=== noEarthquakeyesAlarmPكار افتادن ه و ب اي ميان زلزله ، كه اين دانش پيشين كه رابطههمچنين، در نقطة مقابل، ممكن است در همين هفته موردنظر . گيرد ير وجود دارد را ناديده ميژآ

فعال كرده باشد كه در نتيجه روش ريشتري تمام دزدگيرهاي منطقه را 8/6برحسب اتفاق يك زلزلة MLE 1 جواب)|( === yesEarthquakeyesAlarmPكند كه طبيعتاً جواب معقولي را توليد مي

.هاي با قدرت كمتر نيست براي زلزلهبنابراين در هنگام نبود دادة نامحدود كه بتواند تمام خواص و جزئيات واقعي توزيع را در خود

ار بردن دانش پيشين در فرآيند تخمين كه با بگيريم هايي كه ياد مي مدلخواهيم ميداشته باشد، براي اين كار از تخمين بيزي . تر گردد هاي آموزشي مقاوم نسبت به تغييرات جزئي در داده هاپارامتر

در قلب روش بيزي اين . كند كنيم كه به نحو مؤثري از مفهوم اعتقاد پيشين استفاده مي استفاده مي. هستيماي نسبت به شرايط محيط ، ما داراي اعتقاد اوليهDمفهوم نهفته است كه قبل از مشاهدة دادة ) اين اعتقاد اوليه به وسيلة توزيع احتمال )θPتواند بسيار قوي باشد، اين اعتقاد مي. شود ذخيره مي

بيني روزي كه به تصادف انتخاب كنيم در كوير باران نخواهد باريد حتي قبل از اينكه پيشهرمثالً در تواند نقش مهمي از طرف ديگر يك احتمال پيشين نامطلع نيز مي. كرده باشيموضع هوا را مشاهده

در اين مورد اعتقاد پيشين ما . به عنوان مثل انداختن يك سكة سالم را در نظر بگيريد. بازي كنددر حقيقت اين . نامطلع است بدين معني كه احتمال آمدن يك طرف سكه با طرف ديگر برابر است

بار خط بيايد اعتقادمان را 27 بار شير و 73 بار انداختن 100قوي است كه حتي اگر در اعتقاد آنچنان را در MLE يك احتمال پسين نامطلع روش خواهيم كه ميدر اين صورت . كند چندان عوض نمي


٤٩

خواهيم اين احتمال پسين از مي همچنين. براي آمدن شير محدود كند73/0تخمين زدن احتمال براي مطالعة بيشتر در مورد روش بيزي . هاي محدود جلوگيري كند آمده به علت دادهباياس به وجود

.كرد مراجعه [Gelman 95, Pearl 88]توان به ميهاي ديگر و رابطة آن با روش) يشينبه شرط داشتن احتمال پ )θP و مشاهدات Dروز ه بيز ب وسيلة قاعدة ه، اعتقادمان را ب

.نماييم صورت زير محاسبه ميكنيم و احتمال پسين را به مي

)3-11( ( ))(

)()(D

|DD

PPPP θθθ =

هاي كننده احتمال داده بر كل حالت شود و نرمال نمايي ناميده مي اي درست توزيع حاشيهDP)(جملة ام (M+1) كه با استفاده از آن نمونه θبراي محاسبة پارامترهاي . باشد انتساب ممكن به پارامترها مي

.نماييم ن را محاسبه ميكنيم اميد رياضي كل حالت ممك بيني مي را پيش)3-12( ∫ +=+≡ θθθθ dPMPMP )(),|]1[()]1[(ˆ DD XX

هنگام تخمين پارامترهاي يك توزيع . پردازيم مسأله انتخاب احتمال پيشين مناسب مي بهحال،احتمال پسين ديريكله . [Degroot 89]باشد مي2، انتخاب معمول، احتمال پسين ديريكله1اي چندجمله

.گردد به صورت زير تعريف ميXاي براي متغير چندجمله

)3-13( ∏ −∝=j

jk j

DirichletP 11 ),...,()( αθααθ

.باشند ميXهايي هستند كه متناظر با مقادير مختلف پارامتر ابرiαكه در آن نمايي بر اساس ساختار كه تابع درستديديمهاي بيزي كامل، براي شبكهMLEدر روش

پارامترهاي ،)6- 3(معادلة در كهداد مياين قابليت به ما اجازه . گراف قابل تجزيه شدن استiiX Paθ

در حالت تخمين بيزي فرضيات . كنيمتغير به صورت مستقل از هم محاسبه را براي هر خانواده م .شود پذيري مشابهي منجر مي كنيم كه به تجزيه استقاللي را معرفي مي

) يك احتمال 3-4-3تعريف )θP براي شبكة بيزي داراي خاصيت استقالل پارامتر [Spiegelhalter 90] را به صورت زير نوشت اگر بتوان آناست،

∏∏=

=N

ix

iii

PP1

)()(pa

paθθ

1- Multinomial Distribution 2- Dirichlet Posterior Distribution


٥٠

پذيري بر اساس مقادير نامند و تجزيه پذيري بر اساس ساختار شبكه را استقالل پارامتر كلي مي زيهتجipaشود استقالل پارامتر محلي ناميده مي.

توان احتمال اي در شبكه مي جمله با فرض استقالل پارامتر، براي هر جدول احتمال شرطي چند~),...,(پسين 1

ikiii xxi Dirichlet

papaααθل پسين ديريكله فرم احتما. را به صورت مستقل نسبت داد

اين . است )8-3(معادلة نمايي مشابه فرم تابع درستجالبي معرفي شد به طرز )13-3(معادلة كه در براي 1مزدوجانجامد كه احتمال پسين ديريكله، يك احتمال پسين شباهت به خاصيت مفيدي مي

. شكل استيعني فرم احتمال پسين و پيشين آن به يك. خواهد بوداي هاي چندجمله توزيع

) اگر 4-4-3قاعدة )iP θ از نوع ),...,( 1i

kiii xx

Dirichletpapa

αα آنگاه احتمال پسين )( DiP θ )],,...,[],([از نوع 1

1 ikixiix

xSxSDirichleti

kiii

papapapa

++ αα كه در آن خواهد بود ],[ ikixS pa

. استDآمار كافي بدست آمده از دادة را به )12- 3(معادله ) 2-4-3(قاعدة دهد كه مانند اين خاصيت مهم اكنون به ما اجازه مي

.صورت بسته محاسبه نماييم

اي مترهاي يك شبكة بيزي با جدول احتمال شرطي چند جمله تخمين بيزي پارا5-4-3قاعده .شود با استفاده از احتمال پسين ديريكله به صورت زير محاسبه مي

)3-14( ],[

],[),]1[]1[(ˆ∑′

′ ′+

+==+=+≡

iii

ii

ii

xiix

iixiiiix xS

xSMxMXP

pa

papapa

pa

papa α

αθ D

پارامترهاي در نتيجه، ابر

iix paαكنند كه گاهي مييگرهاي تجربي باز نقشي همانند شمارش′≡∑. شوند گرهاي موهومي نيز ناميده مي شمارش iii xxM paα هاي داده در حقيقت همان تعدادMپارامترهاي ياد شده معادل ديدن يعني استفاده از احتمال پسين ديريكله با ابر. استمجازي عدد ′

پارامترهاي هاي متفاوت آن متناسب با ابر نمونه مختلف است كه انتسابiix paα براي اينكه اين . است

ي ساختاري شبكه ها بايست بر طبق محدوديت هاي مجازي يك توزيع احتمال را بيان كنند مي دادههاي اطمينان حاصل كردن از اين موضوع استفاده يكي از راه. اي را برآورده كنند شرايط توزيع حاشيه

پارامترهاي براي ساختن ابرBDe2 [Heckerman 95a]از احتمال پيشين iix paα است .

1- Conjugate Posterior Distributuin 2- Bayesian Dirichlet equivalent


٥١

يادگيري ساختار - 3-5 معموالا در دنياي واقعي ام. داده شده استGدر قسمت قبل فرض ما بر اين بود كه ساختار گراف

اين مسأله . هاي آموزشي بياموزيم آن را از روي دادهخواهيم ميدانيم و بنابراين نميساختار را از پيش جهت نماييم حائز اهميت است بلكه بدين نه تنها از اين جهت كه ما درك بيشتري از محيط كسب مي

تواند نبودن يك يال مي. خواهد بودرد بسيار مهمسزايي در توانايي ما براي يادگيري دا هكه تأثير بهاي اضافي باعث افزايش بيش از حد باعث قطع ارتباط فاكتورهاي تأثيرگذاري شود و وجود يال

.تعداد پارامترها و در نتيجه برازش بيش از حد و كاهش قابليت تعميم مدل شودهاي بر اساس دستة اول روش. دهاي بيزي وجود دار دو روش كلي براي يادگيري ساختار شبكه

به طور . [Spirtes 93]د نكن هاي استقالل به طور مستقيم استفاده مي كه از آزمونندشو ناميده مي1قيدخالصه بر اساس چند آزمون استقالل، يك سري روابط استقالل و سپس مجموعة قيود ساخته

.گردد قيود را برآورده كند تشكيل مياي كه بتواند بيشترين تعداد اين سپس بهترين شبكه. شود ميبه تعريف يك امتياز ابتدا ها در اين روش. هستند 2امتيازگذاري بر ي مبتنيها روش،دسته دوم

طبق اين امتياز به دنبال بهترين سپسنمايد و گيري مي پردازيم كه ميزان تطابق مدل با داده را اندازه ميها و هزينة پيچيدگي محاسبات برقرار اي ميان يال مصالحه هستند قادر ها اين روش. گرديم مدل مي

. از لحاظ آماري مطلوب استكهنمايد اند مطالعه هاي بيزي پيشنهادي معلوم فرض شده نامه ساختار شبكه از آنجا كه در اين پايان

، [Heckerman 95b]، [Lam 94]، [Schwarz 78]هاي مختلف يادگيري ساختار بيشتر در مورد روش[Geiger 94]شود به خواننده واگذار مي.

1- Constraint based 2- Score based


٥٢

گيري خالصه و نتيجه -3-6 كردن مدلهاي بيزي و طريقه در ابتدا با مفهوم شبكه. در اين فصل چارچوب بيزي به تفصيل بيان شد

ترين و بيان معروف سپس به تعريف استنباط بيزيها آشنا شديم و روابط استقالل شرطي در آن كه در هاي بيزي مورد بررسي قرار گرفت در نهايت يادگيري در شبكه. ختيمهاي استنباط پردا الگوريتم

منظور تخمين پارامترهاي شبكه نمايي بيشينه و تخمين بيزي به آن دو روش معروف تخمين درست .هاي يادگيري ساختار شبكه پرداختيم در پايان نيز به مرور دو دسته از روش.ندتشريح شد

با توجه به مطالبي كه در . نامه تشريح خواهد شد دي در اين پاياندر فصل بعدي روش پيشنهاكار گرفته شده يك شبكه بيزي هفصل حاضر گفته شد، روش پيشنهادي در فصل بعد از حيث مدل ب

با توجه به . دهد در خود جاي ميهاي شرطي مفروض در مساله يادگيري مفاهيم را استقاللاست كه كه هم در يادگيري و هم –زي پيشنهادي، بسياري از روابط استنباط در آن ساختار نسبتا ساده شبكه بي

و عمال نيازي به استفاده هستندسازي به سادگي قابل بسط و ساده- شوند گيري استفاده مي در تصميماز حيث يادگيري، الگوريتم يادگيري .يستهاي استنباط مطرح شده در اين فصل ن از الگوريتم

هايي استوار شده است بدين معني كه با تعريف توزيع بعد بر مبناي تخمين بيزي پيشنهادي در فصل .پارامتري براي پارامترهاي شبكه سعي در تخمين ابرپارامترها به كمك تخمين بيزي دارد

فصل چهارم4ساختار پيشنهادي براي يادگيري

مفاهيم4 4


٥٤

ساختار پيشنهادي براي يادگيري مفاهيم –فصل چهارم

٥٥

به توسعه حاضرفصلي، در ر دو فصل قبلپس از آشنايي با كليات يادگيري مفاهيم و چاچوب بيزي دطور مشخص يك شبكه بيزي اين مدل به.پردازيم مدلي براي يادگيري مفاهيم در چارچوب بيزي مي

) هاي حسي و مفاهيم موجود از قبيل داده(است كه روابط استقالل شرطي موجود بين متغيرهاي مساله اي را در نمايي سازي هرگونه تابع درست مدل اين شبكه از يك سو امكان .دهد را در خود جاي مي

سازد تا در چندين فضاي ادراكي آورد و از سوي ديگر عامل را قادر مي يك فضاي ادراكي فراهم مي واسطه آن از فوائد يادگيري در فضاهاي ادراكي زمان به يادگيري مفاهيم بپردازد تا به به صورت هم

پارامتري براي شبكه بيزي طراحي شده، عمال امكان تخمين هاي با معرفي فرم.چندگانه بهره ببردالگوريتم يادگيري توسعه داده شده در اين فصل در . آيد هم مياپارامترهاي شبكه از روش بيزي فر

و هاي پارامتري كارگيري فرم هشود كه با ب براي تخمين بيزي محسوب ميبرخطواقع يك نسخه با استفاده از مدل بيزي .زند تخمين ميجي شبكه را به تدريرساني بيزي پارامترها روز روابط به

رود كه سيستم يادگيري مفاهيم به پيشنهادي و الگوريتم يادگيري طراحي شده در مجموع انتظار مي .نامه دست يابد پنج ويژگي اساسي مطرح شده در ابتداي اين پايان

يستم پيشنهادي توسعه داده در قسمت اول فصل حاضر ابتدا يك شبكه بيزي براي كل س هاي وابسته به كردن توزيع احتمالمدلكارگرفته شده براي ههاي پارامتري ب شود و پس از آن فرم مي

در نهايت در قسمت دوم اين فصل يك الگوريتم يادگيري بر اساس تخمين بيزي . شوند شبكه بيان مي . شود و يادگيري تقويتي توسعه داده مي


٥٦

اختار پيشنهاديمدل بيزي براي س - 4-1اي از شود و سپس مجموعه در اين قسمت ابتدا يك مدل بيزي براي ساختار پيشنهادي توسعه داده مي

.شود هاي پارامتري براي اين مدل توضيح داده مي فرم

مدل بيزي پيشنهادي -4-1-1كه مدل نمود در سطوح مختلفبندي توان به صورت يك مساله طبقه سازي را مي اساساً مساله مفهوم

البته همانطور كه بعداً خواهيم ديد، (گردند در آن طبقات مختلف با مفاهيم مختلف متناظر مي از نظر فرضيات، بندي طبقهموجودهاي نامه در اساس با سيستم چارچوب پيشنهادي در اين پايان

). متفاوت استسازي روش يادگيري و پيادههيم در فضاهاي ادراكي چندگانه را به صورت ، مسأله يادگيري مفا به مباحث فصل قبلبا توجه

فرض مهم را اما قبل از آن يك پيش. در اين فضاها مدل خواهيم نمودمفاهيم زمان هميادگيريمسأله هاي متفاوت از يك محرك خارجي در فضاهاي ادراكي بدين ترتيب كه بازنمايي: گيريم در نظر مي

متناظر با ) طبقه(ند اگر كه مفهوم هستز يكديگر مستقلا) مثل بينايي، شنوايي و غيره(مختلف عامل فرض در واقع استقالل شرطي فضاهاي ادراكي عامل را به شرط دانستن اين پيش. آن محرك را بدانيم

فرض مذكور بدين معني است كه اگر عامل آگاه به لحاظ عملي پيش.كند مفاهيم ذهني عامل بيان مي كه خصوصيات اين پديده در هر فضاي خواهد دانست ست اي روبروا باشد كه با چه مفهوم و پديده

اي داند كه اين پديده در هر فضاي ادراكي به چه نقطه ادراكي چيست و به عبارت ديگر، عامل مي بر پايه اين .دار و واقعي است فرض مطرح شده به لحاظ فيزيكي معني بنابراين پيش. شود نگاشته مي

باشد كه در شكل اي مي بندي ما به صورت شبكه بيزي ل چارچوب طبقهفرض، شبكة بيزي معاد پيشكند كه در هر لحظه در اين شبكه متغير تصادفي مفهوم را مدل مي”C“نود . نشان داده شده است1- 4

به طور مشابه، هر يك از . يك مقدار بگيردC = {c1,c2, ...,cr} مفاهيم عنصريr تواند از مجموعه ميامين فضاي kكنند كه از يك فضاي برداري چندبعدي و پيوسته را مدل ميXk (k=1..N)نودهاي

Xkدر حقيقت . ) فضاي ادراكي داردNفرض شده است كه عامل (گيرد ادراكي عامل مقدار مي 1- 4طور كه در شكل همان. باشد امين فضاي ادراكي عامل ميkبازنمايي برداري محرك خارجي در

در سطح فضاهاي ادراكي 1كنندة ساده بندي بندي ما يك سيستم طبقه ستم طبقهنشان داده شده است، سي ).هاي هر فضا و نه در سطح ويژگي(باشد عامل مي

1- Naïve Base Classifier


٥٧

فرض مذكور شبكه بيزي طراحي شده بر اساس پيش -1-4 شكل

P(C|X1, X2,..., XN) 1گيري در چنين سيستمي به صورت محاسبه توزيع احتمال پسين تصميم : استفاده از قانون بيز و استقالل شرطي كه توضيح داده شد، خواهيم داشتبا. شود تعريف مي

)4-1( ∏=

==N

k

PPPPP1

)|()(.)|().(.)|( CXCCX,...,X,XCX,...,X,XC kN21N21 ξξ

را از وقتي كه عامل يك محرك واحد مختلف مفاهيم وجوداين توزيع احتمال در واقع احتمالنيز آمده ) 1-4(طور كه در رابطة همان. نمايد كند محاسبه مي درك ميطريق مودهاي مختلف ادراكي

P(C) 2است، براي اينكه احتمال پسين مذكور را محاسبه نمائيم، بايستي كه ابتدا توزيع احتمال پيشينمدل كردن توزيع احتمال . را تخمين بزنيمk = 1..N براي P(Xk | C) 3نمايي هاي درست و توزيع

كه توسعه يك مدل اين در حالي است . طور كه در قسمت بعدي خواهيم ديد ساده است پيشين همانبنابراين توسعه يك . باشد به شدت وابسته به مسأله ميP(Xk | C)نمايي براي هر يك از توابع درست

اي تخمين بزند نمايي كه بتواند هر توزيعي را در هر مسأله مدل عمومي براي هر يك از توابع درست نيز گفته اي در فصل دوم بطهدر توضيح مفاهيم راطور كه از سوي ديگر همان. بسيار مطلوب است

هاي مختلف يك فضاي ادراكي داشته باشد، شد، يك مفهوم ممكن است اعضاي مختلفي در محلامين فضاي ادراكي kدر ) بردار(، ممكن است بيش از يك محل ciبدين معني كه به ازاء هر مفهوم

تمام اين مسائل ما . شينه باشد بيP(Xk | C = ci)نمايي وجود داشته باشد كه در آن مقدار تابع درست در طول زمانقابل يادگيري با تعداد مودهاي 4را به سمت استفاده از يك تابع توزيع چند موده

هاي متغير با تعداد مؤلفه5 مخلوطها، مدل چگالي ترين اين مدل معروفيكي از . نمايد ترغيب مي بيان به صورت زير P(Xk | C)نمايي در اين صورت، هر يك از توابع درست[Duda 00].باشد مي :شود مي

1- Posterior Distribution 2 - Prior Distribution 3 - Likelihood Distributions 4 - Multi-modal distribution function 5 - Mixture-density model


٥٨

)4-2( ∑=

=====

∈∈∀kq

ji

kj

kji cmPmPcP

Nkri

1

)|()|()|(

:]..1[],..1[

CMMXCX kkkk

Mk = {m1كه در آن، k, m2

k,..., mqkk}اي از مجموعهqk مولفه كه براي مدل كردن تابع

در حقيقت هر مولفه در . باشد شوند مي امين فضاي ادراكي استفاده ميk در P(Xk | C)نمايي درست [Mobahi 05]. استدسته در مدل يادگيري مفاهيم مباهي نشان يك مدل پيشنهادي معادل باP(Xk | Mk = mkامين فضاي ادراكي، kهمچنين، در

j) به عنوان توزيع مولفة mkj و

P(Mk = mkj | C = ci) به صورت وزن مولفه mk

jنمايي مفهوم براي محاسبه درستci تعريف به راP(Xk | C = ci)توان توزيع مي1اي حاشيهز قاعده بيز و قاعدة از سوي ديگر با استفاده ا. شود مي

:صورت زير تجزيه نمود

)4-3( ∑=

======kq

ji

kji

kji cmPcmPcP

1

)|(),|()|( CMCMXCX kkkk

يك انتساب توان نتيجه گرفت مي) 3- 4(و ) 2-4(هاي روابط قرار دادن سمت راستارز همبا P(Xk | Mk = mk توزيع براي

j) هر بردار وجود دارد كه بر طبق آن Xk به شرط دانستن Mk از متغير امين فضاي ادراكي از مفهوم kبه بيان ديگر بازنمايي يك محرك خارجي در . شود مستقل ميCمفهوم كند را از ام مدل ميkاي كه آن محرك را در فضاي ادراكي آن محرك مستقل است اگر مولفه بامتناظر

اي كه نشان داده شد به شبكه1- 4ه در شكل با اعمال اين استقالل شرطي، شبكة بيزي ك. پيش بدانيم .يابد نشان داده شده است تغيير شكل مي2-4در شكل

شبكه بيزي تغيير شكل يافته با اعمال استقالل شرطي -2-4 شكل

1 - Marginal rule


٥٩

2- 4 و 1-4هاي هاي بيزي نشان داده شده در شكل ، اختالف شبكه1از ديدگاه مبتني بر عليتهاي يك محرك خارجي در فضاهاي ادراكي به بازنمايي هر يك از1-4آن است كه در شبكه شكل

هر يك از 2-4كه در شبكه شكل حالي در.صورت مستقيم معلول مفهوم مرتبط با آن محرك هستندهاي وابسته به فضاهاي ادراكي ها به صورت غيرمستقيم و از طريق يك سري مولفه اين بازنمايي

هاي وابسته به فضا شايان ذكر است كه به اين مولفه. دباشن معلول مفهوم مرتبط با محرك خارجي مي [Mobahi 05] .گويند مي2نشان دستهدر ادبيات يادگيري مفاهيم، ) Mkهاي مجموعهياعضا(

يك مزيت مهم نسبت به شبكه شكل 2-4از سوي ديگر از ديدگاه رياضي، شبكه بيزي شكل به صورت ذاتي به عنوان يك 2-4 در شكل P(Xk | C)نمايي مدل هر يك از توابع درست: دارد4-1

با . هاي مختلف در مسائل مختلف را تخمين بزند شود كه قادر است توزيع تعريف مي3 مخلوطچگاليهاي اين وجود، ذكر اين نكته ضروري است كه اين خاصيت در صورتي برقرار است كه تعداد مؤلفه

Mkه عبارت ديگر تعداد مقادير متغيرهاي ب( ثابت نبوده و قابل يادگيري باشد مخلوط چگالي)1..N = k ( يادگيري در قسمت بعدي مكانيزمي براي ). قابل زياد شدن باشند2- 4در شبكه شكل

.شود هاي يك فضاي ادراكي ارائه مي مولفهتعداد براي مساله يادگيري مفاهيم، محاسبة 2- 4بعد از طراحي يك شبكه بيزي مانند شبكة شكل

در شبكه طراحي شده 4به عنوان استنباط) 2- 4(و ) 1-4(هاي روابط هايي مانند توزيع حتمالتوزيع اهاي پايه شبكه اما براي استنباط در يك شبكه بيزي، ابتدا الزم است كه توزيع احتمال. شوند تلقي مي

شود كه مياين مساله از آنجا ناشي. سازي شده و تخمين زده شوند كه با نودهاي شبكه متناظرند مدلتوزيع . هاي پايه فرموله نمود توان برحسب اين توزيع احتمال هر استنباط در يك شبكه بيزي را مي

و P(C) ،P(Xk | Mk) عبارتند از 2-4هاي پايه شبكه بيزي نشان داده شده در شكل احتمالP(MK | C) براي تمام k تا 1هاي از N) 2در مجموعN+1ه نوع كلي توزيع احتمال از س P(C) ،

P(X | M)و P(M | C) (. اگر P(Xk | C) در رابطة )جايگزين شود ) 2-4(با سمت راست رابطه ) 1-4 .هاي پايه مذكور خواهند بود برحسب توزيع احتمال) 2-4(و ) 1-4(ها در روابط هر دوي استنباط

زدن سه نوع هاي تخمين احتماالتي براي مدل كردن و تخمين توان از هر يك از روش ميدر اينجا ما از روش تخمين پارامتري استفاده . استفاده نمود P(M | C) و P(C) ،P(X | M)توزيع بدين ترتيب كه ابتدا يك فرم پارامتري براي هر يك از اين انواع تعريف كرده و سپس .ايم كرده

1 - Causality 2 - Prototype 3 - Mixture-density 4 - Inference


٦٠

تخمين 1به صورت برخطها پارامترهاي آن را با استفاده يك الگوريتم پيشنهادي يادگيري از داده در بخش بعدي توضيح داده 2الگوريتم يادگيري پيشنهادي كه هم تقويتي است و هم ترتيبي. زنيم ميهاي پايه هاي پارامتري كه براي مدل كردن هر يك از انواع توزيع احتمال شود اما قبل از آن فرم مي

.دهيم استفاده شده است را به تفصيل شرح مي

يهاي پارامتر فرم - 4-1-2هاي پايه به تفضيل هاي پارامتري استفاده شده براي هر يك از انواع توزيع احتمال در اين قسمت فرم

هاي پارامتري استفاده شده است بدين در اينجا از روش بيزي براي تخمين فرم. شود توضيح داده مي ما را 3د كه اعتقادشو معني كه براي هر يك از پارامترها دوباره يك توزيع پارامتري كمكي تعريف مي

هاي كمكي به جاي پارامترهاي اصلي سپس پارامترهاي اين توزيع. دارد نسبت به آن پارامتر بيان مي .شوند تخمين زده مي

P(M | C)توزيع احتمال توان به صورت زير پارامتري هاي يك فضاي ادراكي را مي اين توزيع احتمال گسسته بر روي مولفه

:نمود

)4-4( kji

kjii

kj

kjii

kj

k

ffcmPfcmP

riqjNk

====

∈∈∈∀

),|()|(

]..1[],..1[],..1[

,CMk

fjiكه در آن k اعتقاد ما را نسبت به وزن مؤلفه mk

j براي مفهوم ciبا توجه به طبيعت . دارد بيان ميfjiفركانسي پارامترهاي

kتوزيع توأم اين پارامترها به صورت توزيع ديريكله خواهد بود ،: [Neapolitan 03]

1 - Online 2 - Sequential 3 - Belief


٦١

)4-5( ( ) ( ) ( )

∫∑

∏

∑

∞−−

=

−−−

=

=

−−

=Γ=≤≤

Γ

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛Γ

=

=

∈∈∀

0

1

1

112

11

1

1

21)1(21)1(21

)( and 1 ,10 where

...

)(

),...,,;,...,,(),...,,(

]..1[],..1[

21

dtetxff

fff

b

b

bbbfffDirfffP

riNk

txq

t

kti

kti

bkiq

bki

bkiq

t

kti

q

t

kti

kiq

ki

ki

kiq

ki

ki

kiq

ki

ki

k

kikq

k

ki

ki

k

k

kkk

)پارامتر ) kjik bqjriNk ]..[],...[],..[ 111 هاي ادراك شده است كه در واقع تعداد محرك∋∋∋

mk تعلق دارند و از سوي ديگر توسط مؤلفه ciاز يك سو به مفهوم j

نمايندگي ام kدر فضاي ادراكي را به صورت زير به دست P(MK | C)توان توزيع مي) 5-4(و ) 4-4(از روابط . شوند مي

: [Neapolitan 03]آورد

)4-6( [ ]kiq

ki

kjiq

t

kti

kji

ikj kk

bbfE

b

bcmP ,...,|)|( 1

1

====

∑=

CMk

توان توسط ماتريس را مي) 1..N=k (P(MK | C)توزيع احتمال ) 6-4(با توجه به رابطه rq

kji k

b ×= ][kBترتيب براي محاسبه بدين. مدل نمودP(MK | C) ماتريس الزم است Bk محاسبه و . آمده استنمايي در گام چهارم الگوريتم يادگيري تابع درستBk يادگيري ماتريس .نگهداري شود

P(C)توزيع احتمال اين . دارد اين توزيع احتمال، توزيع احتمال پيشين روي مفاهيم مختلف موجود در مسأله را بيان مي

كار از پيش مشخص نيست و بايد هاي واقعي براي يك عامل تازه توزيع احتمال در بسياري از محيطيع بر اساس ديد عامل نسبت به دنيا شكل حتي در بسياري از مسائل اين توز. كه تخمين زده شود

اگر بخواهيم كه اين توزيع را نيز با .گيرد و الزاما با توزيع واقعي موجود در محيط يكي نيست مي توانيم از روشي كامالً مشابه با روش تخمين زدن هاي ترتيبي تخمين بزنيم، مي استفاده از داده

P(M | C) ابتدا اين توزيع را به صورت زير پارامتري مي كنيم استفاده كنيم بدين ترتيب كه:

)4-7( 1 ,10 where,)|(1

=≤≤== ∑=

r

iiiiii ffffcP C


٦٢

:كنيم از توزيع ديريكله استفاده ميfi (i = 1..r)به صورت مشابه براي توزيع توام پارامترهاي )4-8( ),...,,;,...,,(),...,,( 21121121 rrr aaafffDirfffP −− =

ciباشد كه به عنوان مفهوم هاي ادراك شده مي در واقع تعداد محركai (i = 1..r)كه در آن پارامتر :شود ميبيان به صورت زير P(C)) 8-4(و ) 7-4(با استفاده از روابط . اند بندي شده دسته

)4-9( [ ]rir

tt

ii aafE

a

acPri ,...,|)( ],..1[ 1

1

===∈∀

∑=

C

riaA بايستي كه بردارP(C)بنابراين براي محاسبه توزيع ×= . محاسبه و نگهداري شود][1

P(X | M)توزيع احتمال را به طريق M به مركز مولفه X ميزان شباهت محرك برداري P(X | M)جه به اين واقعيت كه با تو

در ميان .است براي مدل كردن آن مناسب 1كند، يك توزيع يك مودة متقارن غيرخطي بيان مي گزينة هاي طبيعي مدل كردن بسياري از پديدههاي يك موده متقارن، توزيع نرمال به دليل توزيع و 2در صورتي توزيع نرمال خواهد داشت كه بردار ميانگينP(X | M) اما. خواهد بود مناسبي

: يعني[Neapolitan 03] ماتريس كوواريانس آن را از پيش بدانيم

)4-10( ⎥⎦⎤

⎢⎣⎡ −−−

===

−−−

−

)()(21exp)2(

),;(),,|(

21

12

1

kj

kkj

Tkj

kkj

n

kj

kj

kkj

kj

kj

muXRmuXR

RmuXNRmumP

kπ

kk MX

mukهمچنين . باشد ام ميk در آن بعد فضاي ادراكي nkكه j

Rjو k به ترتيب بردار ميانگين و ماتريس

mjمولفة ) معكوس ماتريس كوواريانس (3تدقk در فضاي ادراكي kبا اين وجود . باشند ام مي

هاي مختلف در فضاهاي ادراكي مختلف از پيش معلوم هاي دقت مولفه بردارهاي ميانگين و ماتريسم تا لذا بايستي كه ابتدا براي هر يك از اين پارامترهاي نامعلوم يك توزيع احتمال تعريف كني. نيستند

با توجه به طبيعت ماتريس دقت، انتخاب توزيع . بتوانيم اعتقاد خود را نسبت به آنها بيان نمائيم :[Neapolitan 03] براي آن مناسب استβ وα با پارامترهاي 4ويشارت

1 - Symmetric unimodal distribution 2 - Mean 3 - Precision Matrix 4 - Wishart distribution


٦٣

)4-11(

⎥⎦

⎤⎢⎣

⎡×−

==

∈∈∀

−−−−)(

21

exp),(

),;()(

]..1[],..1[

2)1(

21 kj

kj

nkj

kj

kjk

kj

kj

kj

kj

k

RtrRnc

RWishartRP

qjNk

kkj

kj

ββα

βα

αα

كه در آن

definite. positive is and ,1

,212),(

1

1

4)1(

2

kjk

kj

n

i

nnn

n

inc

βα

απαα

−>

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡⎟⎠

⎞⎜⎝

⎛ −+Γ=

−

=

−

∏

ها به شرط دانستن ماتريس دقت توزيع نرمال عالوه بر اين، براي بردار ميانگين هر يك از مؤلفه :[Neapolitan 03] شود در نظر گرفته مي

)4-12( ( ) 0 ,)(,;)|(

]..1[],..1[1 >=

∈∈∀− k

jkj

kj

kj

kj

kj

kj

k

vRvmuNRmuP

qjNk

μ

kكه بردار ميانگين اين توزيع jμبه صورت خطي با ضريب آن است و ماتريس دقت k

jν با ماتريس mkمولفه

j توان اثبات كرد كه مي) 12- 4(، )11- 4(، )10-4(با استفاده از روابط . است متناسب P(X | M) توزيع چند متغيره ،t1 با پارامترهاي αβμν :[Neapolitan 03] پيدا خواهد كرد,,,

)4-13( ( )( ) ⎟⎟

⎠

⎞

⎜⎜

⎝

⎛

+

+−+−==

∈∈∀

−1

1

1,,1;)|(

:]..1[],..1[

kjk

j

kkj

kjk

jkkj

kj

k

v

nvntmP

qjNk

βα

μαkkk XMX

كه در آن

2)(

2

21

)()(11)(

2

2),,;(n

Tn XTX

Tn

TXt+−

⎥⎦⎤

⎢⎣⎡ −−+

⎟⎠⎞

⎜⎝⎛Γ

⎟⎠⎞

⎜⎝⎛ +

Γ=

α

μμααπα

α

μα

P(Xk | Mk = mkبراي تشريح هر يك از پارامترهاي توزيع j) ابتدا Sj

k را به صورت زير تعريف Sj: كنيم مي

kهاي ادراكي است كه بر پايه آنها توزيع مجموعه تمام محركP(Xk | Mk = mkj) تخمين

P(Xk | Mk = mkبا اين تعريف هر يك از چهار پارامتر توزيع . زده شده استj) به صورت زير

1 - Multivariate t distribution


٦٤

vj: [Neapolitan 03] شود تعريف ميk تعداد عناصر مجموعه Sj

k است؛ kjμ و k

jβ به ترتيب ميانگين Sj تجربي و كوواريانس تجربي نرمال نشدة

kباشند؛ ميkjα معموالً يك واحد كمتر از k

jν است ( )1−k

jν. در اين قسمت، P(X | M) , P(M | C) پارامتري مشتق شده براي روابطبا توجه به

rqهاي پارامتري ماتريسkji

krq

kj

kj

kj

kj

kkk

bBD ×× == ][,][ νβμαهاي ترتيبي را بايد با استفاده از دادهنمايي ه كمك آنها توابع درست تخمين بزنيم تا بتوانيم بN تا 1براي هر يك از فضاهاي ادراكي

P(Xk | C) (k = 1..N)اگر بخواهيم توزيع پيشين مفاهيم . را براي تمام فضاهاي ادراكي تخمين بزنيمP(C) كه ماتريس الزم است را نيز تخمين بزنيم riaA ×= عالوه بر . ها به دست آوريم را نيز از داده][1شود را نيز بندي هر يك از اين فضاهاي ادراكي استفاده مي اي خوشههايي كه بر ، تعداد مولفهايندر قسمت بعدي، يك الگوريتم يادگيري . ها به دست آورد به صورت تدريجي از دادهبايست مي

هاي ترتيبي در چارچوب پيشنهاد شده در اين قسمت توسعه داده تقويتي به منظور يادگيري از داده .شود مي


٦٥

پيشنهاديالگوريتم يادگيري -4-2شود، الزم گيري استفاده مي كه به منظور تصميم) 1-4(براي محاسبه توزيع احتمال پسين در رابطه

نمايي هر يك از فضاهاي ادراكي ياد گرفته است كه ابتدا توزيع پيشين مفاهيم و همچنين توابع درستنمايي هر فضاي ابع درستنمايي در قسمت قبل، ت با توجه به مدل ارائه شده براي تابع درست. شوند

اين بدين معني . نمايي ساير فضاها مدل نمود توان به صورت مستقل از توابع درست ادراكي را مي. نمايي فضاهاي ادراكي مختلف را به صورت مستقل يادگيري نمود توان توابع درست است كه مي

بدين معني كه به ازاء هر كه تدريجي و ترتيبي باشدالزم استعالوه بر اين كل فرآيند يادگيري ترين خاصيت الگوريتم يادگيري آخرين و مهم. يادگيري انجام شودبايدمحرك مشاهده شده

پيشنهادي تقويتي بودن آن است بدين ترتيب كه فرآيند يادگيري برحسب نوع سيگنال تقويتي كه از مطلب كه تصميم عامل در در واقع دانستن اين . پذيرد شود انجام مي طرف محيط به عامل داده مي

تشخيص مفهوم مرتبط با محرك ديده شده درست بوده است يا نه به عامل كمك خواهد كرد تا كه بر در روش پيشنهادي، اين دانش به صورت يك اطالع اضافي. را فرا بگيرد1سريعتر سياست بهينه

.شود ق مي در هر گام به الگوريتم يادگيري تزريگيرد اساس سيگنال تقويتي شكل مي

نمودار بلوكي سيستم پيشنهادي-3-4 شكل

1 - Optimal policy


٦٦

}) pdate-7

),pdate

1-6

0

)( 0

)( 0 -5

t.environmen from signalent reinforcem the

receive and of response related theGenerate-4 ).,...,,|(on distributi

probablity regarding concept Select -3 spaces. perceptual in

of tionsrepresenta theas ],...,,[ Find-2

t.environmen thefrom stimulus Perceive-1 {

)(

21

21

(Info-a-prioriUInfod (k,X-LikelihooU

do to Nfor kInfo

then relse if

cCInfothen relse if

cCInfothenrif

r

cXXXCP

cNX

XXX

X

FunctionMain

k

g

g

g

Ng

N

←←=

≠←<

=←>

−

φ

شبه كد كلي سيستم پيشنهادي-4-4 شكل

با در نظر گرفتن تمام اين خواص، سناريوي كلي در هرگام زماني بدين صورت است كه عامل ي ها كند و سپس بازنمايي از محيط دريافت ميXيك محرك خارجي را به صورت يك بردار ادراكي

بر پايه توزيع احتمال پسين ). XN تا X1(كند پيدا مي خود فضاي ادراكيN در رامختلف اين محركP(C | X1, X2,..., XN) محاسبه ) 13-4(و ) 9-4(، )6-4(، )2-4(، )1-4( كه با استفاده از روابط

ترين مفهوم با مرتبط) مانند بولتزمن( 1تصادفيگيري با استفاده از يك روش تصميمگردد، عامل مي توسط عامل، عامل cgپس از ايجاد پاسخ مربوط به مفهوم . (cg)كند محرك مشاهده شده را پيدا مي

در چارچوب پيشنهادي اين سيگنال تقويتي سه نوع . كند را از محيط دريافت ميr تقويتي سيگنالبه نوع سيگنال تقويتي با توجه ). خنثي( صفر -3) جريمه( منفي -2) جايزه( مثبت - 1: مختلف دارد

محيط نسبت به تصميم بازخورددريافتي، الگوريتم يادگيري با اطالعات اضافه مختلفي كه در واقع شبه كد مربوط به سناريوي كلي را نشان 4-4 شكل. شود كنند فراخواني مي عامل را منعكس مي

در اين . ن داده شده است نشا3-4بر اساس اين شبه كد، نمودار بلوكي كل سيستم در شكل . دهد مي مسير چين طخكه مسيرهاي حالي دهند در گيري را نشان مي مسيرهاي تصميمشكل مسيرهاي پيوسته

1 - Stochastic


٦٧

همانگونه كه در گامهاي ششم و هفتم اين .دهد اطالع اضافه را براي يادگيري نشان ميبازخورد: گام اساسي تشكيل شده استالگوريتم نشان داده شده است، يادگيري در چارچوب پيشنهادي از دو

N تا1 از k به ازاء P(Xk | C)يعني تمام توابع ( فضاي ادراكي عامل Nنمايي در يادگيري توابع درست

).P(C)يعني (و يادگيري توزيع احتمال پيشين مفاهيم ) .شوند در دو قسمت بعدي هر يك از اين دو گام به تفصيل شرح داده مي

يي فضاهاي ادراكي عامل نما يادگيري توابع درست - 4-2-1 k يك فضاي ادراكي P(Xk | C)نمايي با توجه به مدلي كه تا اينجا توسعه داده شده است، تابع درست

از آنجا . شود مخلوط كه از تعدادي مؤلفة شبه گاوسي تشكيل شده است مدل ميچگاليبه وسيله يك نمايي آن فضا را دارا درستهاي خاص خودش براي مدل كردن تابع كه هر فضاي ادراكي مولفه

بنابراين در . تواند مستقل از ساير فضاها انجام پذيرد نمايي در هر فضا مي ، يادگيري تابع درستاست ارائه kنمايي در يك فضاي ادراكي نمونه اين قسمت الگوريتمي به منظور يادگيري تابع درست

نشان داده شده است، اين الگوريتم 4-4 شكلطور كه در گام ششم الگوريتم پس از آن همان. شود مي شبه كد پيشنهادي 5-4 شكلالگوريتم. شود براي تمام فضاهاي ادراكي به صورت مجزا فراخواني مي

.دهد نمايي در يك فضاي ادراكي را نشان مي براي يادگيري تابع درست اين الگوريتم روند كلي الگوريتم پيشنهاد شده سر راست و بديهي است و پارامترها و ورودي

يك اطالع اضافه كه بيانگر - 2 (Xk)ام k بازنمايي محرك ادراك شده در فضاي ادراكي - 1: عبارتند ازدر واقع اگر مفهوم حدس زده شده . باشد مي خوددانش عامل نسبت به درستي و يا نادرستي تصميم

هد بود، اگر مفهوم خواC = cg از طرف محيط تشويق شده باشد، اطالع اضافه (cg)توسط عامل ي از بازخورد و در نهايت اگر C ≠ cgحدس زده شده ازطرف محيط نكوهش شده باشد اطالع اضافه

.محيط در قبال تصميم عامل دريافت نشده باشد اطالع اضافه تهي خواهد بود و Xkنمايي را در محل با استفاده از اين پارامترهاي ورودي، الگوريتم ابتدا مقدار تابع درست

نيمم آستانه كوچكتر باشد، اگر اين مقدار از يك مي. نمايد به شرط دانستن اطالع اضافه محاسبه ميام بوده است و يا تابع k يك نمونه بسيار نادر در فضاي ادراكي Xkاين بدين معني است كه يا

، دليل مستقل از اينكه كدام يك از اين دو. به خوبي مدل نشده استXk اطرافنمايي در درست باشند، الگوريتم در اين حالت يك مولفه جديد در Xkنمايي در واقعي كم بودن مقدار تابع درست

الگوريتم يادگيري با اين كار دو هدف مهم را دنبال . كند ام ايجاد ميk براي فضاي ادراكي Xkمحل مدل واقعي تابع پيدا كردن تدريجي -2 و Xkنمايي در محل افزايش مقدار تابع درست-1: كند مي


٦٨

براي مولفه تازه ايجاد شده v و α ،β ،µ شايان ذكر است كه پارامترهاي [Priebe 94].نمايي درست .ماتريس هماني استI در آن يك عدد كوچك وεكه شوند مقداردهي مي1 و Iε ،Xk.، 0به مقادير

}. and using

))|( i.e.( matrix Update-4

. and using

))|( (i.e. matrix Update-3

),|(

:such that components allfor ][

vector on weight contributi theCompute -2

-

)1,.,,0(),,,: -

1- on component new a Create

)( )|( -1

{n)informatio additional:

space, perceptualth in then observatio:

space, perceptual theofindex : (

k

1

k

k

k

k

k

W

B

W

D

W

I

Info

CMP

X

MXP

InfoXmMPw

w

elsehq

Xv(m

qhX

thentthresholdValueLikelihoodifInfoXPValueLikelihood

InfokX

kLikelihoodUpdate

k

k

kk

kj

kkj

qkj

k

nnkk

hkh

kh

kh

kh

k

k

k

k

k

kk

==

=

←

←

+←

<←

−

×

×εβμα

نمايي ست الگوريتم پيشنهادي براي يادگيري تابع در-5-4 شكل

هاي به اندازه كافي بزرگ بود، الگوريتم مولفهXkنمايي در محل اما اگر مقدار تابع درست. كند شوند را به روز مي استفاده ميP(Xk | Info)نمايي ام كه براي محاسبه تابع درستkفضاي ادراكي | P(Mkيعني ( آنها و وزنP(Xk | Mk))يعني ( توزيع ،ها تر، الگوريتم براي تمام مولفه به عبارت دقيق

C) (هر مولفه به اندازه ميزان مشاركت شايان ذكر است كه در روش پيشنهادي، . نمايد را به روز ميهاي مربوط به بنابراين قبل از به روز كردن توزيع. به روز خواهد شدXk در جذب محرك خود .گردد وريتم محاسبه ميها در گام دوم الگ هاي مختلف، وزن مشاركت تمام مولفه مولفه

گانه اطالع اضافه يكسان نمايي براي انواع سه اگرچه روند كلي الگوريتم يادگيري تابع درستاي به گونه) مثبت، منفي و خنثي( انواع مختلف اطالع اضافه ازاءاست، اما هر گام اين الگوريتم به

لف سيگنال تقويتي از محيط بنابراين به ازاء دريافت انواع مخت. متفاوت محاسبه خواهد شد


٦٩

هاي براي سيگنال1الگوريتم يادگيري مثبت: شوند هاي متفاوتي براي يادگيري فراخواني مي الگوريتم. خنثي هاي براي سيگنال3هاي منفي و الگوريتم تطابق براي سيگنال2مثبت، الگوريتم يادگيري منفي

5-4ها يكسان و همان الگوريتم شكل لگوريتمالبته ذكر اين نكته ضروري است كه قالب هر سه اين اعالوه بر اين . تشريح شده است5-4هاي الگوريتم شكل هاي زيرين هر يك از گام در قسمت. است

.ها براي سه نوع مختلف يادگيري توضيح داده شده است جزئيات هر يك از گام

نمايي محاسبه تابع درست-گام اولنمايي به شرط نمايي ابتدا مقدار تابع درست گوريتم يادگيري تابع درستطور كه قبالً گفته شد، ال همان

در نمايي درست تابع محاسبه اما. )P(Xk | Info)( نمايد مي محاسبه XKدانستن اطالع اضافه را در محل

:است متفاوت يادگيري گانه سه هاي الگوريتم ):است C = cg اضافه اطالع( مثبت يادگيري •

)4-14( ∑=

=====kq

jg

kj

kjg cmPmPcP

1

)|()|()|( CMMXCX kkkk

):است C ≠ cg اضافه اطالع( منفي يادگيري •

)4-15( ∑=

≠===≠kq

jg

kj

kjg cmPmPcP

1

)|()|()|( CMMXCX kkkk

كه در آن

)4-16(

∑

∑

∑

∑

≠=

≠=

≠=

≠=

=

===

=

=

==

=

=−

==−==

≠

≠==

≠=

r

gttt

r

gtttt

kj

r

gttt

r

gttt

kj

g

gkj

kj

g

gkj

gkj

cP

cPcmP

cP

cmP

cPcmPmP

cPcmP

cmP

,1

,1

,1

,1

)(

)()|(

)(

),(

)(1),()(

)(),(

)|(

C

CCM

C

CM

CCMM

CCM

CM

kk

kkk

k

):ندارد وجود اي اضافه اطالع( تطابق •

1 - Positive learning 2 - Negative learning 3 - Adaptation


٧٠

)4-17( ∑=

===kq

j

kj

kj mPmPP

1

)()|()( kkkk MMXX

آن در كه

)4-18( ∑=

=====r

ttt

kj

kj cPcmPmP

1

)()|()( CCMM kk

ها محاسبه وزن مشاركت مولفه-گام دومهاي موجود در فضاي تمام مولفه الزم است كه نبود،Xkيجاد يك مولفه جديد در محل اگر نيازي به ا

رساني شامل به روز اين به روز. ام با توجه به محرك ديده شده و اطالع اضافه به روز شوندkادراكي P(Xk | Mk = mkكردن دو توزيع

j) و P(Mk = mkj | C) براي هر مولفة mk

j ر شود كه به ترتيب د مي الزم استها اما قبل از به روز كردن مولفه. پذيرد انجام مي5- 4هاي سوم و چهارم الگوريتم شكل گام

. و به شرط دانستن اطالع اضافه را به دست آوردXkابتدا وزن مشاركت هر مولفه در جذب محرك و Xkدن محرك كند كه آن مولفة به چه ميزان بايد از دي وزن مشاركت هر مولفه در واقع تعيين مي

ست كه هر چه ميزان مشاركت يك مولفه بيشتر باشد سهم آن ابديهي. شود دانستن اطالع اضافه متأثر 1در واقع در روش پيشنهادي يادگيري به صورت مشاركتي. مولفه از به روز رساني بيشتر خواهد بود

.شوند روز مي به خودها به اندازه ميزان مشاركت پذيرد و طي آن تمام مولفه صورت ميدر اينجا وزن مشاركت يك مؤلفه به صورت توزيع احتمال پسين آن مولفه به شرط مشاهده

P(Mk = mkيعني ( شده است بيان و دانستن اطالع اضافه Xkمحرك j | C, Info) .( اما بايد توجه كرد

:گردد ه ميگانه يادگيري به طرز متفاوتي محاسب هاي سه كه اين توزيع احتمال براي الگوريتم

:مثبت يادگيري •

)4-19(

∑

∑

=

=

===

====

====

=====

===

k

k

q

tg

kt

kt

gkj

kj

q

tg

ktg

kt

gkjg

kj

gkj

kj

cmPmP

cmPmP

cmPcmP

cmPcmP

cmPw

1

1

)|()|(

)|()|(

)|(),|(

)|(),|(

),|(

CMMX

CMMX

CMCMX

CMCMX

CXM

kkk

kkk

kkk

kkk

kk

1 - Associative


٧١

:منفي يادگيري •

)4-20(

)|()|(.1

)(

)(

)()|()|(

)()|()|(

),,(

),,(

),(

),,(),|(

16)-(4 from

,1

,1

1 ,1

,1

1 ,1

,1

gkj

kj

r

giii

r

giii

q

t

r

giiii

kt

kt

r

giiii

kj

kj

q

t

r

giii

kt

r

giii

kj

g

gkj

gkj

kj

cmPmPZ

cP

cP

cPcmPmP

cPcmPmP

cmP

cmP

cP

cmPcmPw

k

k

≠===

=

=

×

====

====

=

==

==

=

≠

≠==≠==

∑

∑

∑ ∑

∑

∑ ∑

∑

≠=

≠=

= ≠=

≠=

= ≠=

≠=

CMMX

C

C

CCMMX

CCMMX

CMX

CMX

CX

CMXCXM

kkk

kkk

kkk

kk

kk

k

kkkk

:تطابق •

)4-21( )()|(.1)|( kj

kj

kj

kj mPmP

ZmPw ===== kkkkk MMXXM

شايان ذكر است كه در الگوريتم يادگيري مثبت از آنجا كه اطالع ما در مورد مفهوم مرتبط با يادگيري را به صورت ) دانيم ك را دقيقاً مييعني مفهوم مرتبط با محر(محرك ديده شده دقيق است

اي كه بيشترين ميزان مشاركت بدين ترتيب كه در هر بار يادگيري تنها مولفه.ايم ه انجام داد1حريصانهها و پيدا كردن پس از محاسبه وزن مشاركت مولفهالزم استبدين منظور . شده استرا دارد به روز

با اين كار عمالً تمام سهم به . ها را صفر نمود بقيه وزنبيشترين وزن مشاركت، آن را يك و البته بايد به اين نكته توجه شود كه استفاده از روش حريصانه .شود روزرساني به يك مولفه اعطا مي

.ا داشته باشده وزنتنها در صورتي منطقي است كه وزن مشاركت بيشينه اختالف فاحشي با ساير

ها يع هر يك از مولفهرساني توز به روز-گام سومmk مولفة كردن روز به در قدم اولين

j است آن توزيع رساني روز به )P(Xk | Mk = mkj).( چارچوب در

][4 ماتريس رساني روز به واسطة به امر اين پيشنهادي ×=kq

kj

kj

kj

kj

kD νβμα گردد مي مقدور. براي كه است t احتمال توزيع توابع پارامترهاي حاوي ماتريس اين شد، داده توضيح قبالً كه طور همان

1 - Greedy


٧٢

هر براي پارامترها اين روزرساني به هاي فرمول .شوند مي استفاده ها مولفه هاي احتمال توزيع كردن مدل

:[Neapolitan 03]است زير قرار به و يكسان تطابق و منفي مثبت، يادگيري الگوريتم سه

]..1[ kqj ∈∀

)4-22( Tkj

kkj

kkj

kj

kj

kjk

jkj XX

wv

wv))(( μμββ −−

++←

)4-23( )( kj

kkj

kj

kjk

jkj X

wv

wμμμ −

++←

)4-24( kj

kj

kj w+←αα

)4-25( kj

kj

kj wvv +←

wk آنها در كهj مؤلفه مشاركت وزن بيانگر mk

j سه براي )21-4( تا )19-4( روابط طريق از كه است

.گردد مي محاسبه يادگيري مختلف الگوريتم

ها زن مولفهرساني و به روز-گام چهارمmkرساني مؤلفه روز گام بعدي براي به

j به روز كردن وزن آن يعني P(Mk = mkj | C = ci) به ازاء تمام

P(Mk = mkطور كه در قسمت قبلي نشان داده شد، همان. است ci (i = 1..r)هاي مفهومj | C = ci) از

xrqام ماتريس iون سازي روي ست شود كه در واقع يك نرمال محاسبه مي) 6-4(رابطه kji

kk

bB ][= Bkام الزم است كه عناصر ماتريس kهاي فضلي ادراكي روز رساني وزن مولفه بنابراين براي به . است

.به روز شوند واقع Bkام ماتريس iام و ستون jاي كه در سطر طور كه در قسمت قبل گفته شد، درايه همانbk(شده است

ji (هاي مشاهده شده است كه در آن واحد هم به مفهوم بيانگر تعداد محركci متعلقند mkو هم توسط مؤلفه

j از سوي ديگر وزن . اند جذب شدهwkj) سهم ) كه در گام قبلي محاسبه شد

mkمؤلفه j را از محرك ديده شده Xkتوان نتيجه گرفت كه بنابراين مي. كند بيان ميwk

j سهم سطر j ام است كه بايستي بر اساس اطالع اضافه داده شده به الگوريتم بين Xkمحرك از مشاهده Bkماتريس

.هاي اين سطر تقسيم شود درايه


٧٣

است، cgدانيم محرك ديده شده متعلق به مفهوم در الگوريتم يادگيري مثبت، از آنجا كه مي •wkتوان به سادگي هر وزن مي

j را به صورت كامل به دراية واقع شده در ستون g سطر ام درi ام(bk

ig) نسبت داد :

)4-26( kj

kjg

kjg wbb +←]..1[ kqj ∈∀

. شود به روز ميBkام ماتريس gبنابراين در الگوريتم ياديگري مثبت تنها ستون با اعمال مستقيم قاعده يادگيري زير بر روي ) 26- 4(روزرساني استفاده از رابطة به 1-2-4 لم

P(Mk = mkتوزيع j | C = ci)معادل است :

)4-27( [ ])|(1)(#

1

)|()|(

gkj

kj

g

gkjg

kj

cmPwc

cmPcmP

==−+=

+==←==

CMC

CMCM

k

kk

بندي طبقهcgهاي مشاهده شده تاكنون است كه به عنوان مفهوم در آن تعداد محرك(C = cg)#كه .اند شده

P(Mk = mk، )6-4( با توجه به رابطه :اثباتj | C = ci)4(روزرساني پس از اعمال رابطة به-

:آيد به شكل زير در مي) 26

( )

[ ])|(1)(#

1)|(

)(#1)(#1

)(#

1)(#)(#).(#).(#

)(#)(#

1)(#

1)(#1

)|(

1

gkjOld

kj

gg

kjOld

g

kjik

jgg

kji

gg

kji

kji

kjig

kjg

g

g

g

kji

kj

g

kji

kj

q

t

kti

kji

kj

gkjNew

cmPwc

cmP

cb

wcc

b

ccbbbcwc

cc

cbw

cbw

b

bwcmP

k

==−+=

+===

⎥⎥⎦

⎤

⎢⎢⎣

⎡

=−

+=+

==

+==

−+=+==

=

=×

+=

+=

+=

+=

+

+===

∑=

CMC

CM

CCC

CCCC

CC

C

CCM

kk

k

P(Mk = mk، مقدار )26-4(با اعمال رابطه : باال يك پيام مهم داردلم j | C = ci) در هر لحظه برابر

wkاست با ميانگين حسابي مقادير jهاي مشاهده شده تاكنون كه به عنوان مفهوم براي تمام محركcg

.اند بندي شده طبقه به Xk منفي تنها اطالعي كه ما داريم اين است كه محرك از سوي ديگر، در الگوريتم يادگيري •

اينكه آيا اين محرك واقعاً به كداميك از مفاهيم موجود تعلق دارد را . تعلق نداردcgمفهوم


٧٤

دانيم به محرك مشاهده كه مي(ام g به جز ستون Bkبنابراين تمام ستونهاي ماتريس . دانيم نميwkاما مسأله اينجاست كه چگونه وزن . كنيم را به روز مي) ارتباط است شده بي

j را بين wkام ماتريس تقسيم كنيم؟ در اينجا وزن jهاي سطر درايه

jهاي سطر را به نسبت مقادير درايهjكنيم بدين معني كه هر چه مقدار يك درايه واقع در سطر ها تقسيم مي ام بين اين درايهj ام

wkبيشتر باشد سهم آن درايه نيز از jرساني روز در اين صورت رابطه به. شتر خواهد بود بي

: در اين حالت به صورت زير خواهد بودBkماتريس

)4-28(

⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜

⎝

⎛

+←≠∈∈∀

∑≠=

r

gtt

kjt

kjk

jikjik

b

wbbgiqjri

,1

1 :],..1[],..1[

: يادگيري زير معادل است استفاده از رابطه به روز رساني باال با اعمال قاعده 2- 2-4لم

)4-29( [ ])|(1)(#

1

)|()|(

gkj

kj

g

gkjg

kj

cmPwc

cmPcmP

≠=−+≠

+≠=←≠=

CMC

CMCM

k

kk

cgهاي مشاهده شده تاكنون است كه جزو مفاهيم ديگري به جز در آن تعداد محرك(C ≠ cg)#كه .اثبات مشابه حالت مثبت است. اند بندي شده طبقه

در الگوريتم ) 28-4(رساني روز توانيم نتيجه بگيريم كه با اعمال رابطة به مشابه حالت مثبت، ميP(Mk = mkيادگيري منفي، مقدار

j | C ≠ cg)ي مقادير در هر لحظه ميانگين حسابwkj براي تمام

. اند بندي شده طبقهcgهاي مشاهده شده تاكنون است كه به عنوان مفهومي به غير از محركدر نهايت در الگوريتم تطابق، از آنجا كه هيچ اطالعي در مورد مفهوم مرتبط با محرك مشاهده •

:كنيم مي را با استفاده از رابطه زير به روزBkنداريم، تمامي ستونهاي ماتريس

)4-30(

⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜

⎝

⎛

+←∈∈∀

∑=

r

t

kjt

kjk

jikjik

b

wbbqjri

1

1 :]..1[],..1[


٧٥

يادگيري تابع توزيع احتمال پيشين مفاهيم -4-2-2 بيانگر اعتقاد اوليه عامل در مورد فركانس مشاهده مفاهيم P(C)تابع توزيع احتمال پيشين مفاهيم

كه (ها نداشته باشد اما اگر عامل از پيش دانش خاصي نسبت به اين فركانس. استمختلف در محيط كه اين توزيع را در ابتدا به صورت يك توزيع الزم است، )هاي واقعي و برخط چنين است يستمدر س

طور كه احتمال يكنواخت در نظر گرفت و سپس به تدريج با مشاهدات عامل آن را تخمين زد، همانriaA با بردار P(C)قبالً گفته شده توزيع احتمال پيشين ×= در آن (ai)ام iدرايه شود كه مدل مي][1

بنابراين براي . اند بندي شده طبقهcgهاي مشاهده شده است كه به عنوان مفهوم بيانگر تعداد محركبدين . به ازاء مشاهده هر محرك يك بار به روز شودA كه بردار الزم است P(C)تخمين توزيع

شود پيشنهاد شده فراخواني مي كه در گام هفتم الگوريتم اصلي 6- 4منظور الگوريتم يادگيري شكل .است

}

1 :]..1[

1

1 :],..1[

)(

1

)( {

n)informatio additional:(

raari

thenInfoifelser

aagiri

thencCInfoifelse

aa

thencCInfoif

InfoprioriAUpdate

ii

ii

g

gg

g

+←∈∀

≡−

+←≠∈∀

≠≡

+←

=≡

−−

φ

يادگيري توزيع پيشين مفاهيم پيشنهادي برايلگوريتم ا-6-4 شكل

بسيار شبيه به گام چهارم الگوريتم يادگيري 6-4شود، الگوريتم شكل طور كه ديده مي همانلگوريتم يادگيري مثبت، در ا. شد به روز ميBkكند كه در آن ماتريس نمايي عمل مي تابع درست

A (ag)ام بردار g تعلق دارد بنابراين بايد يك واحد به درايه cgمحرك مشاهده شده قطعاً به مفهوم cgهايي كه به مفهومي غير از يادگيري منفي تعداد تمام محركاز سوي ديگر در الگوريتم. اضافه نمود

و در نهايت در الگوريتم تطابق از آنجا كه . يابد افزايش (r-1)/1 كه به اندازه الزم استند هستمرتبطهاي در دسترس نيست تمامي مولفهXهيچ اطالعي در مورد مفهوم مرتبط با محرك مشاهده شده

. افزايش يابندr/1 بايستي كه به اندازه Aبردار


٧٦

1هاي نابالغ مؤلفه -4-2-3mkهاي ه، توزيع هر يك از مؤلف)1- 4(با توجه به مدل توسعه داده شده در قسمت

j در چارچوب در يك توزيع چند vپارامتر )). 13-4(رابطة (شود مدل ميtپيشنهادي به صورت توزيع چندمتغيره

شكل گرفته است را tهايي كه بر اساس آنها توزيع طور كه قبالً گفته شد تعداد نمونه همانtمتغيره ترتيب كه يك تابع توزيع چندمتغيره بدين ،در اينجا يك محدوديت رياضي وجود دارد. دهد نشان مي

t تنها در صورتي معنادار است كه پارامتر vبه عبارت ديگر تعداد . آن از بعد فضاي ادراكي بيشتر باشد كه حداقل يك واحد از الزم استگيرد بر اساس آنها شكل ميtهايي كه يك توزيع چند متغيره نمونه

معني بيtدر غير اين صورت توزيع . ت بيشتر باشدبعد فضايي كه توزيع در آن تعريف شده اسهايي براي مؤلفهv نشان داده شده است پارامتر 5- 4 شكلطور كه در الگوريتم اما همان. خواهد بود

كند شود كه عمالً محدوديت مذكور را ارضا نمي دهي مي شوند به مقدار يك مقدار كه تازه ايجاد مي. كند حالت يك بعدي است كه باز هم محدوديت مذكور را ارضا نميچرا كه فضاي ادراكي در بهترين

ترتيب كه در الگوريتم بدين. منطقي استvاز سوي ديگر فلسفه اين مقداردهي اوليه براي پارامتر براي v بنابراين پارامتر .شود يك مؤلفه جديد بر اساس مشاهدة يك محرك ايجاد مي5- 4شكل

كه در ابتدا به مقدار يك مقداردهي شود و فقط در صورتي افزايش استالزم توزيع اين مولفه جديد .هاي ديگري را نيز جذب كند يابد كه آن مؤلفه در طي فرآيند يادگيري محرك

را جذب نكرده باشند tنيمم تعداد محرك براي تشكيل توزيع هايي كه مي اصطالحاً به مؤلفههاي نابالغ براي مدل كردن توزيع مؤلفهt توزيع چند متغيره توانيم از از آنجا كه نمي. گوئيم نابالغ مي

حل ساده براي يك راه. ها بيابيم كه راهي جهت مدل كردن توزيع اين مؤلفهالزم استاستفاده كنيم هاي جذب اين مسأله اين است كه با استفاده از بردار ميانگين و ماتريس كوواريانس تجربي محرك

عالوه بر . لغ براي توزيع آن مولفه از توزيع چندمتغيره نرمال استفاده كنيمشده توسط يك مؤلفة ناباkطور كه قبالً گفته شد اين همان

jμ و kjβ به ترتيب بردار ميانگين تجربي و ماتريس كوواريانس

mkهايي هستند كه توسط مؤلفة تجربي محركj راين براي برطرف كردن مشكل بناب. اند جذب شده

:را به شكل زير تغيير دهيم) 13-4(توانيم رابطة هاي نابالغ مي توزيع مولفه

1 - Premature


٧٧

)4-31( ( )( )⎪⎪⎩

⎪⎪⎨

⎧+≥⎟

⎟

⎠

⎞

⎜⎜

⎝

⎛

+

+−+−

==

∈∈∀

−

otherwise ),;(

1 if 1

1,,1;

)|(

:]..1[],..1[

1

kj

kj

k

kkj

kjk

j

kkj

kjk

jkkj

kj

k

XN

nvv

nvnt

mP

qjNk

βμ

βα

μαk

kk

X

MX

دارد كه براي محاسبه توزيع اين رابطه در حقيقت بيان مي. باشد ام ميk در آن بعد فضاي ادراكي nkكه تنها در صورتي استفاده نمود كه دانش و اعتقاد كافي tره توان از توزيع چندمتغي يك مؤلفة نوعي مي

كه از توزيع چندمتغيره نرمال به منظور الزم استنسبت به آن مؤلفه داشته باشيم در غير اين صورت .مدل كردن دانش ناقص و تجربي در مورد يك مؤلفه استفاده نمود

هاي هرس كردن و يادگيري مجدد مكانيزم -4-2-4ترتيبي الگوريتم يادگيري پيشنهادي در اين قسمت، گام اول الگوريتم يادگيري تابع با توجه به طبيعت

هاي بيش از حد و ممكن است كه منجر به ايجاد مؤلفه) هاي جديد ايجاد مؤلفه(نمايي درستهاي اي است كه در طي فرآيند يادگيري تعداد نمونه بالاستفاده مؤلفه منظور از مؤلفه. بالاستفاده گردد

mkبالاستفاده بودن مؤلفة نوعي . كند اچيزي جذب مينjاگر پس از : توان به راحتي تشخيص داد را مي

P(Mk = mkيك اجراي طوالني الگوريتم يادگيري توزيع j)توان نيمم كمتر بود مي از يك مقدار مي

mkنتيجه گرفت كه مولفه j در بالاستفاده هاي مؤلفه ضعيف مشاركت به توجه با .است بوده استفاده بال

راندمان ناكارآمدي باعث هم و است بر حافظه هم آنها نگهداري شده، ادراك هاي محرك جذب

هاي مؤلفه چندگاه از هر بردن بين از منظور به كردن هرس مكانيزم .شود مي يادگيري الگوريتم محاسباتي

الگوريتم طوالني اجراي به يازن بالاستفاده هاي مؤلفه تشخيص كه آنجا از .است شده ايجاد بالاستفاده

و يادگيري فرآيندهاي به نسبت كمتري فركانس با كردن هرس مكانيزم كه بايستي دارد، يادگيري .گردد فراخواني گيري تصميم

به آن كردن هرس باشد، شده ايجاد 1پرت نمونه يك مشاهده اثر در بالاستفاده مؤلفة يك اگر

آن كه هايي محرك اثر عمالً بالاستفاده مؤلفة يك كردن هرس با نباشد گونه اين اگر اما .است كافي تنهايي

را بالاستفاده مؤلفه يك مركز توان مي اثر اين بازسازي منظور به .بريم مي بين از را اند داده تشكيل را مولفه

اين مجدد يادگيري فرآيند اين در كه اميد اين به نمود يادگيري دوباره فرضي محرك يك عنوان به

مجدد يادگيري مكانيزم كه است ضروري نكته اين ذكر .شود ديگر مؤلفه يك جذب فرضي محرك

1 - Outlier


٧٨

.كند مي بازآفريني دوباره را باشند شده ايجاد پرت نمونه يك مشاهده اثر در كه اي بالاستفاده هاي مؤلفه .داد انجام مجدد يادگيري كردن هرس از پس نبايد هميشه مشكل اين از جلوگيري براي


٧٩

گيري و نتيجهخالصه -4-3بدين منظور ابتدا شبكه بيزي به كار گرفته شده . در اين فصل چارچوب پيشنهادي به تفصيل بيان شد

هاي سپس به بيان فرم.سازي چارچوب پيشنهادي و نحوه به دست آوردن آن توضيح داده شد در مدلسازي، يك الگوريتم پس از مدل. يمهاي وابسته به شبكه پرداخت تابعي استفاده شده براي توزيع احتمال

اين الگوريتم كه خود از يك . يادگيري به منظور يادگيري در شبكه بيزي طراحي شده توسعه داده شدنمايي براي فضاهاي الگوريتم يادگيري توزيع پيشين و يك سري الگوريتم يادگيري تابع درست

هايي كه عامل به ازاء از نمونهمختلف ادراكي تشكيل شده بود توانايي آن را داشت كه هم گيري هايي كه به خاطر تصميم گيري در مورد آنها تشويق شده است بياموزد و هم از نمونه تصميم

اين ويژگي به طور مشخص سيستم پيشنهادي را از يك . شده استجريمهغلط در مورد آنها ه با دانش ناچيز زندگي خود را در ساخت ك كرد و عامل را قادر مي كننده كالسيك متمايز مي بندي طبقه

يك محيط واقعي ناشناخته آغاز كرده و به تدريج از آن محيط فرا بگيرد و عملكرد خود را بهبود .بخشد

داده شده در اين فصل چه در قالب سازي چارچوب توسعه به بيان نتايج پيادهدر فصل بعدي، .پردازيم هاي عملي مي سازي و چه در قالب آزمايش شبيه


٨٠

فصل پنجم5 سازي نتايج پياده

5 5


٨٢

سازي نتايج پياده –فصل پنجم

٨٣

مدل توسعه داده شده در فصل قبل چه از نظر تئوري و چه از نظر عملي، منظور نشان دادن توانايي به .شود هاي انجام شده و نتايج هريك بيان مي در اين فصل آزمايش

الگوريتم ، يك مساله كامال مجرد به منظور نشان دادن قدرت تخميندر قسمت اول اين فصل. سازي طراحي شده است براي شبيه و مزاياي يادگيري در چند فضاي ادراكييادگيري پيشنهادي

هاي مشخص در نظر گرفته سازي يك سري مفهوم با توزيع مساله شبيه در اينطور مشخص بهاس اين براس. شود ها توليد و به عامل نشان داده مي شوند، كه بر اساس آنها يك دنباله از محرك مي

كه با بكارگيري مدل پيشنهادي، توزيع واقعي مفاهيم مختلف را تخمين الزم استمشاهدات عامل .زده و به واسطه آن ميزان پاداش دريافتي از محيط را در طول زمان افزايش دهد

از سوي ديگر، در قسمت دوم اين فصل، دو آزمايش عملي با هدف نشان دادن قابل استفاده هاي واقعي و مزيت يادگيري در چندين فضاي ادراكي طراحي شده و نهادي در محيطبودن مدل پيش

ها، رفتار دنبال كردن ديوار به عنوان در هر دوي اين آزمايش. مورد بررسي قرار گرفته استها آننتايجدر . گرفته شود انتخاب شده استد پاك يا رفتار هدف كه قرار است توسط يك ربات متحرك اي

اول كه هدف به طور مشخص نشان دادن قابليت كاربري روش پيشنهادي در يك مساله آزمايش از . گيرد مي قرمز فرا بعدي حسگرهاي مادون واقعي است، ربات رفتار مورد نظر را در فضاي هشت

سوي ديگر، آزمايش دوم كه به منظور نشان دادن مزيت يادگيري در چندين فضاي ادراكي طراحي به فضاي حسي )قرمز فضاي مادون ( انتقال دانش ربات از يك فضاي حسي، چگونگيشده است .دهد را نشان مي)فضاي بينايي (ديگرش

كالس در زبان منظوره همهشايان ذكر است كه چارچوب پيشنهادي در قالب يك كتابخانهJavaپياده شده است .


٨٤

سازي نتايج شبيه -5-1 .پردازيم ميها ي شده و بررسي نتايج آنساز مسأله شبيه دودر قسمت اول اين فصل به شرح

سازي اول شبيه -1-1- 5 سازي هدف شبيه

. استسازي نشان دادن كارايي و قدرت تخمين الگوريتم يادگيري پيشنهادي هدف اصلي از اين شبيهدر واقع، در اين . خواهد بودسازي شده يك مساله كامالً مجرد و رياضي رو مسأله شبيه از اين .را تخمين بزنيممعين هيم يك مدل هدف با تعداد مفهوم خوا سازي مي شبيه

شرح مسأله هاي هدف تعدادي در هر يك از مدل. سازي شده شامل تخمين دو مدل هدف مجزا است مسأله شبيه

رود كه روش نمايي مشخص در نظر گرفته شده است و انتظار مي هاي پيشين و درست مفهوم با توزيعها هاي هدف به صورت ترتيبي اين توزيع هايي از اين توزيع با دريافت نمونهيادگيري پيشنهادي بتواند

نمايي به شايان ذكر است كه به منظور بررسي كارايي الگوريتم يادگيري تابع درست. را تخمين بزند بعدي 2اند همگي با يك فضاي ادراكي هايي كه در اين قسمت انجام شده سازي صورت مجزا، شبيه

زمان در چند ها، فوائد يادگيري هم سازي رود كه با انجام اين شبيه لذا انتظار نمي. اند تهانجام پذيرفست كه توزيع اهمچنين ذكر اين نكته ضروري. فضاي ادراكي به صورت ملموس ديده شود

ها به صورت تابع چند متغيره نرمال در نظر سازي نمايي هدف در اين شبيه هاي توابع درست مولفه .ده استگرفته ش

در . پردازيم سازي در هر گام زماني مي پس از بيان اين مقدمات به توضيح چگونگي فرآيند شبيه به صورت تصادفي Pt(C)هر گام زماني يكي از مفاهيم مفروض بر اساس توزيع احتمال هدف

هاي هدف بر اساس توزيع هدف پس از آن يكي از مؤلفه. گوئيم ميcsشود كه به آن انتخاب ميPt(Mk | C = cs)شود كه به آن به صورت تصادفي انتخاب ميm1

uبعد از آنكه . گوئيم ميm1u

Pt(X1 | M1 = m1 بر اساس تابع چگالي احتمال هدف X1 يك بردار نمونه ،مشخص شدu) به صورت

توليد شد آن را به عنوان يك محرك خارجي به عامل X1به محض اينكه . شود تصادفي توليد مياگر ). cgهمان (گويد را به ما ميX1 با مرتبطيم و به تبع آن عامل حدس خود در مورد مفهومده ميcg و csدر غير اين . دهيم مي+) 1( درست سيگنال پاداش گيري يك مفهوم بودند به عامل بابت تصميم

.به عامل داده خواهد شد) - 1 (جريمهصورت سيگنال


٨٥

نتايج به دست آمده با Pt(M1 | C) كه توسط تابع توزيع هدف است مدل هدف مشتمل بر نه مولفه ،سازي اين شبيهدر

سازي با شبيه به علت ترتيبي بودن الگوريتم يادگيري پيشنهادي،. گردند پنج مفهوم مذكور مرتبط مي. انجام شده استهستند) محرك( مشاهده 2000 مختلف از مشاهدات كه هر يك شامل بيست دنبالةها هاي مدل هدف از قبل براي عامل مشخص نيست و در طي يادگيري، مؤلفه تعداد مؤلفهاز آنجا كه

هايي كه در نهايت توسط الگوريتم پيشنهادي ايجاد شوند، تعداد مولفه به صورت ديناميك ايجاد مي هدف نه سازي نيز با اينكه مدل در اين شبيه. هاي مدل هدف برابر نيستند شوند الزاماً با تعداد مؤلفه مي

توزيع احتمال هدف 1-5 شكل .كند مولفه دارد ولي الگوريتم يادگيري در نهايت ده مؤلفه ايجاد ميPt(X1) و توزيع تخمين زده شده توسط الگوريتمP(X1) كه توسط يكي از بيست دنبالة ذكر شده

را در خود دارد هاي مدل تمام مؤلفهP(X)از آنجا كه توزيع . دهد تخمين زده شده است را نشان ميشباهت مدلهاي هدف و تخمين زده شده به صورت . براي نشان دادن نتيجه نهايي انتخاب شده است

.دهد كيفي درستي روش پيشنهادي را نشان مي

)چپ(توزيع هدف ) راست(توزيع تخمين زده شده توسط مدل -1-5 شكل

در طول 1داش دريافتيبه منظور نشان دادن كارايي الگوريتم يادگيري پيشنهادي ميانگين پا، اين كميت را براي يكي 2- 5منحني پيوسته در شكل . محاسبه و نشان داده شده است يادگيريفرآيند

دهد، الگوريتم يادگيري پيشنهادي عالوه بر گونه كه شكل نشان مي دهد همان ها نشان مي از دنبالهيك نسخه تغيير عالوه بر اين، . گذارد همگرايي سريع، رفتار مجانبي خوبي را نيز از خود به نمايش مي

يعني (كند هاي مثبت براي يادگيري استفاده مي داده شده از الگوريتم اصلي كه تنها از محركاين الگوريتم در . نيز با بيست دنباله مذكور تست شده است) ريزد هاي منفي و خنثي را دور مي محرك

1 - Average Received Reward


٨٦

2-5چين در شكل منحني خط. باشد ي اصلي مي الگوريتم يادگير1واقع نسخه كامالً با سرپرستميانگين پاداش دريافتي الگوريتم دوم براي دنباله مشابه به كار گرفته شده در محاسبه منحني پيوسته را

توان نتيجه گرفت كه الگوريتم اصلي كه عالوه بر با توجه به اين دو نمودار مي. دهد نشان ميگيرد، چه از نظر سرعت همگرايي و چه از نثي نيز ياد ميهاي منفي و خ هاي مثبت از محرك محرك

دنباله 18اين برتري براي . نظر رفتار مجانبي نسبت به نسخه كامالً با سرپرست الگوريتم برتري دارددر : ست اعلت اين برتري نيز بديهي. سازي مشاهده شد دنباله مشاهدات استفاده شده در شبيه20از

ليل عدم آگاهي كافي از توزيع مفاهيم مختلف، عامل در حدس زدن مفاهيم ابتداي زندگي عامل به دكند كه اين خود باعث ايجاد مقادير زيادي مشاهدات منفي و مرتبط با مشاهدات خود زياد اشتباه مي

گيري از كند تا عالوه بر مشاهدات مثبت با بهره الگوريتم پيشنهاد شده در واقع سعي مي. شود خنثي مي .ه مشاهدات كه در ابتداي زندگي عامل زياد نيز هستند سريعتر به نقطه هدف همگرا شودگون اين

0 200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

ميانگين پاداش )نمودار پيوسته( ميانگين پاداش دريافتي در طول زمان براي الگوريتم يادگيري پيشنهادي -2-5 شكل

)چين خطنمودار(دريافتي در طول زمان براي نسخه كامال باسرپرست الگوريتم يادگيري پيشنهادي

در حقيقت الگوريتم يادگيري ) چه مثبت چه منفي و چه خنثي(يادگيري از همه مشاهدات هاي برخالف بسياري از الگوريتم. كند بندي كالسيك متمايز مي هاي طبقه پيشنهادي را از روش

ش بندي كه در ابتداي امر به حجم زيادي نمونة مثبت براي يادگيري از صفر نياز دارند، رو طبقه 1 - Pure supervised


٨٧

اين ويژگي . كند براي يادگيري استفاده مي) چه منفي و چه خنثي،چه مثبت (اي پيشنهادي از هر نمونهما را قادر خواهد ساخت تا از اين روش در مسائل يادگيري ترتيبي در دنياي واقعي كه در آن هيچ

به . استفاده كنيمشود وجود ندارد هايي كه به الگوريتم يادگيري داده مي كنترلي بر روي نوع محرك سيستم يادگيري به ميزان 1بيان ديگر با استفاده از الگوريتم يادگيري پيشنهادي، قابليت تعامل

.گيري افزايش خواهد يافت چشم

سازي دوم شبيه -1-2- 5 سازي هدف شبيه

قع در در وا. سازي دوم نشان دادن مزيت يادگيري در بيش از يك فضاي ادراكي است هدف از شبيهباال در صورت امكان نشان دهيم به جاي يادگيري در يك فضا با بعد خواهيم ازي ميس اين شبيه

و با استفاده از چارچوب پيشنهادي مفاهيم واحد را توانيم آن را به چندين زير فضا تقسيم نموده مي .در همه زير فضاها طوري فرا گيريم كه عملكرد عامل بهبود يابد

مسألهشرح بعدي مشابه با فضاي دو بعدي مساله هدف مذكور، يك فضاي مجرد پنجبه منظور دستيابي به

اي گونه بهتوان آن را به دو زيرفضاي دو و سه بعدي سازي قبل در نظر گرفته شده است كه مي شبيههدف يادگيري پنج . برقرار باشدها بين آنتقسيم نمود كه شرط استقالل شرطي فضاهاي ادراكي

منظور ابتدا يك بار، مانند بدين . استبعدي در اين فضاي پنجاي مشخصه با توزيعمفهوم مجردسپس . گيريم بعدي ياد مي قبل، با استفاده از مدل پيشنهادي مفاهيم را در فضاي ادراكي پنج سازي شبيه

با تقسيم اين فضا به دو زير فضاي دو و سه بعدي، مفاهيم را از اول در هر يك از زيرفضاها به شكل دو زير فضا به صورت موازي در ساختار پس از آن، يادگيري را در حالتي كه .گيريم ه فرا ميجداگان

اي تكرار گونه سازي را به در نهايت، شبيه. اند از اول تكرار خواهيم كرد پيشنهادي قرار داده شدهه سيستم بعدي ب در آن ابتدا در فضاي دو بعدي مفاهيم يادگرفته شده و سپس فضاي سه كنيم كه مي

در واقع تفاوت دو حالت آخر اين است كه .شود تا در كنار فضاي دوبعدي تعليم داده شود اضافه مياي كه در حالت دوم فض كنند در حالي در حالت اول دو زيرفضاي ادراكي با هم شروع به يادگيري مي

.شود ستم يادگيري اضافه ميبعدي با اندكي تاخير به سي سه

1 - Interactivity


٨٨

اي گونه بعدي در اين مساله به ر اينجا اين است كه زيرفضاهاي دو و سهنكته حائز اهميت داين ابهام به خصوص در مورد زيرفضاي . باشند 1اند كه داراي ابهام و همگوني ادراكي طراحي شده

. را از هم تشخيص داد c1, c2توان دو مفهوم اي كه در آن نمي گونه دوبعدي بسيار شديد است به ولي اين از يكديگر ابهام وجود دارد c4, c5اي سه بعدي در تشخيص دو مفهوم همچنين در زيرفض

در عوض زيرفضاي سه بعدي عالوه بر بعد . فضاي دو بعدي نيست ابهام موجود درابهام به شدت كه يادگيري را تري نسبت به زيرفضاي دو بعدي برخوردار است باالتر از ساختار احتماالتي پيچيده

شود و فضاي سه بعدي با نه طور مشخص فضاي دوبعدي با چهار مولفه مدل مي به (كند كند ميكوشيم تا عملكرد سيستم يادگيري و سازي مي در اين شبيه توجه به اين مشخصات، با .)مولفه

در مرحله اول سعي شده است تا با تقسيم فضاي . در دو مرحله بهبود بخشيمگيري را تصميمطور بر مشكل نفرين بعديت فائق آييم و سرعت يادگيري را به بعد كمتربعدي به دو زيرفضا با پنج

با استفاده از ساختار پيشنهادي در مرحله دوم سعي شده است كه سپس . گيري افزايش دهيم چشمهاي يكديگر را ، دو زيرفضاي مذكور بتوانند كاستيبراي يادگيري موازي در فضاهاي ادراكي مختلف

همچنين نشان . بهبود يابدگيري طور چشم باز هم بهاسطه آن عملكرد كل سيستمو جبران نموده تا بهداده شده است كه با ايجاد وقفه در اضافه نمودن فضاهاي جديد عملكرد ربات در مراحل نخستين

.يادگيري باز هم بهبود خواهد يافت

نتايج به دست آمدهبعدي را نشان پنجر هنگام يادگيري در فضاي ميانگين پاداش دريافتي د3-5چين در شكل خطنمودار

شود به علت بعد باال و پيچيدگي فضا، سرعت يادگيري به شدت كم طور كه ديده مي همان.دهد مي و دواين در حالي است كه هم سرعت يادگيري و هم نقطه همگرايي در هريك از زيرفضاهاي . استين مساله لزوم تفكيك فضاهاي بزرگ به ا.ستبعدي اصلي ا پنج بعدي به مراتب بهتر از فضاي سه

هاي اختالف نموداراز سوي ديگر .دهد را به خوبي نشان مي) در صورت امكان(زيرفضاهاي كوچكتر قابل 3-5در شكل ) دار نمودار ستاره(بعدي سهفضاي و) دار نمودار مثلث(بعدي دويادگيري فضاي

شود، اما از آنجا ساده بودن فضا به سرعت همگرا ميبعدي به دليل دويادگيري در فضاي .توجه است ديگر بهتر از وشود صاف مي% 60كه در اين فضا ابهام زيادي وجود دارد نمودار يادگيري در حدود

تري روبرو هستيم، سرعت بعدي از آنجا كه با فضاي پيچيده سهاز سوي ديگر، در فضاي . شود آن نميدار است و اما به دليل ابهام كمتر، منحني يادگيري شيب. تر استبعدي كمدويادگيري نسبت به فضاي

.زند بعدي جلو ميدو گام يادگيري از منحني فضاي 1700شود تقريبا پس از طور كه ديده مي همان 1 - Perceptual Aliasing


٨٩

0 200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Cycles

Ave

rage

Rec

eive

d R

ewar

d

به تنهاييبعديدو، فضاي )چين نمودار خط(بعدي پنج ميانگين پاداش دريافتي در طول زمان براي فضاي -3-5 شكل

)دار نمودار ستاره(به تنهايي بعدي سهو فضاي ) دار لثنمودارمث(

زمان در شود بلكه نكته اصلي يادگيري هم جا ختم نمي سازي فرآيند يادگيري به همين اما بهينه ميانگين 4- 5 نمودار پيوسته در شكل .بعدي با استفاده از چارچوب پيشنهادي است سه و دودو فضاي

صورت پذيرد را با استفاده از چارچوب پيشنهادي وي به شكل موازييادگيركه پاداش دريافتي وقتيشود منحني يادگيري در اين حالت چه از نظر سرعت طور كه مشاهده مي همان. دهد نشان مي

يافته ها زيرفضاگيري نسبت به يادگيري مجزا در همگرايي و چه از نظر نقطه همگرايي بهبود چشمدر واقع با : گير نيز روشن است دليل اين بهبود چشم. آل رسيده است يدهكارايي ا% 95است و تقريبا به

بعدي در مدل پيشنهادي، اين دو فرآيند با سه و دوكنار هم قرار دادن دو فرآيند يادگيري دو فضاي دهند و هم باعث هاي يكديگر عمال هم سرعت همگرايي را افزايش مي ها و ابهام جبران كاستي

توان به مزيت استفاده از از اين رو مي.دگيري به كارايي بهينه نزديك شودشوند كه كل يا مي .گونه از مسائل پي برد چارچوب پيشنهادي در اين


٩٠

0 200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Cycles

Ave

rage

Rec

eive

d R

ewar

d

، )نمودار پيوسته(بعدي سهودو زمان در فضاهاي ميانگين پاداش دريافتي در طول زمان براي يادگيري هم-4-5 شكل

)دار نمودار ستاره(بعدي به تنهايي سهضاي و ف) دار نمودارمثلث(بعدي به تنهايي دوفضاي

توان با ايجاد يك تاخير بين يادگيري در شود اين است كه آيا مي پرسشي كه در اينجا مطرح ميسازي را براي پاسخ به اين سوال، شبيه. دو فضاي مذكور سرعت يادگيري را باز هم بهبود بخشيد

تر است شروع شده و پس از بعدي كه سادهدودر فضاي ايم كه ابتدا يادگيري اي تكرار كرده گونه بهيادگيري گام 2000بعدي را پس از سه فضاي .بعدي به فرآيند يادگيري افزوده شود سهمدتي فضاي

.كنيم به سيستم اضافه ميبعدي دودر فضاي . دهد در اين حالت را نشان مي ميانگين پاداش دريافتي 5- 5چين در شكل نمودار خط

دليل اختالف اندك . شود سرعت يادگيري اندكي افزايش يافته است ه كه مشاهده ميگون همان در سادگي و در عين حال ابهام زياد توان ميزمان را هاي يادگيري در اين حالت و حالت هم منحني : بدين ترتيب كه.جستدوبعدي فضاي

مساله باعث سرعت يادگيري در آن زياد است و ايندوبعدي به علت ساده بودن فضاي • اما اگر ساختار اين .شودزمان در دو فضا از سرعت بااليي برخوردار شود كه يادگيري هم مي

به خوبي نمودار 5- 5تر باشد، ديگر سرعت همگرايي نمودار پيوسته در شكل فضا پيچيده .نخواهد بودچين كه مربوط به يادگيري با تاخير است خط


٩١

زياد است و يادگيري در آن به نقطه خيلي خوبي همگرا ي دوبعداز آنجا كه ابهام در فضاي •اما اگر . كمك چنداني به بهبود كل فرآيند يادگيري نخواهد كرد عمال يادگيري با تاخير شود نمي

از پيچيدگي كمتري برخوردار باشد مسلما ميزان يادگيري در آن نيز بيشتر دوبعدي فضاي .كند كمك ميشود بعدي كه با تاخير اضافه مي ه س به يادگيري فضايخواهد بود كه اين خود

0 200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Cycles

Ave

rage

Rec

eive

d R

ewar

d

، )نمودار پيوسته(بعدي سهودو زمان در فضاهاي ميانگين پاداش دريافتي در طول زمان براي يادگيري هم-5-5 شكل

)چين نمودار خط(و يادگيري باتاخير در دو فضا


٩٢

نتايج آزمايش عملي -5-2هدف . سازي شده است طراحي و پيادهدر اين قسمت، دو آزمايش رباتيكي براي چارچوب پيشنهادي

هاي نويزي واقعي و از اين دو آزمايش نشان دادن قابل استفاده بودن چارچوب پيشنهادي در محيطاين دو آزمايش در حقيقت نشان . باشد همچنين مزاياي يادگيري در فضاهاي ادراكي چندگانه مي

ازي و يادگيري راه را براي رسيدن به س هاي ارائه شده در اين پژوهش براي مدل دهند كه روش مي .كنند هاي مصنوعي هموار مي سيستمدر 1روياي يادگيري تدريجي

بستر آزمون -2-1- 5هاي انجام شده به معرفي بستر آزمون مشترك اين دو آزمايش قبل از تشريح هر يك از آزمايش

اين ربات . [E-Puck] استفاده شده است2پاك ها از ربات متحرك اي در هر دوي آزمايش. پردازيم ميهمچنين ربات داراي يك . اند به هشت حسگر مادون قرمز مجهز است كه حول آن قرار داده شده

640×480 است كه قابليت گرفتن تصوير از فضاي جلوي ربات را با حداكثر دقت CCDدوربين واقع است كه در4000 و 1خروجي هر سنسور مادون قرمز به صورت يك عدد صحيح بين . دارد

خروجي هشت حسگر مادون قرمز به صورت يك بردار هشت . دهد شدت نور انعكاسي را نشان ميشود و در واقع يك فضاي ادراكي هشت بعدي را بعدي در هر لحظه به الگوريتم يادگيري داده مي

ما است كه به USB Bluetoothعالوه بر اين ربات داراي سيستم ارتباطي . دهد براي عامل تشكيل ميپاك بر اي افزار محدود ربات گيري را به جاي سخت دهد تا الگوريتم يادگيري و تصميم امكان مي

و حركت در محيط حسگرهاروي كامپيوتر شخصي اجرا كنيم و از ربات تنها براي دريافت خروجي .دهد پاك واقع شده در محيط آزمايش را نشان مي ربات اي6- 5شكل . استفاده كنيم

ولآزمايش ا -2-2- 5 هدف آزمايش

به منظور نشان دادن . در آزمايش اول ربات قرار است كه ياد بگيرد چگونه يك ديوار را دنبال نمايد در آزمايش اول ،قابل استفاده بودن و همچنين كارايي چارچوب پيشنهادي براي اين مسأله يادگيري

هدف . شود ي استفاده ميگير تنها از فضاي ادراكي حسگرهاي مادون قرمز براي يادگيري و تصميم

1 - Incremental Learning 2 - E-puck


٩٣

اصلي از انجام اين آزمايش اين است كه نشان دهيم كه با استفاده از چارچوب يادگيري پيشنهادي تواند در يك محيط واقعي و نويزي از جهل مطلق شروع به زندگي كند و با گذشت ربات چگونه مي . دلخواه را انجام دهدگيرد ياد بگيرد تا وظيفه ي كه از محيط ميبازخوردزمان با توجه به

پاك ربات متحرك اي-6-5 شكل

شرح آزمايشسازي چارچوب پيشنهادي براي يك مسأله رباتيكي واقعي، به منظور پياده طور كه گفته شد، همان

ربات . ديوار پياده شده استپاك براي مسأله دنبال كردن الگوريتم پيشنهادي بر روي يك ربات اينه ديوار را دنبال نمايد بدين منظور الزم است كه ربات بتواند بين انواع ياد بگيرد كه چگوالزم است

به بيان ديگر، . هاي ديوار تمايز قائل شود تا بتواند رفتار موردنظر را از خود بروز دهد مختلف گوشههاي ربات نسبت به ديوار مجاور هستند كه هر يك پاسخ مفاهيم انواع مختلف موقعيت در اين مسأله،


٩٤

دهيم كه در يكي از گيري به ربات اجازه مي در هر گام تصميم. كنند خود را از ربات طلب ميخاصنه جهت از پيش تعيين شده

2π

− ،83π− ،

4π− ،

8π− ،0 ،

8π ،

4π ،

43π و

2πاين بدين . حركت نمايد

) مفهوم(معني است كه ربات تمام موقعيتهاي مختلف خود با ديوار را به يكي از اين نه پاسخ سازي مبتني بر اين تناظر از ديدگاه مفهوم. نمايد و يا به عبارت ديگر نه مفهوم داريم بندي مي طبقه .شود هاي ربات ناشي مي پاسخ

به منظور ارزيابي پاسخ ربات، در هر گام زماني يك سيگنال تقويتي داخلي بر اساس فاصلة ربات از ديوار در يك بازه مجاز از پيش تعيين شده باشد به اگر فاصلة. شود ربات از ديوار توليد مي

داده ) -1 (جريمه ربات سيگنال در غير اين صورت به.شود داده مي+) 1 (پاداشربات سيگنال .شود مي

پذير است كه ربات با توجه به اين واقعيت كه يادگيري در اين مسأله خاص تنها زماني امكان در نظر گرفته شده است كه 1نزديك به ديوار باشد، براي ربات يك رفتار غريزي گشتن در محيط

واضح است كه در صورت فعال . شود ل مي فعاخودكارشود به صورت كه ربات از ديوار دور مي وقتيشود كه شدن اين رفتار غريزي الگوريتم يادگيري متوقف شده و تنها در صورتي دوباره فعال مي

با استفاده از اين تكنيك ناظر . حسگرهاي مادون قرمز وجود مانعي در نزديكي ربات را گزارش كنند .انساني نيازي به دخالت در فرآيند يادگيري ندارد

بر روي 2اگر چه خروجي حسگرهاي مادون قرمز بسيار نويزي است، هيچ روش بهبود ويژگيخروجي حسگرها اعمال نشده است جز اينكه خروجي هر حسگر مادون قرمز به صورت خطي در

براي ] -5/2 و 5/7[شايان ذكر است كه فاصله مطلوب در بازه . نرمال شده است] -5/2 و 5/7[بازه .باشد مي] 0 و 25/6[دن ديوار بازة مسأله دنبال كر

نتايج آزمايش نمودار ميانگين 7-5شكل . انجام شده است3 گام يادگيري در يك محيط لگو2000آزمايش اول براي

اي از قبيل نويزي بودن رغم مسائل پيچيده علي. دهد پاداش دريافتي در طول اين آزمايش را نشان ميضاي ادراكي و طبيعت ترتيبي مسأله يادگيري مطرح شده، عملكرد حسگرهاي مادون قرمز ، بعد زياد ف

همانطور كه قبالً گفته شد، الگوريتم يادگيري طوري (كند شروع به بهتر شدن ميبه تدريجربات توان در رفتار اين بهبود را مي). نيز ياد بگيرد خودطراحي شده است كه ربات بتواند از اشتباهات

1 - Wandering 2 - Feature conditioning approach 3 - LEGO


٩٥

ه با هگيرد كه در مواج گونه كه ديده شد ربات پس از مدتي ياد مي همان .ربات نيز مشاهده كرد . هاي مختلف با ديوار بهتر عمل نمايد موقعيت

200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

cycles

aver

age

rece

ived

rew

ard

نمودار ميانگين پاداش دريافتي در طول زمان براي آزمايش اول -7-5 شكل

يك نمونه از صدها مسأله رباتيكي با فضاي آزمايشي كه در اين قسمت توضيح داده شد، تنها كافي. توان در آنها از چارچوب پيشنهادي استفاده نمود د بعدي و پيوسته است كه ميادراكي چن

ست كه يك تابع پاداش مناسب براي مسأله تعريف كرد و سپس به ربات اجازه داد تا با استفاده از ادلخواه سازي پيشنهادي در محيط به كاوش پرداخته و تدريجاً در اثر تعامل با محيط رفتار روش مفهومعالوه بر اين، اين آزمايش نشان داد كه الگوريتم پيشنهادي از قوام الزم در مواجهه با . را ياد بگيرد

.نويزهاي محيطي و ادراكي برخوردار است

آزمايش دوم -2-3- 5 هدف آزمايش

اي طراحي شده است كه فايده اصلي يادگيري در چند فضاي ادراكي كه به آزمايش دوم به گونهدر اين آزمايش عالوه بر فضاي . چارچوب پيشنهادي وجود دارد را نشان دهدصورت ذاتي در


٩٦

ادراكي حسگرهاي مادون قرمز، فضاي بينائي ربات نيز در يادگيري مسأله دنبال كردن ديوار دخالت تواند با استفاده از دانشي كه دهد كه ربات چگونه مي آزمايش دوم در واقع نشان مي. داده شده است

مانند فضاي حسگرهاي مادون قرمز كسب كرده است، رفتار دلخواه راستتر ي ادراكي سردر يك فضا .تر مانند فضاي بينايي فرا بگيرد را در يك فضاي ادراكي پيچيده

شرح آزمايشگونه كه گفته شد، در آزمايش دوم، چارچوب پيشنهادي براي يك مسأله يادگيري در فضاهاي همان

پاك مشابه آزمايش قبل، الگوريتم يادگيري بر روي يك ربات اي. ده استادراكي چندگانه استفاده شاما در آزمايش دوم، خروجي دوربين ربات نيز به عنوان . براي مسأله دنبال كردن ديوار پياده شده است

.شود يك فضاي ادراكي جديد به الگوريتم يادگيري داده ميپاك همانند آزمايش در فاز اول ربات اي. دتوان به سه فاز اصلي تقسيم كر اين آزمايش را مي

اول تنها با استفاده از اطالعات حسگرهاي مادون قرمز مبادرت به يادگيري وظيفه دنبال كردن ديوار كنيم و آن را دوباره در شرايط پس از اتمام يادگيري، ربات را از حالت يادگيري خارج مي. نمايد مي

ك سري عكس از محيط ي استه از دانشي كه در فاز اول فرا گرفته استفاد باتادهيم آزمايش قرار ميها هر يك از عكسازاءي فضاي مادون قرمز به ها ها ، تصميم عكس اينذخيره كردن سپس با .بگيرد

تهيه بعدي، يك پايگاه داده به منظور استفاده در فاز ها هر يك از تصميمازاء دريافتي به هاي و پاداش عالوه بر فضاي ادراكي مادون قرمز، از فضاي ادراكي كه در آندر فاز دوم ذكر است شايان.شود مي

هاي اجرايي، يادگيري به صورت غيربرخط انجام شده است، به علت محدوديت بينايي نيز استفاده از اين رو به يك پايگاه داده جهت تعليم فضاي بينايي نياز داريم كه به شكل توضيح داده . شده است

با استفاده از پايگاه داده توليد شده در فاز يك، يادگيري در سپس در فاز دوم .شود ه ايجاد ميشد با به پايان رسيدن .گيرد فضاي بينايي به كمك دانش كسب شده در فضاي مادون قرمز انجام مي

ال رسد و در فاز سوم ابتدا خروجي حسگرهاي مادون قرمز غير فع فاز دوم به اتمام مي،يادگيري. گيري نمايد كه ربات تنها با در اختيار داشتن فضاي ادراكي بينايي مبادرت به تصميم طوري هشود ب مي

به عبارت ديگر مراحل كار بدين صورت است كه ابتدا ربات در فضاي ادراكي مادون قرمز كه يك ا كمك گرفتن از نمايد سپس ب ها است، يادگيري مي فضاي پايه و ساده براي وظيفه دنبال كردن ديوار

نامه، دانش يادگيري شده در فضاي مادون قرمز را در فضاي چوب پيشنهاد شده در اين پايان چاربديهي است كه . نمايد تر است، يادگيري مي تر و دشوار كه به مراتب پيچيده) بينايي(ادراكي جديد

د داشتكيفيت يادگيري در فاز اول تاثير بسزايي در يادگيري فازهاي بعدي خواه


٩٧

هاي انتخاب شده براي فضاي مادون قرمز مانند آزمايش اول هستند، اما انتخاب ويژگي ويژگيبا توجه به موقعيت نامناسب دوربين بر روي ربات براي اين . براي فضاي بينايي اندكي پيچيده است

رو، در از اين.تواند تصوير خوبي بگيرد عمالً نميكه ربات نزديك ديوار باشد دوربينمسأله، وقتي ايم تا تصوير دوربين براي ربات قابل استفاده هاي موازي افقي با فاصله يكسان كشيده امتداد ديوار خط

معادالت . هاي ديوار نيز در تقاطع دو ديوار خط عمودي كشيده شده است همچنين در گوشه. شودروند كار . شوند استفاده ميهاي تصويري در فضاي بينايي اين خطوط در واقع براي استخراج ويژگي

بدين صورت است كه اگر در تصوير دريافتي از دوربين خط عمودي و يا شبه عمودي وجود داشت، بيند و تنها از معادله آن خط براي استخراج بدين معني است كه ربات محل تقاطع دو ديوار را مي

پيدا نشد از معادلة خط ميانگين ولي اگر در تصوير دريافتي خط عمودي . كنيم ويژگيها استفاده مي دو نمونه از تصاوير دريافتي از 8- 5شكل . شود خطوط افقي براي استخراج ويژگي استفاده مي

.دهد دوربين را براي اين دو حالت نشان مي

دو نمونه از دو نوع مختلف تصاوير دريافتي از دوربين ربات-8-5 شكل

در دو حالت را نشان استخراج ويژگيهاي انتخاب شده براي خط9- 5عالوه بر اين شكل .دهد مي

خطي كه معادلة خطي كه قرار است براي استخراج ويژگي استفاده شود مشخص شد، پاره وقتيخط با خط طول و زاويه اين پاره. آوريم شود را به دست مي كه از مركز تصوير بر اين خط عمود مي

در واقع فضاي ادراكي بينايي ربات در اين . دهند هاي بردار ويژگي بينايي را تشكيل مي افق ويژگي .آزمايش يك فضاي دو بعدي است


٩٨

خطوط محاسبه شده براي استخراج ويژگي در دو تصوير نمونه-9-5 شكل

شايان ذكر است كه براي پيدا كردن معادالت خطوط افقي و عمودي در تصوير ابتدا از يك يابي براي خروجي الگوريتم لبه10-5شكل . كنيم ه مي استفاد2 و سپس از تبديل هاف1يابي الگوريتم لبه

..دهد تصويرهاي نمونه را نشان مي

يابي براي دو تصوير نمونه خروجي الگوريتم لبه-10-5 شكل

نتايج آزمايشولي در فاز دوم آزمايش، . تابع پاداش در فاز اول آزمايش دوم مانند آزمايش اول طراحي شده است

هاي مشاهده شده به عنوان محرك مثبت شود و تمام محرك داده نميهيچ سيگنال تقويتي به عاملكنيم كه رفتار دلخواه در فضاي منطق پشت اين استراتژي اين است كه ما فرض مي. شوند انگاشته مي

كه كه توابع بنابراين در فاز دوم وقتي. ادراكي مادون قرمز طي فاز اول ياد گرفته شده استشوند، تابع در هم ضرب مي) 1- 4(گيري بر طبق رابطة اكي براي تصميمنمايي دو فضاي ادر درست

1 - Edge detection 2 - Hough Transform


٩٩

فضاي بينايي 1طرف نمايي بي نمايي فضاي مادون قرمز كه قبالً ياد گرفته شده است تابع درست درستدر نتيجه تصميم نهايي عامل در فاز دوم يادگيري در واقع تصميم يادگرفته . دهد تأثير قرار مي را تحت

با استفاده از اين استراتژي، . مادون قرمز خواهد بود كه در فاز اول ياد گرفته شده استشده فضاي در اينجا يكي از . دهد فضاي مادون قرمز در واقع فضاي بينايي را به صورت با سرپرست آموزش مي

گردد و آن اين ارزشمندترين فوائد روش يادگيري پيشنهادي در چندين فضاي ادراكي مشخص ميه ديگر نيازي به توليد سيگنال تقويتي براي آموزش فضاي بينايي وجود ندارد و فضاي بينايي است ك

.شود با استفاده از دانش ياد گرفته شده در يك فضاي ادراكي ديگر آموزش داده مي

10 20 30 40 50 60 70 80 90 100-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

cycles

aver

age

rece

ived

rew

ard

براي چهار اجرا باقرمز فضاي بينايي بعد از يادگيري از فضاي مادون نمودار ميانگين پاداش دريافتي -11-5 شكل

قرمز بعد از يادگيري در فاز اول نمودار ميانگين پاداش دريافتي فضاي مادون ،)چين نمودار خط (شرايط اوليه مختلف نمودار ميانگين پاداش دريافتي در هنگام يادگيري با استفاده و) نمودار پيوسته (براي چهار اجرا با شرايط اوليه مختلف

)دار نمودار ستاره (مك فضاي مادون قرمز بدون ك از ابتدااز فضاي ادراكي بينايي

در نهايت در فاز سوم، دوباره تابع پاداش مشابهي با تابع پاداش فاز اول به منظور ارزيابي نمودار ميانگين 11-5شكل چين در نمودار خط.شود يادگيري در فضاي بينايي به سيستم اعمال مي

1 - Unbiased


١٠٠

همچنين به منظور .دهد فاز سوم را نمايش ميگيري در گام اول تصميم100پاداش دريافتي در طي بدون كمك بينايييادگيري فضاي، يك بار هم ارزيابي ميزان يادگيري فضاي بينايي به شكل افزايشي

نمودار ميانگين پاداش دريافتي 11- 5 در شكل دار ستارهنمودار . فضاي مادون قرمز انجام شده است، يادگيري به صورت شود طور كه مشاهده مي همان. دهد مينشان گيري راد گام اول اين يا100در طي

افزايشي و با كمك فضاي مادون قرمز در افزايش كيفيت يادگيري در فضاي بينايي تاثير به سزايي . دارد

نمودار پاداش دريافتي فضاي مادون قرمز پس از 11-5 شكل ، نمودار پيوسته درعالوه بر اينشود كيفيت يادگيري در فضاي مادون قرمز گونه كه در شكل ديده مي انهم. دهد يادگيري را نشان مي

تواند به است و اصوال فضاي بينايي هيچوقت نمي) در هر دو حالت(خيلي بيشتر از فضاي بينايي بعدي بينايي دودر فضاي : دليل اين مساله نيز روشن است. كيفيت يادگيري فضاي مادون قرمز برسد

شود ميزان بعدي مادون قرمز وجود دارد كه باعث مي هشتسبت به فضاي اصوال ابهام بيشتري ناما در عوض سرعت يادگيري در فضاي بينايي به . يادگيري در فضاي بينايي از حد معيني بيشتر نشود

دار در ستاره با مقايسه نمودار. دليل بعد كم از سرعت يادگيري در فضاي مادون قرمز بيشتر است .توان به اين مساله پي برد مي7- 5ر شكل و نمودا11- 5شكل


١٠١

گيري و نتيجهخالصه - 5-3هدف . بررسي شدها سازي براي چارچوب پيشنهادي مطرح و نتايج آن شبيهدو در فصل حاضر،

و از بررسي قدرت تخمين مدل پيشنهادي به طور كيفيها از يك سو سازي شبيهاصلي از طرح اين با مقايسه الگوريتم يادگيري . بودري در چند فضاي ادراكيسوي ديگر نشان دادن مزاياي يادگيچه درست (مشخص شد كه يادگيري از تمام تجربيات عامل آن پيشنهادي با نسخه كامالٌ با سرپرست

عالوه بر افزايش سرعت همگرايي، رفتار مجانبي مطلوبتري را نيز به نمايش ) و چه نادرستتوان يك فضاي ادراكي بزرگ را به صورت امكان ميهمچنين نشان داده شد كه در .گذارد مي

صورت كه با استفاده از چارچوب پيشنهادي يادگيري را به ريوط فضاهاي كوچكتر تجزيه نمود بهطور كه نشان داده شد هم سرعت يادگيري و هم در اين صورت همان. ها هدايت كنيم موازي در آن

.گيري يافتند ميزان يادگيري افزايش چشمهاي عملي ادامه، به منظور نشان دادن توانايي چارچوب پيشنهادي در عمل، نتايج آزمايشدر

پاك قرار اي در اين قسمت به شرح دو آزمايش عملي كه در آنها يك ربات. مورد بررسي قرار گرفتد كه به طور مشخص هدف از آزمايش اول اين بو. بود كه رفتار دنبال كردن ديوار را بياموزد پرداختيم

تواند در يك محيط واقعي و نويزي از نشان دهيم با استفاده از چارچوب يادگيري پيشنهادي ربات ميگيرد رفتار جهل مطلق شروع به زندگي كند و با گذشت زمان با توجه به فيدبكي كه از محيط مي

زمايش دوم بر آن با افزودن فضاي ادراكي بينايي به كل سيستم يادگيري، در آ. موردنظر را ياد بگيرد. شديم تا چگونگي و مزاياي يادگيري در چندين فضاي ادراكي در چارچوب پيشنهادي را نشان دهيم

تواند با به طور مشخص در آزمايش دوم نشان داده شد كه با استفاده از چارچوب پيشنهادي ربات ميست، رفتار دلخواه را در يك استفاده از دانشي كه در يك فضاي ادراكي مانند مادون قرمز فراگرفته ا

. فضاي ادراكي ديگر مانند بينايي سريعتر فرا بگيرد


١٠٢

ششمفصل 6 گيري و پيشنهادات نتيجه

6 6


١٠٤

گيري و پيشنهادات نتيجه–فصل ششم

١٠٥

بندي كارهاي در اين فصل به صورت خالصه، به جمع. باشد نامه مي اين پايانپايانيفصل ششم، فصل معمول فصل آخر به طور. شود مه پرداخته مينا اين پايان سال تحقيق بر روي دوانجام شده، در طول

.كند ميپيروينامه نيز از همين قاعده كه اين پاياناستهر پايان نامه شامل چهار جزء اصلي نامه شرح داده اين پايانبرايدر ابتدا، به صورت كامالً خالصه شده، كارهاي انجام شده

محتواي از نده با صرف زمان كوتاهي بتواند است كه خوانآنبرداري هدف از اين خالصه. شوند ميهاي مورد نياز خود را انتخاب كرده و براي مطلع شود و سپس در صورت عالقه بخشنامه اين پايان

. را مطالعه نمايدها آنجزئيات بيشتر ها اين بحث. شود نامه، در خصوص كارهاي انجام شده در آن بحث مي بعد از خالصه پايان

نامه بوده و به صورت خالصه به اين پايانهاي روش ارائه شده در خي از محدوديتبرشامل توضيح و در قالب يك زير بعد از بحث نيز، نتايج الزم از آن استخراج شده. پردازد مي ها آنتحليل داليل يابي به اهداف تعيين شده اين نتايج در واقع بيانگر كيفيت كار در جهت دست. گردد فصل ارائه مي

. خواهند بودنامه در اين پايانليه اونامه، در قالب يك زير فصل ارائه در پايان پيشنهاداتي براي توسعه مباحث موجود در اين پايان

آغازگر دتوان اين پيشنهادات مي. استاين پژوهش كه حاصل نگرش نگارنده به دورنماي ،گردد مي. رودبه كار در جهت تكميل مباحث همين تحقيق يا، ونامه باشد جديد بر مبناي اين پايانتحقيقاتي

نامه در نظر هاي پيشنهادي ديگري را كه در شروع اين پايان همچنين نگارنده اهداف مورد نظر و روش نپرداخته است، در بين پيشنهادات ديگر ارائه شده خود، در اين زير فصل ها آن داشته و به هر دليلي به

. قرار داده است


١٠٦

خالصه - 6-1نامه مدلي محاسباتي براي يادگيري مفاهيم در چندين فضاي ادراكي در قالب چارچوب در اين پايان

هاي انواع آن، فوائد آن و برخي روش،اما قبل از ارائه اين مدل به بررسي مفهوم. بيزي ارائه گرديدني با برخي از در طي اين معرفي به صورت ضم. محاسباتي ارائه شده براي يادگيري مفاهيم پرداختيم

سازد آشنا بندي كالسيك متمايز مي خواصي كه يك مدل يادگيري مفاهيم را از يك سيستم طبقهنامه سعي شده است تا با برآورده طور كه قبالٌ نيز گفته شد در مدل پيشنهادي در اين پايان همان. شديم

تر براي استفاده در مقاومهاي مشابه، مدلي كاراتر و ساختن هر چه بيشتر اين خواص نسبت به مدل .هاي واقعي ارائه گردد محيط

. هاي يادگيري مفاهيم، به معرفي كامل چارچوب بيزي پرداختيم پس از بيان برخي از مدلسازي، يادگيري مدل: طور كه گفته شد يك چارچوب بيزي از سه ركن اصلي تشكيل شده است همان

در واقع . هاي موجود در هر يك پرداختيم اركان و روشدر ادامه به توضيح هريك از اين . و استنباط .دهند گيري در مدل پيشنهادي را تشكيل مي سازي، يادگيري و تصميم ها، زيربناي مدل اين روش

بدين . نيازهاي الزم چارچوب پيشنهادي به تفصيل بيان شد بعد از تشريح مقدمات و پيشسازي چارچوب پيشنهادي و نحوه به دست آوردن لمنظور ابتدا شبكه بيزي به كار گرفته شده در مد

هاي وابسته به شبكه هاي تابعي استفاده شده براي توزيع احتمال آن توضيح داده شد سپس به بيان فرم به منظور يادگيري در شبكه بيزي طراحي شده كهسازي، يك الگوريتم يادگيري پس از مدل. پرداختيم

كه خود از يك الگوريتم يادگيري توزيع پيشين و يك سري اين الگوريتم . توسعه داده شدبودنمايي براي فضاهاي مختلف ادراكي تشكيل شده بود توانايي آن را الگوريتم يادگيري تابع درست

گيري در مورد آنها تشويق شده است بياموزد و هم هايي كه عامل به ازاء تصميم داشت كه هم از نمونهاين ويژگي به طور . شده استجريمه گيري غلط در مورد آنها ميمهايي كه به خاطر تص از نمونه

ساخت كرد و عامل را قادر مي كننده كالسيك متمايز مي بندي مشخص سيستم پيشنهادي را از يك طبقهكه با دانش ناچيز زندگي خود را در يك محيط واقعي ناشناخته آغاز كرده و به تدريج از آن محيط فرا

.د را بهبود بخشدبگيرد و عملكرد خوهدف اصلي . ها بررسي شد سازي براي چارچوب پيشنهادي مطرح و نتايج آن دو شبيهدر ادامه، ها از يك سو بررسي قدرت تخمين مدل پيشنهادي به طور كيفي و از سوي سازي از طرح اين شبيه

شنهادي با يادگيري پيبا مقايسه الگوريتم. ديگر نشان دادن مزاياي يادگيري در چند فضاي ادراكي بودچه درست و چه ( مشخص شد كه يادگيري از تمام تجربيات عامل نسخه كامالٌ با سرپرست آن


١٠٧

.گذارد عالوه بر افزايش سرعت همگرايي، رفتار مجانبي مطلوبتري را نيز به نمايش مي) نادرست فضاهاي كوچكتر توان يك فضاي ادراكي بزرگ را به همچنين نشان داده شد كه در صورت امكان مي

صورت موازي در آنها هدايت طوريكه با استفاده از چارچوب پيشنهادي يادگيري را به تجزيه نمود بهطور كه نشان داده شد هم سرعت يادگيري و هم ميزان يادگيري افزايش در اين صورت همان. كنيم .گيري يافتند چشم

هاي عملي ادي در عمل، نتايج آزمايشدر نهايت، به منظور نشان دادن توانايي چارچوب پيشنهپاك قرار اي ها يك ربات در اين قسمت به شرح دو آزمايش عملي كه در آن. مورد بررسي قرار گرفت

به طور مشخص هدف از آزمايش اول اين بود كه . بود كه رفتار دنبال كردن ديوار را بياموزد پرداختيمتواند در يك محيط واقعي و نويزي از شنهادي ربات مينشان دهيم با استفاده از چارچوب يادگيري پي

گيرد رفتار ي كه از محيط ميبازخوردجهل مطلق شروع به زندگي كند و با گذشت زمان با توجه به با افزودن فضاي ادراكي بينايي به كل سيستم يادگيري، در آزمايش دوم بر آن . موردنظر را ياد بگيرد

. يري در چندين فضاي ادراكي در چارچوب پيشنهادي را نشان دهيمشديم تا چگونگي و مزاياي يادگتواند با به طور مشخص در آزمايش دوم نشان داده شد كه با استفاده از چارچوب پيشنهادي ربات مي

استفاده از دانشي كه در يك فضاي ادراكي مانند مادون قرمز فراگرفته است، رفتار دلخواه را در يك .انند بينايي سريعتر فرا بگيردفضاي ادراكي ديگر م


١٠٨

بحث -6-2هاي مدل پيشنهادي و برخي راهكارهاي ممكن براي در اين قسمت به بررسي برخي از محدوديت

.پردازيم ها مي برطرف كردن اين محدوديتطور كه در ابتداي تشريح مدل پيشنهادي بيان شد، ساختار توسعه داده شده در اين همان

اصلي استوار است و آن اين است كه بازنمايي يك محرك ديده شده در نامه بر يك پيش فرض پايان. فضاهاي مختلف ادراكي عامل به شرط دانستن مفهوم مرتبط با آن محرك از يكديگر مستقل هستند

توان اي اين استقالل شرطي بين دو فضاي ادراكي برقرار نباشد ديگر نمي بديهي است كه اگر در مساله كه يا آن دو فضاي الزم استبه منظور رفع اين محدوديت . شده استفاده نموداز مدل توسعه داده

هاي شبكه يك فضا در نظر گرفت و يا ساختار يالعنوان بهها را ادراكي را در هم ادغام نموده و آنهاي پارامتري شبكه، الگوريتم در صورتي كه راه حل دوم برگزيده شود، فرم.بيزي مدل را تغيير داد

.دگيري و روابط به روزرساني توسعه داده شده همگي دچار تغيير بنيادين خواهند شديااين بدين معني . محدوديت ديگر روش پيشنهادي سه مقداري بودن سيگنال تقويتي در آن است

ي عددي از طرف محيط كه بازخورداست كه الگوريتم يادگيري پيشنهادي به سيگنال تقويتي به منزله بلكه به آن به عنوان قضاوت قطعي محيط ،كند كند نگاه نمي دن تصميم عامل را بيان ميميزان خوب بو

در نتيجه براي عامل مقدار عددي سيگنال تقويتي مهم نيست . نگرد مي خوددر مورد درستي تصميماين در . بلكه عالمت آن كه خوبي، بدي و يا خنثي بودن تصميم عامل را نشان مي دهد مهم است

ت كه در برخي از مسائل امكان طراحي تابع سيگنال تقويتي كه به ازاء هر تصميم عامل حالي اسعالوه بر اين الگوريتم يادگيري پيشنهادي . اي و قطعي را انجام دهد وجود ندارد قضاوتي لحظه

دليل آن نيز. كند و عمالً براي آن ديناميك محيط معنا ندارد اي عمل مي براساس سيگنال تقويتي لحظهبندي است كه بين مشاهدات متوالي مساله يادگيري مفاهيم در اساس يك مساله طبقه: روشن است

از اين رو در مسائلي كه ديناميك محيط به صورت پررنگي حضور دارد . شود ديناميكي قائل نمييناميك به منظور وارد كردن د. شود اي منجر نمي استفاده از چارچوب پيشنهادي الزاماً به نتايج بهينه

كه ساختار مدل پيشنهادي از بنيان دچار الزم است 1دار هاي تقويتي تاخير محيط و استفاده از سيگنالشايان ذكر است كه مدلي فرعي بدين منظور توسط نگارنده توسعه داده شده است كه به . تحول شود .ح آن پرداخته نشده استهاي بنيادين با مدل اصلي ارائه شده در اين پايان نامه به تشري دليل تفاوت

1 - Delayed


١٠٩

هاي پويا محيط درتوان هاي مدل پيشنهادي اين است كه از آن نمي يكي ديگر از محدوديتهايي كه عامل از ابتداي ركروزرساني پارامترهاي مدل اثر تمام مح از آنجا كه در به. استفاده نمود

ي يادگيري در روابط به ها شود، گام مشاهده كرده است به صورت آماري تاثير داده ميزندگيشود كه روش پيشنهادي اين مساله باعث مي. شوند رساني عمالً به توابعي نزولي با زمان تبديل مي روز

رساني را روز توان روابط به به منظور رفع اين مشكل مي. هاي ايستا قابل استفاده باشد تنها براي محيط. هاي يادگيري ثابت استفاده كنند ي نزولي با زمان از گامهاي يادگير اي تغيير داد كه به جاي گام گونه به

البته بايد به اين نكته توجه داشت كه اين كار باعث افزايش حساسيت مدل به ترتيب مشاهده .شود كه در كل پديده مطلوبي نيست ها مي محرك

ام اين قسمت ذكر اين نكته ضروري است كه با وجود اينكه در روش پيشنهادي ن در پايانشود، از ارزش و كارايي مدل يادگيري پيشنهادي كاسته مفاهيم و تعداد آنها از پيش معلوم فرض مي

ها از چرا كه با افزودن يك فرآيند جانبي جهت افزايش تدريجي مفاهيم و پرسيدن نام آن. نخواهد شد .توان به راحتي اين قابليت را نيز به سيستم اضافه نمود مربي مي


١١٠

گيري نتيجه -6-3ستفاده از چارچوب پيشنهادي براي يادگيري مفاهيم مزاياي زيادي در بر دارد كه در اينجا به پنج ا

:پردازيم مزيت اصلي آن كه در مقدمه نيز ذكر شد ميهاي با بعد باال و پيوسته طراحي شده اين چارچوب به طور خاص براي استفاده در محيط •

ياي پيوسته واقعي و فضاي گسسته ذهني عامل توان از آن به عنوان واسطي بين دن است و مي .استفاده نمود

سازد تا با نايقيني و خميرمايه اصلي مدل پيشنهادي چارچوب بيزي است كه عامل را قادر مي • .نويزهاي محيطي و ادراكي به نحو مطلوب برخورد نمايد

ه در آنِ دهد ك است و به عامل امكان ميجا دريادگيري در چارچوب پيشنهادي به صورت • . بگيرد و هم از آن ياد بگيرد واحد هم در محيط واقعي زندگي كند و در آن تصميم

معني كه عامل از شود بدين يادگيري در چارچوب پيشنهادي بر پايه يادگيري تقويتي مدل مي • عالوه بر اين ويژگي. دهد يادگيري انجام مي) چه درست و چه نادرست (تمام تجربيات خود

شود تا عامل بتواند در يك محيط واقعي از جهل مطلق عت يادگيري باعث ميافزايش سر .كرده و به تدريج عملكرد خود را بهبود بخشدبه زندگي شروع

به صورت ذاتي، چارچوب پيشنهادي به منظور يادگيري در چندين فضاي ادراكي به طور •له يادگيري مفاهيم استفاده از چندين فضاي ادراكي در مسا. زمان طراحي شده است هم

شود كه از يك سو بتوان از فضاهاي مختلف ادراكي در جبران اشتباهات يكديگر موجب مياستفاده نمود و از سوي ديگر با پيداكردن اينهماني مفاهيم در فضاهاي مختلف راه را براي

.تر هموار نمود دستيابي به يادگيري افزايشي در فضاهاي ادراكي پيچيدهن پنج ويژگي اصلي، مدل پيشنهادي به علت استفاده از يك مدل كلي براي تخمين عالوه بر اي

اي با هرگونه هاي احتمال مرتبط با مفاهيم از جامعيت الزم جهت استفاده در هر مساله زدن توزيع .توزيع احتمالي برخوردار است


١١١

پيشنهادات -6-4هاي مختلفي براي توسعه، ه، نگارنده ايدهنام هاي انجام شده در اين پايان ها و بررسي در طول پژوهش

بهبود و يا تغيير ساختار پيشنهادي آن در نظر داشته است كه از ميان آنها به عنوان كارهاي مكمل و :توان مطالب زير را بيان كرد پيشنهادي مي

تر در يادگيري مفاهيم توسعه شبكه بيزي مدل پيشنهادي به منظور مدل كردن مسائل پيچيده - 1 اي كه نياز به طراحي آن توسط طراح نباشد ه نمودن يادگيري ساختار شبكه بيزي به گونهاضاف - 2 توسعه مدل پيشنهادي به منظور وارد نمودن ديناميك محيط و يادگيري تقويتي با تاخير - 3هاي جديد در الگوريتم يادگيري تابع استفاده از فرآيندهاي هوشمندتر در اضافه نمودن مولفه - 4

منظور باالبردن دقت سيستمدرست نمايي به هاي پويا توسعه مدل پيشنهادي به منظور استفاده در محيط - 5

اضافه كردن فرآيندي به منظور افزودن به مخزن مفاهيم ذهني عامل - 6

اثبات همگرايي براي الگوريتم يادگيري پيشنهادي - 7

به صورت صريح در چارچوب 1وارد كردن كنترل توجه - 8

مراتبي از مفاهيم يادگرفته شده درطول فاهيم تركيبي و سلسلهمنظور ايجاد م توسعه مدل به - 9 زمان

1 - Attention Control


١١٢

Ĥخذممراجع و

[Baraldi 98] A. Baraldi and E. Alpaydın, “Simplified ART: A new class of ART algorithms,” Int. Comput. Sci. Inst., Berkeley, CA, TR-98-004.

[Bessière 03] P. Bessière, et al., “Survey: Probabilistic Methodology and Techniques for Artefact Conception and Development,” Technical Report INRIA, RR-4730, European IST BIBA project, 2003.

[Billard 01] A. Billard and M. J. Mataric, “Automatic learning human arm movements by imitation: evaluation of a biologically inspired connectionist architecture,” in Robotics and Autonomous Systems, vol. 941, pp. 1–16, 2001.

[Buccino 04] G. Buccino, S. Vogt, A. Ritzl, G. R. Fink, K. Zilles, H. J. Freund and G. Rizzolatti, “Neural circuits underlying imitation learning of hand actions: an event related fMRI study,” in Neuron, 42:323–334, April 2004.

[Chickering 95] D. M. Chickering. A transformational characterization of equivalent Bayesian network structures.In P. Besnard and S. Hanks, editors, Proc. Eleventh Conference on Uncertainty in Artificial Intelligence(UAI ’95), pages 87–98, San Francisco, 1995. Morgan Kaufmann.

[Corneil 87] D. G. Corneil, S. Arnborg, A. Proskurowski. Complexity of finding embeddings in a k-tree. SIAM J. Alg. Disc. Meth., 8:277–284, 1987.

[Cowell 99] R. G. Cowell, A. P. Dawid, S. L. Lauritzen, D. J. Speigelhalter. Probabilistic Networks and Expert Systems. Springer, 1999.

[Dagum 97] P. Dagum and M. Luby. An optimal approximation algorithm for Baysian inference. Artificial Intelligence, 93(1–2):1–27, 1997.

[Davidsson 94] P. Davidsson, “Concepts and autonomous agents,” Licentiate thesis, Department of Computer Science, Lund University, 1994.

[DeGroot 89] M. H. DeGroot. Probability and Statistics. Addison Wesley, Reading, MA, 1989.

[Duda 00] R. O. Duda, P. E. Hart and D. G. Stork, Pattern Classification (2nd Edition). New York: Wiley-Interscience, 2000.

[E-Puck] E-puck, EPFL Education Robot, http://www.e-puck.org.

[Fisher 87] D. H. Fisher. Knowledge Acquisition Via Incremental Conceptual Clustering. Machine Learning,2(2): 139–172, 1987.

مراجع و مĤخذ

١١٣

[Freeman 00] W. T. Freeman, J. S. Yedidia and Y. Weiss. Generalized belief propagation. In NIPS, 2000.

[Gelman 96] A. Gelman, J. B. Carlin, H. S. Stern, and D. B. Rubin. Bayesian Data Analysis. Chapman & Hall, London, 1995.

[Gieger 90] D. Geiger, T. S. Verma, and J. Pearl. Identifying independence in bayesian networks. Networks, 20:507–534, 1990.

[Geiger 94] D. Geiger and D. Heckerman. Learning gaussian networks. In R. L´opez de Mantar´as and D. Poole, editors, Proc. Tenth Conference on Uncertainty in Artificial Intelligence (UAI ’94), pages 235–243, San Francisco, 1994. Morgan Kaufmann.

[Heckerman 95a] D. Heckerman, D. Geiger, and D. M. Chickering. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, 20:197–243, 1995a.

[Heckerman 95b] D. Heckerman and D. Geiger. Learning Bayesian networks: a unification for discrete and Gaussian domains. In P. Besnard and S. Hanks, editors, Proc. Eleventh Conference on Uncertainty in Artificial Intelligence (UAI ’95), pages 274–284, San Francisco, 1995c. Morgan Kaufmann.

[Herrnstein 64] R.J. Herrnstein, D.H. Loveland “Complex visual concept in the pigeon.”, Science 146:549-551, 1964.

[Iba] W. Iba and P. Langley, “Unsupervised Learning of Probabilistic Concept Hierarchies”, Unpublished manuscript, Institute for the Study of Learning and Expertise, Palo Alto, CA.

[Jensen 96] F. V. Jensen. An Introduction to Bayesian Networks. University College London Press, 1996.

[Kruschke 92] J. K. Kruschke, “ALCOVE: An exemplar-based connectionist model of category learning.” Psychological Review, 99(1):22–44, 1992.

[Kruschke 99] J.K Kruschke and M. K. Johansen, “A model of probabilistic category learning.” Journal of Experimental Psychology: Learning, Memory, and Cognition, 25:1083-1119, 1999.

[Lam 94] W. Lam and F. Bacchus. Learning Bayesian belief networks: An approach based on the MDL principle. Computational Intelligence, 10:269–293, 1994.

[Lebeltel 04] O. Lebeltel, P. Bessiere, J. Diard and E. Mazer, “Bayesian robot programming,” in Autonomous Robots, 16:49–79, 2004.

[Mackay 98] D. J. C. Mackay, Introduction to monte carlo methods. In M. I. Jordan, editor, Learning in Graphical Models. MIT Press, Cambridge, MA, 1998.


١١٤

[Mahadevan 92] S. Mahadevan and J. Connell, “Automatic programming of behavior-based robots using reinforcement learning,” in Artificial Intelligence, 55(2-3):311–365, June 1992.

[Martin 94] J. D. Martin and D. O. Billman, “Acquiring and combining overlapping concepts”, Machine Learning, 16:121-155, 1994.

[Mobahi 05] H. Mobahi, M. Nili Ahmadabadi, and B. N. Araabi, “Concept oriented imitation towards verbal human-robot interaction,” In Proc. 2005 IEEE Int. Conf. Robotics and Automation, 1495–1500, April 2005.

[Neapolitan 03] R. E. Neapolitan, Learning Bayesian Network. New Jersey: Pearson Prentice Hall, 2003.

[Nosofsky 84] R.M. Nosofsky, "Choice, Similarity, and the context theory of classification", Journal of Experimental Psychology: Learning, Memory, and Cognition, 10:104-114, 1984.

[Oden 88] D.L. Oden, R.K.R. Thompson, C. Premack, "Spontaneous transfer of matching by infant chimpanzees", Journal of Experimental Psychology and Animal Behavior Process, 14:140-145, 1988.

[Pearl 88] J. Pearl. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, 1988.

[Priebe 94] C. E. Priebe, “Adaptive mixtures,” in Journal of the American Statistical Association, 89(427):796–806, September 1994.

[Roberts 98] W.A. Roberts, Principles of animal cognition, McGraw-Hill, Boston, 1998.

[Schwarz 78] G. Schwarz. Estimating the dimension of a model. Annals of Statistics, 6:461–464, 1978.

[Sieck 01] W. R. Sieck and J. F. Yates. “Overconfidence effects in category learning: A comparison of connectionist and exemplar memory models.” In Journal of Experimental Psychology: Learning Memory and Cognition, 27(4):1003–1021, 2001.

[Smith 02] A. J. Smith, “Applications of the self-organizing map to reinforcement learning,” in Neural Networks, 15:1107–1124, 2002.

[Spiegelhalter 90] D. J. Spiegelhalter and S. L. Lauritzen. Sequential updating of conditional probabilities on directed graphical structures. Networks, 20:579–605, 1990.

[Spirtes 93] P. Spirtes, C. Glymour, and R. Scheines. Causation, Prediction and Search.

Number 81 in Lecture Notes in Statistics. Springer-Verlag, New York, 1993.

مراجع و مĤخذ

١١٥

[Zentall 02] T. R. Zentall, M. Galizio, and T. S. Critchfield, “Categorization, concept Learning and behavior analysis,” in Journal of the Experimental Analysis of Behavior, 78(3):237–248, November 2002.


١١٦

اولپيوست نامه مقاالت مستخرج از پايان

To Appear In Proceeding of IEEE/ASME International Conference on

Advanced Intelligent Mechatronics (AIM), September 2007, Switzerland.

A Bayesian Approach to Conceptualization Using Reinforcement Learning

Saeed Amizadeh, Majid Nili Ahmadabadi, Babak N. Araabi, and Roland Siegwart

Control and Intelligent Processing Center of Excellence (CIPCE), School of Electrical and Computer Engineering,

University of Tehran, Tehran, Iran {amizadeh, mnili, araabi}@ ut.ac.ir

ASL. ETHZ, Zurich, Switzerland [email protected]

Abstract Abstraction provides cognition economy and generalization skill in addition to

facilitating knowledge communication for learning agents situated in real world.

Concept learning introduces a way of abstraction which maps the continuous state and

action spaces into entities called concepts. Of computational concept learning

approaches, action-based conceptualization is favored because of its simplicity and

mirror neuron foundations in neuroscience. In this paper, a new biologically inspired

نامه مقاالت مستخرج از پايان-پيوست اول

١١٧

concept learning approach based on the Bayesian framework is proposed. This approach

exploits and extends the mirror neuron’s role in conceptualization for a reinforcement

learning agent in nondeterministic environments. In the proposed method, an agent

sequentially learns the concepts from both of its successes and its failures through

interaction with the environment. These characteristics as a whole distinguish the

proposed learning algorithm from positive sample learning. Simulation results show the

correct formation of concepts’ distributions in perceptual space in addition to benefits of

utilizing both successes and failures in terms of convergence speed as well as

asymptotic behavior. Experimental results, on the other hand, show the applicability and

effectiveness of our method for a real robotic task such as wall-following.


١١٨

In Proceeding of International Computer Society of Iran Computer Conference (CSICC07), pp: 1515-1521, Feb. 2007, Tehran, Iran.

Bayesian Continuous-State Reinforcement Learning

Saeed Amizadeh, Majid Nili Ahmadabadi and Caro Lucas Control and Intelligent Processing Center of Excellence (CIPCE),

School of Electrical and Computer Engineering, University of Tehran, Tehran, Iran

{amizadeh, mnili}@ece.ut.ac.ir

School of Cognitive Sciences, Institute for studies in theoretical Physics and Mathematics, Tehran, Iran

[email protected]

Abstract Continuous-State Reinforcement Learning (RL) has been recently favored because of

the continuous nature of the real world RL problems and many theoretical approaches

have been devised to handle the case. However, most of these methods presume that the

structure of the agent's perceptual environment is fed to it. But this is not the case in

many real situations. Inspired from the subjective view existing in the Cognitive

Constructivist learning theory, in this paper, a new method is presented to discover and

construct the structure of the environment in parallel with learning the optimal policy.

To achieve these goals, the proposed approach incorporates the Bayesian formalism to

organize the perceptual space while it tries to learn the optimal behavior using a Q-

learning-like learning algorithm. These characteristics as a whole define a

Reinforcement Learning algorithm which is developed based on a mixture of Cognitive

Constructivism and traditional Behaviorism ideas. Simulation results demonstrate the

viability and efficiency of the proposed algorithm on continuous state RL problems.

نامه مقاالت مستخرج از پايان-پيوست اول

١١٩

To Appear In Proceeding of International Conference on Informatics in Control, Automation and Robotics (ICINCO 2007), May 2007, Anger,

France

Interactive Reinforcement-based Concept Learning A Bayesian

Approach Saeed Amizadeh, Majid Nili Ahmadabadi

Control and Intelligent Processing Center of Excellence (CIPCE), School of Electrical and Computer Engineering,

University of Tehran, Tehran, Iran {amizadeh, mnili}@ece.ut.ac.ir

Abstract Abstraction provides cognition economy and generalization skill in addition to

facilitating knowledge communication for learning agents situated in real world.

Concept learning introduces a way of abstraction which maps the continuous state and

action spaces into entities called concepts. Of computational concept learning

approaches, action-based conceptualization is favored because of its simplicity and

mirror neuron foundations in Neuroscience. In this paper, a new biologically inspired

concept learning approach based on the Bayesian framework is proposed. This approach

exploits and extends the mirror neuron’s role in conceptualization for a reinforcement

learning agent in nondeterministic environments. In the proposed method, an agent

sequentially learns the concepts from both of its successes and failures through

interaction with the environment. These characteristics as a whole distinguish the

proposed learning algorithm from a traditional classifier. Simulation results show the

correct formation of concepts’ distributions in perceptual space in addition to benefits of

utilizing both successes and failures in terms of convergence speed as well as

asymptotic behavior. Experimental results, on the other hand, show the applicability and

effectiveness of our method for a real robotic task such as wall-following.

Abstract

Intelligent creatures should be capable of abstracting their perceptual information

(stimuli) to manage the overwhelming amount of data they perceive. In fact, abstraction

provides cognition economy and generalization skill in addition to facilitating

knowledge communication for learning agents situated in real world. Concept learning

introduces a way of abstraction which maps the continuous state and action spaces into

entities called concepts. Of computational concept learning approaches in Artificial

Intelligence, reinforcement learning-based conceptualization methods are favored

because of their application for situated agents which should decide and learn in a real

environment. In this thesis, a new concept learning approach is proposed which is based

on the Bayesian framework and at the same time is managed by the reinforcement

signal received from the environment. This approach enables a reinforcement learning

agent to decide and learn under uncertainty in nondeterministic environments. Moreover,

in the proposed method, an agent sequentially learns the concepts from both of its

successes and its failures through interaction with the environment. These

characteristics as a whole distinguish the proposed framework from classical classifiers.

Besides, using the proposed approach, it is possible to simultaneously learn concepts in

multiple perceptual spaces (like visual, auditory and etc.). This kind of learning which is

innately encoded in the proposed method brings the agent some benefits such as

improving the accuracy of the agent’s decisions and increasing the learning speed.

Simulation results in this thesis show the correct formation of concepts’

distributions in perceptual space in addition to benefits of utilizing both successes and

failures in terms of convergence speed as well as asymptotic behavior. Experimental

results, on the other hand, show the applicability and effectiveness of our method for a

real robotic task such as wall-following as well as the benefits of concurrent learning in

multiple perceptual spaces.

University of Tehran Faculty of Engineering School of Electrical and Computer Engineering

A Bayesian Approach to Hierarchical Concept Learning and Generation

By:

Saeed Amizadeh

Under Supervision of:

Dr. Majid Nili Ahmadabadi

Co-advisor: Dr. Babak N. Araabi

Dissertation submitted to the Graduate Studies Office in partial fulfillment of the requirements for the degree of

Master of Science in Computer Engineering, Artificial Intelligence and Robotics Branch

July, 2007

Documents

Final Thesis Saeed Amizadeh - people.cs.pitt.edupeople.cs.pitt.edu/~saeed/pdfs/Final Thesis _Saeed Amizadeh.pdf · ﺮﺛا ﺖﻟﺎﺻا ﻪﻣﺎﻧﺪﻬﻌﺗ ﻦﻳا رد جرﺪﻨﻣ