Upload
others
View
20
Download
0
Embed Size (px)
Citation preview
HAL Id: hal-01379575https://hal.archives-ouvertes.fr/hal-01379575
Submitted on 11 Oct 2016
HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.
Intelligence artificielle sans données ontologiques sur uneréalité présupposée
Olivier Georgeon, Alain Mille, Simon Gay
To cite this version:Olivier Georgeon, Alain Mille, Simon Gay. Intelligence artificielle sans données ontologiques sur uneréalité présupposée. Intellectica - La revue de l’Association pour la Recherche sur les sciences de laCognition (ARCo), Association pour la Recherche sur la Cognition, 2016, New approaches in cognitiverobotics, 65, pp.143-168. �hal-01379575�
1
Artificialintelligencewithoutusingontologicaldataaboutapresupposedreality
Abstract
Thispaperintroducesanoriginalmodeltoprovidesoftwareagentsandrobotswiththecapacityoflearningbyinterpretingregularitiesintheirstreamofsensorimotorexperienceratherthanbyexploitingdatathatwouldgivethemontologicalinformationaboutapredefineddomain.Specifically,thismodelpullsinspirationfrom:a)themovementofembodiedcognition,b)thephilosophyofknowledge,c)constructivistepistemology,andd)thetheoryofenaction.Respectivelytothesefourinfluences:a)Ouragentsdiscovertheirenvironmentthroughtheirbody’sactivecapacityofexperimentation.b)Theydonotknowtheirenvironment“assuch”butonly“astheycanexperienceit”.c)Theyconstructknowledgefromregularitiesofsensorimotorexperience.d)Theyhavesomelevelofconstitutiveautonomy.Technically,thismodeldiffersfromthetraditionalperception/cognition/actionmodelinthatitrestsuponatomicsensorimotorexperiencesratherthanseparatingperceptsfromactions.Wepresentalgorithmsthatimplementthismodel,andwedescribeexperimentstovalidatethesealgorithms.Theseexperimentsshowthattheagentsexhibitacertainformofintelligencethroughtheirbehaviors,astheyconstructproto-ontologicalknowledgeofthephenomenathatappeartothemwhentheyobservepersistentpossibilitiesofsensorimotorexperiencesintimeandspace.Theseresultspromoteatheoryofartificialintelligencewithoutontologicaldataaboutapresupposedreality.Anapplicationincludesamorerobustwayofcreatingrobotscapableofconstructingtheirownknowledgeandgoalsintherealworld,whichcouldbeinitiallyunknowntothemandun-modeledbytheirdesigners.
Keywords:artificialintelligence,embodiedcognition,constructivistlearning,enaction,hierarchicalsequencelearning,trace-basedreasoning,cognitivearchitecture,self-motivation.
Intelligenceartificiellesansdonnéesontologiquessuruneréalitéprésupposée
OlivierGeorgeon1,AlainMille2,etSimonGay3
123UniversitédeLyon,CNRSUniversitéLyon1,LIRIS,UMR5205,F-69622,[email protected],[email protected],[email protected]
Résumé
Cetarticleproposeunmodèleoriginalpourdoterdesagentsinformatiquesoudesrobotsdelacapacitéd’apprendreeninterprétantdesrégularitésdansleurfluxd’expériences
2
sensorimotricesplutôtqu’enexploitantdesdonnéesquileurapporteraientdesinformationsontologiquessurundomaineprédéfini.Cemodèles’inspireenparticulierde:a)lecourantdelacognitionincarnée,b)laphilosophiedelaconnaissance,c)l’épistémologieconstructiviste,etd)lathéoriedel’énaction.Respectivementàcesquatreinfluences:a)Nosagentsdécouvrentleurenvironnementàtraverslescapacitésexpérimentalesactivesdeleurcorps.b)Ilsneconnaissentpasleurenvironnement«ensoi»maisuniquement«encequ’ilspeuventenfairel’expérience».c)Ilsconstruisentleursconnaissancesàpartirderégularitésd’expériencessensorimotrices.d)Ilsdisposentd’unecertaineautonomieconstitutive.Techniquement,cemodèlesedistinguedumodèleperception/cognition/actionclassiqueparlefaitqu’ilconsidèredesexpériencessensorimotricesatomiquesaulieudeséparerlesperceptsetlesactions.Nousprésentonsdesalgorithmesquiimplémententcemodèle,etdécrivonsdesexpérimentationspermettantdelesvalider.Lesexpérimentationsmontrentquelesagentsexhibentunecertaineformed’intelligencedansleurscomportementsenconstruisantuneconnaissanceproto-ontologiquedesphénomènesquiapparaissentàeuxquandilsconstatentdespossibilitésd’expériencessensorimotricespersistantesdansl’espaceetletemps.Cesrésultatspromeuventunethéoriedel’intelligenceartificiellesansdonnéesontologiquessuruneréalitéprésupposée,avec,commeperspectivesapplicatives,desrobotscapablesdeconstruireleurspropresconnaissancesetobjectifsdanslemonderéel,initialementinconnud’euxetnonmodéliséparleurconcepteur.
Motsclés:intelligenceartificielle,cognitionincarnée,apprentissageconstructiviste,énaction,apprentissageséquentielhiérarchique,raisonnementàpartirdetrace,architecturecognitive,motivationintrinsèque.
1 Introduction
Nousnousintéressonsauproblèmedeconcevoirdesagentsinformatiquescapables,enparallèle,dedécouvrirdesrégularitésdansleurfluxd’expériencessensorimotrices,deconstruiredesconnaissancesquiexpliquentetsynthétisentcesrégularités,etd’exploitercesconnaissancespourgénérerdescomportementsintelligents.Nousdésignonsceproblèmeparl’expressionapprentissageparrégularitésd’expériences.Dansl’énoncédeceproblème,l’expressionagentinformatique(ou,danslasuitedecetarticle,simplementagent)désigneuneentitéprogramméeinteragissantavecunenvironnement,parexempleunrobotdanslemonderéelouunagentartificieldansunmondevirtuel.L’expressionrégularitésd’expériencesdésignedesschémastemporels(ouspatio-temporels)d’activitédel’agentrenduspossiblesdemanièrepersistanteparsoncouplageavecl’environnement.L’expressionconstruiredesconnaissancesdésignelefaitquel’algorithmequicontrôlel’agentconstruitdesstructuresinformationnellesaccompagnéesdemécanismespermettantdelesexploiter.L’expressioncomportementsintelligentsdésignedescomportementsdontdesobservateurshumainspuissentjugerqu’ilsdénotentuneformed’intelligencedelapartdel’agentquileseffectue.
Cetarticleprésentelesmodèlesthéoriquesetlesprincipesdesalgorithmes,enrenvoyantàdesarticlesplustechniquespourplusdedétails.Ilprésentelesexpérimentationsréalisées,etdécritlescomportementsexhibésparlesagents,enexpliquantdansquellemesurecescomportementspeuventêtreconsidéréscommeintelligents.Letermealgorithmedésigneledispositif
3
informatique(programmeetstructuresmémorielles)quicontrôlel’agent.Nousrapportonsiciuniquementdesexpérimentationsquin’impliquentqu’unseulagentinteragissantavecsonenvironnement.
Notreapprochesedémarquedesapprochesd’intelligenceartificiellesymboliqueparlefaitquelesdonnéesd’entréedesalgorithmesneconstituentpasdessymbolesquiseraientinterprétésselondesrèglessémantiquesdonnéesparleconcepteurdel’algorithme.Spécifiquement,nousn’adoptonspasl’hypothèsedessymbolesphysiques(NewelletSimon,1976),selonlaquellel’intelligenceconsisteraitenunmécanismederésolutiondeproblèmeparrecherched’un«étatsolution»dansun«espacedeproblème»1.Nosalgorithmesn’ontpaspourbutd’atteindreunobjectiffinalspécifiésouslaformed’unétatparticulierappartenantàunensembled’étatsprédéfini.Cetteprisededistanceparrapportàl’IAsymboliquenousrapprochedumouvementdelacognitionincarnée(e.g.,Varelaetal.,1991;LakoffetJohnson,1999;Anderson,2003).Cesauteurssuggèrentquelessystèmescognitifsseraientmuspardespréférencescomportementales(«drives»)plutôtquepardesobjectifsfinauxprédéfinis.Danscecadre,lacognitionestvuecommeune«façond’êtredanslemonde»2.Enconformitéaveccetteapproche,nousévaluonsnosagentsparleurcapacitéà«sedébrouillerdanslemonde»(«tocopewiththeworld»,Dreyfus,2007)3plutôtqueparleurperformanceàrésoudreunproblèmeprédéfini.
Nousnousdémarquonségalementdenombreuxtravauxd’intelligenceartificiellenon-symboliquesparlefaitquelesdonnéesd’entréedenosalgorithmesneconstituentpasunereprésentationdel’étatdumonde(pasmêmeunereprésentationpartielleoubruitée,c.f.,Section2).Letermemondeenglobeàlafoisl’environnementetle«corps»del’agent(unrobotphysiqueouuncorpssimulédansunenvironnementvirtuel).Parexemple,notrepositionsedistinguedelapositiondeRusselletNorvigselonlaquelle"theproblemofAIistobuildagentsthatreceiveperceptsfromtheenvironmentandperformactions”(RusselletNorvig,2003,p.iv).AladifférencedesalgorithmesprésentésparRusselletNorvig,nosalgorithmesnetraitentpasleursdonnéesd’entréecommedesperceptsmaiscommedesrésultatsd’expériencesquirésultentd’uneinteractionactiveentrel’agentetl’environnement.Aladifférencedespercepts,
1Aphysicalsymbolsystemexercisesitsintelligenceinproblemsolvingbysearch—thatis,bygeneratingandprogressivelymodifyingsymbolstructuresuntilitproducesasolutionstructure.(Newell&Simon,1976,p.120).
2“ThisshiftinfocusfromDescartes’“thinkingthing”,andthepictureofhumanbeingandsubjectivityitsuggests,toamoreHeideggerianapproachtobeingintheworld,inwhichagencyandinteractivecopingoccupycenterstage,isanextremelyimportantdevelopment,theimplicationsofwhichareonlyjustbeginningtobefathomed.”(Anderson,2003,p.91)
3Whenwesolveproblems,wedosometimesmakeuseofrepresentationalequipmentoutsideourbodies,butHeidegger’scrucialinsightisthatbeing-in-the-worldismorebasicthanthinkingandsolvingproblems;itisnotrepresentationalatall.Thatis,whenwearecopingatourbest,wearedrawninbyaffordancesandresponddirectlytothem,sothatthedistinctionbetweenusandourequipment—betweeninnerandouter—vanishes(Dreyfus,2007,p.1146).
4
cesrésultatsd’expériencen’entretiennentpasunerelationdecorrespondanceavecunmondeprésupposée.L’algorithmeignorecequecesexpériencessignifient.Ilconstruitdesconnaissancesàpartirderégularitésconstatéesdanssonfluxd’expérience.L’algorithmeapprendàconnaîtrel’environnementetl’agententermesdespossibilitésd’interactionquiexistententrelesdeux.
Cetravailviseàlafoisdesobjectifsthéoriquesetpratiquesdansledomainedel’intelligenceartificielle.Surleplanthéorique,ilparticipeàuneffortdelacommunautédel’intelligenceartificiellepourprendreencomptecertainescritiquesphilosophiquesauxquellesnousréféronsiciparlestermesdecritiquekantienneetcritiqueheideggérienne.Nousproposonscetravailcommeunetentativedepriseencomptedelacritiquekantienneselonlaquellelaréaliténouménale—la«choseensoi»—n’existepasouestinconnaissable.Noustraduisonscetteidéephilosophiquedanslesalgorithmesparlefaitquelesdonnéesd’entréedel’algorithmenereprésententpasunmondeprésupposéparleconcepteurdel’algorithme.
Nousproposonségalementcetravailcommetentativedepriseencomptedelacritiqueheideggérienneselonlaquellelacognitionneseréduitpasàunmécanismederésolutiondeproblème,etnécessiteuneévolutiondynamiqueducouplageagent/environnement.Noustraduisonscesidéesphilosophiquesenimplémentantdespréférencescomportementalesquisous-déterminentlescomportementsdel’agent.Dufaitdel’évolutionducouplagealgorithme/monde(Section3),l’agentalapossibilitédedéveloppersapropre«façond’êtredanslemonde»,enfonctiondesonhistoireindividuelle.Nousn’évaluonspasnosagentsparleurcapacitéàrésoudredesproblèmesprédéfinisniàmaximiserunevaleurnumérique,maisparleurcapacitéàgénérerdescomportementsquelelecteurdecetarticleouunobservateurdel’agentpourrajugerintelligent.
Encequiconcernelesobjectifspratiques,nouscherchonsàconstruiredesrobotscapablesd’interagiravecunenvironnementnonmodéliséapriori,parexemplelemonderéel(incluantéventuellementd’autresrobotsetdesacteurshumains).Aufuretàmesuredesprogrèsdanscedomainederecherche,cesrobotsgénérerontdescomportementsqui,dupointdevuedugrandpublicetdel’industrie,pourrontévoquerdescomportementsd’animaux.Celapermettradenouveauxusagesenrobotiquepersonnelle,pédagogique,ouludique.Parcerapprochementavecl’intelligenceanimale,cetteétudes’inscritdansuneapprocheévolutionnistedel’intelligenceartificiellequiconsidèrequelesfacultésderaisonnements’appuientsurdescapacitésd’inférencesensorimotricedéjàprésenteschezcertainsanimaux(e.g.,LakoffetJohnson,1999)4.
4“Reasonisevolutionary,inthatabstractreasonbuildsonandmakesuseofformsofperceptualandmotorinferencepresentin“lower”animals.TheresultisaDarwinismofreason,arationalDarwinism:Reason,eveninitsmostabstractform,makesuseof,ratherthantranscends,ouranimalnature.Thediscoverythatreasonisevolutionaryutterlychangesourrelationtootheranimalsandchangesourconceptionofhumanbeingsasuniquelyrational.Reasonisthusnotanessencethatseparatesusfromotheranimals;rather,itplacesusonacontinuumwiththem.(LakoffandJohnson1999,p.4)
5
2 Dumodèleclassiqueaumodèleexpérientiel
Laplupartdesmodèlesd’intelligenceartificiellesontconstruitssurlabaseducycleperception/cognition/actionillustréenFigure1a.Achaquetourducycle,l’algorithmereçoitunedonnéed’entréeo(souventappeléeobservation)quireprésentel’étatdumonde,etproduitunedonnéedesortieaquireprésenteuneactioneffectuéedanslemonde.Leconcepteurdel’algorithmeconçoitl’observationocommeunereprésentationpartielledel’étatdumonde,ausensétymologiquedutermereprésentation,c’estàdirequel’observationo«rendprésenteànouveau»unecaractéristiquedumondesouslaformed’unedonnéeaccessibleàl’algorithme.Sil’observationoestbruitée,lesalgorithmestypiquementconçusdanslecadredecemodèletententd’extrairel’informationreprésentativedumondeenfiltrantlebruitpardesméthodesstatistiques.
Cetarticleproposedesmodèlesalternatifsquineconsidèrentpaslesdonnéesd’entréedel’algorithmecommedesreprésentationsdumonde.Afindemettreenévidenceleursdifférencesparrapportaumodèleclassique,nousaffichonsdanslesfigureslepointoùlecycled’interactioncommenceetlepointoùilsetermine.Bienquelecycled’interactiontourneindéfiniment,nousvoulonsmontrerquecesdébutsetfinsconceptuellesontleurimportance.LaFigure1breprésentelemodèleclassiqueenmettantenévidencelefaitquelecyclecommenceparl’observation(rondnoir),etsetermineparl’action(trianglenoir),commenousl’avonsexpliquéauparagrapheprécédent.
LaFigure1cprésentenotrepremiermodèlealternatifappelémodèleexpérimentation/résultat(GeorgeonetCordier,2014).Danscemodèle,lecyclecommenceconceptuellementparlefaitquel’algorithmesélectionneuneexpérimentationxdansl’ensembleXdesexpérimentationsàsadisposition.Enretour,l’algorithmereçoitunrésultatrdansl’ensembleRdesrésultatspossibles.Ledéveloppeurdel’algorithmepeutpenserauxdonnéesdesortiecommeàdesexpérimentationsspontanéesausensoùellesnesuiventpasunprotocoleexpérimentalréfléchi.Uneexpérimentationpeutproduireuneffetsurlemonde,toutcommeuneactiondanslemodèleclassique.Ladifférencecrucialeparrapportaumodèleclassiquerésidedanslefaitquelesdonnéesd’entréedel’algorithme(lesrésultatsr)neconstituentPASnécessairementunereprésentationdel’étatdumonde,puisque,dansunétatdumondedonné,rpeutvarierselonl’expérimentationxprécédemmenteffectuée.L’algorithmeestunobservateuractifdumondecarlesdonnéesqu’ilreçoit(lesrésultats)répondentàdes«questionsqu’ilpose»(lesexpérimentations).Lemodèleexpérimentation/résultatoffreunmoyendetraduirelesthéoriesdelacognitionincarnéedanslesalgorithmescarilrendcomptedufaitquel’algorithmenepeutconnaîtrelemondequ’autraversdesexpérimentationseffectuéesparl’agent.Danscemodèle,ledéveloppeurdel’algorithmeconsidèrelaperceptioncommeunestructurededonnéesinterneàl’algorithmeetnoncommesesdonnéesd’entrée.
LemodèleinteractionnelprésentéenFigure1dprolongelalogiquedumodèleexpérimentation/résultatavecladifférencequ’ilsebasesurdesinteractionsdéfiniescommedescouples〈expérimentation,résultat〉.Lesdonnéesdesortieetd’entréedel’algorithmeappartiennentaumêmeensembleX×Rdesinteractionsoffertesparlecouplageagent/environnement.Endébutdecycle,l’algorithmesélectionneuneinteractionintentéei=〈x,r〉∈X×R.Enretour,ilreçoitune
6
interactionénactéee=〈x,r’〉∈X×R.Nousutilisonsl’anglicisme«énacté»pourexprimerlefaitquecetteinteractionaeffectivementétéeffectuéeparl’agentinteragissantavecsonenvironnement.Sil’interactionénactéeeestlamêmequel’interactionintentéei(c’estàdiresir’=r),alorsnousdisonsquelatentatived’énactiondeiaréussi,sinon,cettetentativeaéchoué.Unexempled’interactionpeutêtredonnéparunrobottouchantunobjet(letoucherimpliquedemanièreindissociableunmouvementrelatifetuneperception).Lerobotpeutintentercetteinteraction,etréussiràl’énactersil’objetestprésent,ouéchouersil’objetestabsent,auquelcas,lerobotaénactéuneautreinteractioncorrespondantàbougerdanslevide.Lemodèleinteractionnelpermetdeprédéfinirdespréférencescomportementalesdel’agentenassociantdesvalencesnumériquesauxinteractions.Ensection3,nousprésentonsunalgorithmequichercheàénacterdesinteractionsassociéesàunevalencepositive,etàéviterd’énacterlesinteractionsassociéesàunevalencenégative.Lesagentscontrôlésparcetalgorithmeexhibentuneformedemotivationproprequenousappelonsmotivationinteractionnelle(Georgeonetal.,2012).CescomportementssontdécritsenSection4.
Notonsquecetteapprochepermetégalementd’implémenterdesagents«curieux»sil’algorithmesélectionnedesinteractionsquiontlemoinsététestéesdansuncontextedonné.Ilpermetégalementd’implémenterdesagentsquisemblentaimerêtre«aucontrôle»deleurpropreactivité—uneformedemotivationappeléeprincipeautotéliqueparSteels(2004).Pourcelal’algorithmedoitsélectionnerlesinteractionsdontilanticipequel’énactionréussira.
LemodèleexpérientieldelaFigure1esimplifielemodèleinteractionnelensupprimantlesnotionsd’expérimentationetderésultat,enremplaçantletermeinteractionparletermeexpérience,etenrenommantEl’ensembleX×R.Ledéveloppeurdel’algorithmepeutpenserauxdonnéesdesortieetd’entréecommeàdesexpériencesrespectivementvouluesetvécuesparl’agent.Letermeexpérienceestàcomprendredanslesensanglaisde«toexperiencesomething».Commelemodèleinteractionnel,lemodèleexpérientielcommenceparlefaitquel’algorithmesélectionneuneexpérienceintentéeidansl’ensembleEdesexpériencesoffertesparlecouplageagent/environnement.Enretour,l’algorithmereçoituneexpérienceénactéee∈E.L’expérienceintentéepeutchangerl’étatdumonde.Sie=ialorslatentatived’énactiondeiaréussi,sinonelleaéchoué.L’algorithmeestincarnéetactif:sesdonnéesd’entrée(lesexpériencesénactées)neconstituentpasunereprésentationdel’étatdumonde.Lesexpériencesencapsulentàlafoisunmouvementetunsignalsensoriel;ellespeuventdoncreprésenterdesschèmessensorimoteursquisontlesbriquesdebasedelathéoriedel’apprentissageconstructivistedePiaget(1951).Notonsquelel’expressionschèmesensorimoteurpourraitsuggérerquelesenseurprécéderaitlemoteur.Ici,nousl’utilisonspourdésigneruneexpérienced’interactiondontlesaspectsmoteuretsenseursontsimultanés.
7
Agent&
Environnement&
Observation Action
a) Modèle classique
o ∈ O a ∈ A
Expérimentation Résultat
c) Modèle Expérimentation/Résultat
r ∈ R x ∈ X Algorithme&
Interaction intentée
Interaction enactée
i = 〈x,r〉 ∈ X×R
d) Modèle Interactionnel
Monde&
Monde&
Observation Action
o ∈ O a ∈ A
b) Modèle classique reformulé
Algorithme&
Algorithme&
Monde&
Algorithme&
Expérience intentée
Expérience enactée
e ∈ E i ∈ E
e) Modèle Expérientiel
Monde&
e = 〈x,r’〉 ∈ X×R
Figure1:Dumodèleclassiqueaumodèleexpérientiel.a)Modèleclassique.b)Modèleclassiquereformulé:ledébutconceptuelducycleestmisenévidenceparlepointnoir.c)Modèleexpérimentation/résultat:lecyclecommenceparlefaitquel’algorithmesélectionneuneexpérimentationetfinitparlefaitqu’ilreçoitunrésultat.d)Modèleinteractionnel:l’algorithmesélectionneuneinteractionintentéeicomposéed’uneexpérimentationxetd’unrésultatanticipér.Enretour,ilreçoituneinteractionénactéeecomposéedel’expérimentationxetd’unrésultatr’.e)Modèleexpérientielbasésurunseultypedeprimitives,lesexpériences,queledéveloppeurdel’algorithmepeutconsidérercommedesschèmessensorimoteursoudesexpériencesphénoménologiquesfaitesparl’agent.
Lemodèleexpérientielprésentéenfigure1ctraduituneinversionradicaledupointdevueportésurunagentcognitifparrapportaumodèleclassiquedesfigures1aet1b(GeorgeonetAha,2013).Lemodèleexpérientielinviteleconcepteurdel’algorithmeàraisonnerinitialementsurlefluxd’expériencephénoménologiquedel’agentaulieudeprésupposerlecouplageagent/environnement.Nousattendonsquenosalgorithmesinterprètentlesrégularitésconstatéesdansleurfluxd’expériencecommerésultantesdel’interactionentrel’agentqu’ilscontrôlentetunenvironnementpersistantqu’ilsapprennentprogressivementàobserveretsurlequelilsapprennentprogressivementàagir.Cetteapprocherejointlathéoriedesactionsintentionnellesd’Engeletal.(2013).Commelesactionsintentionnelles,lesexpériencesintentéesincorporentlaprédictionoul’anticipationd’unrésultat5.Parlefaitqu’ilsmanipulentdesschèmessensorimoteurs,nosalgorithmesserapprochentégalementd’autresalgorithmesquisuiventuneapprochesensorimotricedel’intelligenceartificielle(e.g.,Drescher,1991;Brooks,1991;PierceetKuipers,1997).Cependant,nosalgorithmessedifférencientdeceux-ciparlefaitqu’ilseffectuent,enunsens,unprocessusinverse.Eneffet,lesalgorithmesdecesauteursutilisentlesobservationsetlesactionscommeprimitivespourconstruirelesschèmessensorimoteurssouslaformedecouples〈observation,action〉,alorsquenosalgorithmesutilisentdesschèmessensorimoteursprimitifspourconstruiredesactionsintentionnellesetdescatégoriesd’observationsquisontdesstructuressecondaires(Garnieretal.,2013).
Sinousaugmentonslacomplexitédesdonnéesd’entréeetdesortie,lesalgorithmesimplémentésselonlemodèleexpérientielsouffrenttoutautantd’unebaissedeperformanceque
5“Intentionalactions[...]involvepredictionoranticipationofanintendedoutcome”(Engeletal.,2013,p.203).
8
ceuximplémentésaveclemodèleclassique.Cependant,notreobjectifn’estpasdetraiterdesdonnéesd’entréecomplexesmaisdegénérerdescomportementsdeplusenplusintelligentsengardantlacomplexitédesdonnéesd’entréelimitée.Nosalgorithmesnesontpassoumisàlacomplexitéintrinsèqued’unproblèmemodéliséaprioripuisqu’ilsnecherchentpasàatteindreunétatsolution.Surcespoints,notreapprocheestenphaseavec,parexemple,lepointdevueconstructivisteradicaldeRiegler(2007)6.Aucontraire,lemodèleclassiqueaétécritiquéaumotifqu’ilnécessitaitdesobservationsdontlacomplexitésoitproportionnelleàlacomplexitédumondeafindelimiteruneffetdeperceptualaliasing(WhiteheadetBallard,1991).Leperceptualaliasingestliéaufaitquelesobservationssonttraitéescommedesperceptsquireprésententlemonde,cequelemodèleexpérientielévitejustementdefaire.Lefaitdenepasaugmenterinutilementlacomplexitédesexpériencesnenousempêchecependantpasderesterattentifsàlaperformancedenosalgorithmes,commenouslemontronsenfindesection3.
3 Algorithmed’abstractiond’expérience
Nousavonsdéveloppéunalgorithmequiapprenddesrégularitésséquentielleshiérarchiquesàpartirdufluxd’expériencesénactéesparl’agentaucoursdesonexistence.Nousl’avonsinitialementdéveloppésurlabasedumodèleinteractionnel(GeorgeonetRitter,2012),puissimplifiésurlabasedumodèleexpérientiel(Georgeonetal.,2013).Cetalgorithmevisedesobjectifssimilairesauxalgorithmesdehierarchicalsequencelearningréalisés,parexemple,parSutton et al. (1999).Cependant,ils’endifférencieparlefaitqu’ilapprendàpartird’uneséquenced’expériencesqu’ilcontribueactivementàgénérer,àladifférencedesalgorithmesdecesauteursquiapprennentàpartird’uneséquencereçuepassivementoudonnéeapriori.Notrealgorithmeutilisesapositionactivepourtesterdesrégularitéshypothétiques,cequil’aideàfairefaceàlacomplexitédumonde.Unefoisqu’ilaapprisuneséquenced’expériencesquireflèteunerégularitéconfirmée,ilconsidèrecetteséquencecommeuneexpérienceabstraitequ’ilpourratenterd’énacteràsontour.L’apprentissageestrécursifetproduitdesexpériencesdeplusenplusabstraites.LaFigure2illustreceprocessus.
6«Aswecannolongerspeakofinformationinputandthevicissitudeofstimuli,organismsarenolongerexposedtoinformationoverloadasaresultofprocessingtheentirelyavailableinformation.Theynolongerneedtodevotetheircognitiveresourcestofilteroutirrelevantinformationinordertoretainusefulknowledge.Itbecomesclearthateveninsectbrainscanaccomplishnavigationaltasksandsophisticatedcognitivedeedsinnontrivialenvironmentswithoutfallingpreytotheframeproblem.Therefore,cognitiveresearchonperceptionshouldnotfocusonfilteringmechanismsanddatareduction.Informationanxiety(Wurman1990)andcognitiveoverload(Kirsh2000)shouldnotbeconsideredaproblemoftheenvironment,asitisthecasewhentalking,e.g.,abouttheoverloadthatcomeswiththeinformationfloodontheinternet.Perceptionhastobeexploredintermsoftheorganismthatperformstheperceptiveact»(Riegler,2007,p109).
9
Algorithme
Monde
Monde “connu” au temps td
ed ∈ Ed id ∈ Ed
ep1 ip1 ipj ∈ E epj ∈ E
Fonction décisionnelle
Figure2:Énactionrécursived’expériences.E:ensembledesexpériencesprimitivesprédéfinies.Ed:ensembledesexpériencesprimitivesouabstraitesautempsdedécisiontd.Bouclesprimitives(traitspleins):cyclesd’énactiondesexpériencesprimitives.Boucledécisionnelle(traitpointillé):cycled’énactiond’uneexpérienceabstraite.Untourdelaboucledécisionnellegénèreplusieurstoursdelaboucleprimitive.
Lesexpériencespermisesparlecouplageagent/environnement(appartenantàl’ensembleEenfigures1e,et2)sontmaintenantappelésexpériencesprimitives,notéesipouepselonqu’ellessontintentéesouénactées.Leurprocessusd’énaction(impliquantlacommanded’actionneursetlalecturedecapteurs)estprogramméparledéveloppeurdel’agent.Aucoursdutemps,l’algorithmeconstruitdesexpériencesabstraitesquicorrespondentàdesséquences〈ep1,…,epn〉d’expériencesprimitives.Nousqualifionscesexpériencesd’abstraitescarellenepeuventpasêtreénactéesdirectementparl’agentmaisdoiventêtredécomposéesenexpériencesprimitivespourêtreénactées.L’ensembledetouteslesexpériencesconnuesparl’algorithmeautempsdécisionneltd(primitivesouabstraites)estnotéEd.
Tenterd’énacteruneexpérienceabstraiteidconsisteàtenterd’énactersuccessivementlesnexpériencesprimitivesip1,…,ipndeid(bouclesentraitpleindelaFigure2).Sil’énactiondelajèmeexpérienceprimitiveipjéchoue,alorsl’énactiondeidestinterrompue.Alafindelatentatived’énactiondeid(complèteouinterrompue),lafonctiondécisionnelledel’algorithmereçoitl’expérienceabstraiteénactéeedconstruiteàpartirdesjexpériencesprimitivesénactées〈ep1,…,epj〉,j≤n.
Laboucleprimitiveestgéréeparunesous-fonctiondel’algorithmequiestindépendantedelafonctiondécisionnelle,commesilesexpériencesabstraitesétaienténactéesmachinalementsansnécessiterl’attentiondel’algorithmetantqueleurénactionréussit.Decefait,l’apprentissagepeuts’appliquerrécursivement,indépendammentdelalongueurdesexpériencesénactées.Pourlafonctiondécisionnelledel’algorithme,edsembleavoirétéénactéedansunmondeabstrait«connuautempstd»(boucleentraitpointillé).Dufaitquechaqueagentexécutantcetalgorithmeapprenddesexpériencesabstraitesenfonctiondesaproprehistoire,ilconnaitprogressivementlemonded’unefaçonquiluiestpropre.Cettepossibilitéd’évolutiondelabouclecognitiverejointlesprincipesexprimésparFroeseetZiemke(2009).Cesauteurss’appuientsurlaphilosophiedeHeideggeretsurlathéoriedel’énactionpourargumenterquelapossibilitéd’évolutionducouplagestructurelentreunêtrecognitifetsonenvironnementestunepropriétéimportantedessystèmescognitifs.Nousproposonslemodèleexpérientielcommeuneréponseinformatiquepourtraduirecetteattentethéoriquedanslesalgorithmes.
10
Cemodèleparticipeégalementàuneffortdelarechercheenintelligenceartificiellepourconcevoirdesagentscapablesdese«programmereux-mêmes»(e.g.,Thórissonetal.,2013).Parcequelesexpériencesabstraitespeuventêtreénactéesmachinalementcommedesséquencesd’expériencesprimitives,ellesconstituentunesortedecoderé-exécutableappris.L’apprentissageparrégularitéd’expériencegénèredoncuneffetd’auto-programmationdel’agentparsédimentationd’habitudesdebasenhaut—uneexpressionquenousempruntonsàDavidHume(1739)etHusserl(e.g.,citéparDeLooretal.,2010).Nousconsidéronslespropriétésd’évolutionducouplagecognitifetd’auto-programmationcommedeuxpropriétésliéesentreellesquipermettentuneformed’autonomieconstitutivedel’agent(FroeseetZiemke,2009).
Techniquement,l’algorithmeencodelesexpériencesabstraitesed∈Eddemanièrehiérarchiquesousformedecouplescomposésd’unepré-expérienceetd’unepost-expérience:ed=〈epre,epost〉|epre,epost∈Ed.LaFigure3illustrel’apprentissaged’unniveaud’abstractionsupérieuràpartird’unniveaud’abstractiondonné.
〈〈A,B〉,C〉%
A% B% C% D%
Temps%
〈〈A,B〉,C〉%%〈A,〈B,C〉〉%
〈A,B〉% 〈B,C〉%
1% 2% 3% 4% t+1% t+2%
Réac6ve% Propose%
A% B%
〈B,C〉%
t%
C%
…%〈D,E〉%
Niveaux%
supérieurs%
td% td+1%
Temps%décisionnel%
td% td+1%
F%
〈〈D,E〉,F〉%
td+2%
Figure3:Apprentissagehiérarchiqued’expériences.Chaquepasdetempsdécisionnel(td,td+1surlaflèchedetempspointillée)représenteuneexécutiondelafonctiondécisionnelledel’algorithme(untourdelaboucleenpointillédelaFigure2).
Dansl’exempledelaFigure3,uneexpérienceA∈E1esténactéeautemps1,puisuneexpérienceB∈E2autemps2.L’algorithmeenregistreuneexpérienceabstraitedeniveausupérieurcorrespondantàlaséquence〈A,B〉.Sil’expérienceAesténactéeànouveauautempst,l’algorithmeréactiveralaséquence〈A,B〉carsapré-expérience(A)estidentiqueàladernièreexpérienceénactéeautempst.Unefoisactivée,laséquence〈AB〉proposedetenterd’énactersapost-expérience(B)autempst+1.Sicettetentativeréussitsouvent,alorsl’algorithmepeutconsidérerlaséquence〈A,B〉commeunerégularitéd’interactionofferteparlecouplageagent/environnement.LefaitquelestentativesréussissentsouventounonestévaluéparunmécanismedepondérationdesséquencesapprisesdétailléparGeorgeonetRitter(2012).
QuanduneexpérienceCesténactéeautemps3,l’algorithmeenregistrelesséquences〈B,C〉ainsiquelesséquenceshiérarchiques〈〈A,B〉,C〉et〈A,〈B,C〉〉.QuanduneexpérienceDseproduitautemps4,l’algorithmepourraitenregistrertouteslescombinaisonshiérarchiquesdesexpériencesprécédentes.Cecimontrequelenombredeséquencescroitexponentiellementavecletemps,etqu’unmécanismedelimitationdunombredesséquencesapprisesestnécessairepourlimitercettecroissance.
11
Sil’expérienceBesteffectivementénactéeautempst+1,l’algorithmeréactivelaséquence〈B,C〉,ainsiquelaséquence〈〈A,B〉,C〉carsapré-expériences’identifieàlaséquenceénactéededeuxièmeniveau〈A,B〉auxtempstett+1.Cemécanismepermetàl’algorithmedereprésentersoncontextecourantparunensembledeséquencesd’expériencesénactées.Enpratique,l’algorithmepeutréactiveraumêmemomentdeuxséquencesquiproposentdesexpériencesintentionnellesdifférentes.Unmécanismededécisionestdoncnécessairepoursélectionnerlaprochaineexpérienceintentée.Cemécanismededécisiontraduituneformedepréférencedel’agent.Lamotivationinteractionnelle(introduiteenSection2)estimplémentéeparlefaitquel’algorithmechoisitpréférentiellementlesexpériencesquiontlameilleureprobabilitéderéussir(estiméesenfonctiondesexpériencesantérieures)etquiontlesvalenceslesplusélevées,commesil’agenttrouvaitagréabled’énacterlesexpériencespositives,etdésagréabled’énacterlesexpériencesnégatives.Lesvalencesd’expérienceoffrentdoncunmoyendedéfinirdespréférencesinnéessanscontraindrel’agentàdesobjectifsprédéfinis.L’agentdoitconstruiredesconnaissancessurlemondepourmieuxréussiràénacterlesexpériencesquiontunevalencepositiveélevéeetàéviterlesexpériencesquiontunevalencenégative.
Pourlimiterl’explosioncombinatoiredunombred’expériencesabstraitesapprises,l’algorithmelimitel’apprentissageenneconstruisantdesséquencesdeplushautniveauqu’àpartirdeséquencesintentionnellementénactées.Parexemple,autemps3,l’algorithmen’enregistrepaslaséquence〈〈A,B〉,C〉carlasous-séquence〈A,B〉n’apasétédécidéeintentionnellemententantqueséquenceentière.Enrevanche,si,autempsdedécisiontd,l’agentdécided’énacterlaséquence〈DE〉(aucoursdestempstdettd+1),etsi,autempsdécisionneltd+1,l’agenténactel’expérienceF,alorsl’algorithmeenregistrelaséquence〈〈D,E〉,F〉carelleestbaséesurdeuxsous-séquencesénactéesintentionnellement.Cemécanisme,détailléplusprécisémentparGeorgeonetRitter(2012),assurequ’unniveauderégularitéssoitconfirméetutileavantd’apprendredesrégularitésdeplushautniveau.
4 Expérimentations
Cettesectionrapportedeuxexpérimentationsquiillustrentlescomportementsgénéréspardesagentscontrôlésparl’algorithmeprésentéenSection3.Noterquelemêmealgorithmepeutêtreutilisépourcontrôlerdesagentsdontlesexpériencessontdenaturestotalementdifférentespuisquel’algorithmen’exploitepasdeprésupposéssurlasignificationdesexpériences.
4.1 Expérimentation1:robote-puckLaFigure4présenteledispositifexpérimental.Pourplusdedétails,nousrenvoyonslelecteuràl’articledeGeorgeonetal.,(2013),ainsiqu’àunevidéodedémonstrationetàuneexpérimentationinteractivesimilairedisponiblesenligne7.UneanalysepluscomplètedescomportementsgénérésparuneexpérimentationplussophistiquéeenenvironnementsimuléaétéeffectuéeparGeorgeonetMarshall(2013).
7http://youtu.be/t1RO5S4mBEYhttps://youtu.be/LVZ0cPpmSu8
12
Figure4:Gauche:dispositifexpérimental,lerobote-puck(Mondadaetal.,2009)danssonenvironnement.Droite:robote-puckfaceàunmur(vert)etcônesdedétectiondemursàgauche,devant,etàdroite(zonesgrisesdégradées).
Danscetteexpérimentation,lecouplagerobot/environnementoffrelesdixexpérienceslistéesdansletableau1.
Tableau1:Expériencesàladispositiondel’algorithme.Leseuildedétectiondemurestrégléà5cmenviron.Leseuildedétectiondecollisionestrégléà0,5cmenviron.
Expérience Implémentation ValenceSentirunmurdevant
ActiverlaLEDinfrarougefrontaleetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.
-1
Sentirunespacevidedevant
ActiverlaLEDinfrarougefrontaleetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.
-1
Sentirunmuràgauche
ActiverlaLEDinfrarougegaucheetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.
-1
Sentirunespacevideàgauche
ActiverlaLEDinfrarougegaucheetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.
-1
Sentirunmuràdroite
ActiverlaLEDinfrarougedroiteetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.
-1
Sentirunespacevideàdroite
ActiverlaLEDinfrarougedroiteetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.
-1
Avancer ActiverlesdeuxrouesetactiverlaLEDfrontalependantletempsdeparcourirenviron5cm,etlalumièreréfléchienedépassejamaisleseuildecollisiondemur.
5
Cognerunmur ActiverlesdeuxrouesetactiverlaLEDfrontale.Lalumièreréfléchiedépasseleseuildecollisionavantd’avoirparcouru5cm,provoquantlafinanticipéedudéplacement.
-10
Tourneràgauche Activerlarouegaucheenarrièreetlarouedroiteenavantpendantletempsd’avoirtournésurplaced’environ90°àgauche.
-4
Tourneràdroite Activerlarouegaucheenavantetlarouedroiteenarrièrependantletempsd’avoirtournésurplaced’environ90°àdroite.
-4
Lorsquel’algorithmeintenteuneexpérience,nonseulementilignorequellediodeinfrarougeoumoteurilactionne,maisaussilefaitmêmequ’ils’agissed’unediodeoud’unmoteur.Ilignoreégalementl’existencedemurs,ainsiquelefaitqu’ilcontrôleunrobotquisedéplacesurunesurfaceplane.L’algorithmen’apasd’autremoyendeconnaîtrelerobotetsonenvironnementqueparlesrégularitésd’expériencesénactées.Desvalencesnumériquessontassociéesaux
13
expériences:avancer(+5),collision(-10),tourner(-4),sentir(-1).Lesexpériencessentirettournerontdesvalenceslégèrementnégativespourreprésenterl’effortdelesénacter.
Audébut,l’algorithmedoit«babiller»pourapprendreàdonnerdusensauxpossibilitésd’expérienceoffertesparlecouplagerobot/environnement.UneanalyseducomportementobservabledurobotestrapportéeenFigure5.
10 20 30 40 50 60 70 80 90 100
3Tape1
2
Feel left/front/rightempty (-1)
Feel left/front/rightwall (-1)Step forward (5) Bump (-10) Turn right (-3)Turn left (-3) Satisfactions Hierarchical levels Correct Incorrect
Figure5:100premièresexpériencesénactéesparlerobot.Bande1:expériencesprimitivesénactéesaucoursdutemps:avancer(triangleblanc),collision(trianglerouge),tourner(demi-cercles),sentirvide(carréblanc),sentirmur(carrévert).Lespositionsdescarréshaut/milieu/basreprésententlesdirectionsgauche/devant/droite.Bande2:valencedesexpériencesénactéesreprésentéeenbar-graphe(vertpositive,rougenégative).Bande3:Niveauhiérarchiquedesexpériencesintentionnellementénactées(gris:énactionprimitiveréussie;noir:énactionprimitiveéchouée,interrompantl’énactiondel’expérienceabstraite).L’expérienceabstraitesentir_vide_devant–avanceresténactéepourlapremièrefoisauxpas27-28.Auxpas64,74et92,cetteexpérienceabstraiteaétéinterrompue(segmentnoirdesecondniveauenbande3)enraisondufaitquel’expérienceprimitiveintentéesentir_vide_devantarésultéenl’expériencesentir_mur_devant,cequidissuadalerobotd’allerverslemuretleferaplutôttourneràgauche.
L’analysedecomportementsprésentéeenFigure5montrequelerobotapprendàutiliserlesexpériencessentircommeuneperceptionactivepouréviterd’entrerencollisionaveclesmurs(bienquelesexpériencessentiraientunevalencelégèrementnégative).Cetapprentissageneconsistepasseulementànepasavancerquandunmurestsentidevant,mais,plusimportant,àactivementutiliserlesexpériencessentircommeuneperceptionpourévaluerlasituationavantdeprendreunedécision.Danscetteapproche,laperceptionémergedel’activitédurobot,parl’utilisationappropriéedeschèmessensorimoteurs.C’estunedifférenceradicaleaveclesapprochesclassiquesdanslesquelleslaperceptionestprédéfinie.Lefaitquelerobotprennedesdispositionspourpouvoiravancersanssecognerfaitpenseràl’observateurqu’ilaimeavanceretqu’iln’aimepassecogner.Dansuneexpériencepluscomplèteenenvironnementsimulé(e.g.,GeorgeonetMarshall,2013),l’observateurpeutvoirquelerobotapprendàassocierlessensationslatéralesetlesrotationslatérales,c’estàdirequ’ildécouvreimplicitementlastructureàdeuxdimensionsdesonenvironnement.Cettedécouvertedelastructurespatialedumondeàpartirderégularitésd’expériencessensorimotricesrejoint,parexemple,lestravauxdePhilipona et al. (2004).
IlestànoterquelescomportementsrapportésenFigure5reposentsurlefaitquelesseuilsdedétectiondescapteursutilisésparlesexpériencessentirsontrégléspourcorrespondreapproximativementàladistanceparcourueparlesexpériencesavancer(5cm).Sicesdistancessonttropdifférentes,lerobotapprendquelesexpériencessentirsontinutiles;danscecas,ilapprendàavancersansutiliserlesexpériencessentiretn’évitepaslescollisions.Sinousréduisonsle«coût»detourner(e.g.,endonnantauxexpériencestournerlavalence-1),on
14
observequelerobotfinitparapprendreàéviterlescollisionslaplupartdutempsentournantaucentredelaboiteenalternantavancerettourner.
4.2 Expérimentation2:systèmesensorieldistalrudimentaireLaFigure6présenteledispositifexpérimental.Nousrenvoyonslelecteuràl’articledeGeorgeonetal.(2011)pourplusdedétails.Unevidéodedémonstrationestenligne,ainsiqued’autresvidéosdanslesquellesl’agentsedéplacedansunespacecontinu(aulieud’unegrilledecellules)etpoursuitdesciblesmobiles8.
Area%A%
Area%B%
Area%C%
Distal%sensory%field%
Figure6:Dispositifexpérimental.Lapointeorangereprésentel’agentplacédansunegrillede6x7cellules.Lazonedélimitéeparuntraitpleinreprésentesonchampsensorielcouvrant180°,capablededistinguerlesdéplacementsrelatifsdel’objetcible(pointbleu)dansleszonesA,BouC.
L’agentdisposed’unsystèmesensorielrudimentaire(simulantuneformedevisionoud’olfaction)quidétectelesdéplacementsrelatifsd’unobjetcibleimmobilequandl’agentbouge.Cesystèmesensorielrenvoieuneinformationdedirectionsommaire:àdroite,enface,ouàgauche.Lorsquel’agentarrivesurunecellulecontenantlacible,elleestretiréedelagrille,commesil’agentlamangeait.L’expérimentateurpeutinsérerdenouvellesciblesencliquantsurlagrille.Lesexpériencesoffertesparlecouplageagent/environnementsontlistéesdansleTableau2.
Tableau2:Expériencesàladispositiondel’algorithme.Lesexpériencesimpliquantladétectiond’unecibleexistententroisvariantesselonlazonedudéplacementdelacible(A:àgauche,B:enface,ouC:àdroite).L’algorithmeignorequ’ils’agitdevariantesd’unemêmeexpérience.Iltraiteles18expériencesdemanièreinitialementindifférenciée(uneexpérienceparlignedelacolonne"Variantes").
Evénements Variantes Implémentation ValenceAvancersansdétecterdecible
- Avancerd’unecase.Pasdecibledanslechampsensoriel
0
Collisiondemur - Tenterd’avancerd’unecasemaiséchoueràcaused’unmur.
-1
Avancerversunecible
ABC
Avancerd’unecase.UnecibleapparaîtougrossitdanslazoneA,BouC.
1
Avanceravecsortiedelacibleduchamp
AC
Avancerd’unecase.LacibledisparaîtduchampsensorieldepuislazoneAouC.(LavarianteBn’existe
-1
8https://youtu.be/91kKzybt8XYhttps://youtu.be/vSUEoh-sjwU
15
visuel pasdanscecouplageagent/environnement.)Mangerlacible - Avancerd’unecasesurlacible.Lacibleestretiréedela
grille.1
Tournersansvoirdecible
GaucheDroite
L’agenttournede90°àgaucheouàdroite. 0
Tournerversunecible
GaucheAGaucheBGaucheCDroiteADroiteBDroiteC
L’agenttournede90°àdroiteouàgaucheetlacibleapparaîtdanslazoneA,BouC.
1
Tourneravecsortiedelacibleduchampvisuel
GaucheADroiteC
L’agenttournede90°etlacibledisparaitdesonchampvisueldepuislazoneA(tourneàgauche)ouC(tourneàdroite).
-1
Encoreunefois,l’algorithmeignorelasignificationdesexpériences,ainsiquelefaitqu’ilcontrôleunagentquisedéplacedansunegrilleàdeuxdimensionscontenantdesciblesqu’ilpeutdétecteretdesmursqu’ilpeutcogner.Lesvalencesassociéesauxexpériencessontdéfiniesparl’expérimentateurdetellesortequel’agentsembleaimerserapprocherdescibles.
Commepourl’expérimentationprécédente,audébut,l’algorithmesélectionnedesexpériencesarbitrairement,puisilapprendprogressivementdesrégularitésquiconduisentàrapprocherl’agentd’unecible.Letempsnécessairepouratteindrelapremièrecibledépenddelapositioninitialedel’agentetdelaciblemaisestdel’ordred’unecinquantained’expériences.Unefoisquel’agentaapprisàatteindrelapremièrecible,l’expérimentateurintroduitdenouvellesciblesencliquantsurlagrille,enattendantàchaquefoisquel’agentait«mangé»lacibleprécédente.Onobservequ’àpartirdeladeuxièmecible,l’agentreproduitlemêmeschémadecomportementappris,quipeutêtredifférentd’uneexpérimentationàl’autre,enfonctiondesconditionsinitiales.LaFigure7montredeuxcomportementstypiquesobservés.Unefoisqu’unagentaapprisundecescomportements,illerépètesurtouteslesnouvellesciblesintroduitesparl’expérimentateur.
Figure7:Exemplesdecomportementsapprisparl’agentaucoursdedifférentesexécutionsdel’expérimentation.Gauche:comportementconsistantàavancerenescalierjusqu’às’aligneraveclacible.Droite:comportementconsistantàavancerenlignedroitejusqu'àcequelaciblesorteduchampsensoriel,puisrevenirenarrièred’unecellulepours’alignersurlacible.L’agentneperçoitpasladistancedelacible,ilapprendàlalocaliserparlefaitqu’ellesortedesonchampsensoriel.
L’émergencedesdeuxschémasdecomportementsdécritsàlaFigure7montrequechaqueinstanced’agentapprendunestratégieàpartirdesonhistoireindividuelle,aulieud’appliquerunestratégiepré-codée,commec’estsouventlecasaveclestechniquesclassiquesderésolutiondeproblème.Notonsquelesdifférencesdestratégienerésultentpasdechoixaléatoires(l’algorithmenefaitpasappelàlafonctionrandom),maisuniquementdepetitesdifférences
16
danslapositioninitialedel’agent,produisantuneffetd’imprédictibilitédéterministe(e.g.,ZwirnetDelahaye,2013).
Cettefaçond’encoderlesmotivationspropressousformedevalencesassociéesauxexpériencessensorimotricesoffreuneréponseauxdesiderataexprimésparSun(2004)deconsidérerlescomportementscommepremiers9.L’agentestattiréparlesciblesavantmêmed’avoirmangésapremièrecible.
Dupointdevuedel’observateur,lescomportementsreflètentuneindividualitéacquiseàpartirdel’expériencepersonnelledel’agent.Lesagentspeuventapprendredescomportementsdifférentspoursatisfairedesdésirsidentiques.Nouspensonsquecetteapprocheouvrelavoieàlaconceptiond’agentsquipourrontdévelopperunepersonnalitéindividuellepluscomplexeparunprocessusd’individuation(Simondon,2007).Cettepossibilitéd’individuationneprovientpasdufaitquel’agentéchappeàsesdésirsprédéfinis,maisdufaitquesesdésirsprédéfinissous-déterminentsescomportements(needfulfreedom,Jonas,1966).Al’avenir,noussouhaitonsdévelopperdesalgorithmesplussophistiquésdanslesquelsdesdonnéesreprésentantlasituationhoméostatiquedel’agentinterviendraientdanslescritèresdesélectiondesexpériencesintentées.Parexemple,ensituationd’équilibrehoméostatique,l’algorithmesélectionneraitlesexpériencesquiontlemoinsététestéesdanslecontextecourantplutôtquecellesquionlaplushautevalenceattendue.L’observateurd’untelagentpourraitinterprétercescomportementsparlefaitquel’agentestplusjoueuroucurieuxlorsqu’iln’apasfaim.
5 Verslaconstructiondeconnaissancesontologiques
Lesêtrescognitifsnaturels(animaux)existentdansunenvironnement(lemonderéel)quipeutleuroffrirdespossibilitésd’expériencespersistantespendantuncertaintempsetencertainslieux.Parexemple,uneproiepeutoffrirdespossibilitésd’expériencesvisuelles,auditives,tactiles,olfactives,ougustatives.Lapossibilitépersistantedefairecesexpériencesenunecertainerégiondel’espacepeutêtreinterprétéeparlefaitqu’ilexisteuneproiedanscetterégion.Cettesectionexaminecommentconcevoirdesagentscapablesderéalisercetteinterprétation.L’algorithmeneconnaîtpaslaproie«ensoi»maislaproie«encequ’elleoffreàl’agentlapossibilitéd’énactercertainesexpériencesenuncertainlieu».Nousdésignonslesentitésprésentesdansl’environnement«encequ’ellessontexpérimentéesparl’algorithme»parletermedephénomènes.Cetusagedumotphénomènecorrespondàsonsenscourantqui
9«Comportment,accordingtoHeidegger,[…]“precedeseverypossiblemodeofactivityingeneral,”priortoexplicitbeliefs,priortoexplicitknowledge,priortoexplicitconceptualthinking,andevenpriortoexplicitdesire.Comportmentisthusprimary,inexactlythissense.Thetraditionalmistakeofrepresentationalismliesinthefactthattheytreatexplicitknowledgeanditscorrelatesasthemostbasicinstead,andthustheyturnthepriorityupside-down;andinsodoing,“everyactofdirectingoneselftowardsomethingreceives[wrongly]thecharacteristicsofknowing”(Heidegger,1927)»(Sun,2004,p.361);
17
désignelafaçondontlachoseseprésenteàlacognitiond’unagent,paroppositionàlachose«ensoi»désignéeparletermenoumène.
Danslessections3et4nousavonsprésentédesalgorithmescapablesd’interagiravecunseultypedephénomène.L’agentétaitincapabledecatégoriserlesphénomènesprésentsdanssonenvironnementetd’adaptersescomportementsenfonctiondescatégoriesdesphénomènesaveclesquellesilinteragissait.Nousprésentonsmaintenantdesalgorithmesdotésdelacapacitéd’apprendreetdereconnaitredescatégoriesdephénomènesdifférentes.Cesalgorithmesencodentchaquecatégoriedephénomèneapprisesouslaformed’unensemblePd’expériences(P⊂Ed)quiregroupelesexpériencesoffertesparlesphénomènesdecettecatégorie.Nousutilisonsl’expressionexpériencesoffertespourtraduireleterme«afforded»venantdelathéoriedesaffordancesdeGibson(1977).L’algorithmeutiliselesensemblesd’expériencesPcommedesreprésentationsopérativesdephénomènes,c’estàdiredesreprésentationscapablesdeprovoquerdescomportements(e.g.,Weill-Fassinaetal.,1993).
Pourquel’algorithmepuissentencoder,mémoriseretexploiterlescatégoriesdephénomènes(lesensemblesP),nousledotonsdedeuxmémoiressupplémentaires:unemémoireproto-ontologiqueetunemémoiredetravail,quiviennents’ajouteràsamémoireséquentiellehiérarchiqueprésentéeenSection3.Lamémoireproto-ontologiquemémoriselescatégoriesdephénomènesconnusparl’algorithmeàuninstantdonné.Techniquement,c’estl’ensembledesensemblesPconstruitsàl’instantt.Nousqualifionscettemémoiredeproto-ontologiquecarellecontientlesprémicesd’uneontologiedesphénomènesconstruiteparl’algorithme,sanstoutefoisposséderlesmécanismesd’inférencehabituellementprésentsdanslesontologiesinformatiques.
Lamémoiredetravailmémoriselesinstancesdephénomènespersistantesdansl’environnementàuninstantdonné.Techniquement,uneinstancedephénomèneestreprésentéeparunpointeurquirenvoieàsacatégorie(unensemblePparticulier)stockéeenmémoireproto-ontologique.Dansl’expérimentationdelaSection5.1,lamémoiredetravailn’alacapacitédemémoriserqu’uneseuleinstancedephénomèneprésentàuninstantdonné.Dansl’expérimentationdelaSection5.2,lamémoiredetravailconsisteenunemémoirespatialeégocentréequipeutmémoriserplusieursinstancesdephénomènesquicoexistentendifférentslieuxdel’espaceautourdel’agent.
5.1 Inférencedephénomènesàpartirderégularitésd’expérienceDanscetteétude(Georgeonetal.,2015),lamémoiredetravailestencodéesouslaformed’unréseaudePétri.Initialement,ceréseaunecontientaucunarcetunseulnœudnomméétatignorant.Lorsquelejetonestsurcenœud,l’algorithmesélectionnelesexpériencessansfaired’hypothèsesurlephénomèneaveclequell’agentestentraind’interagir.Lorsqu’unenouvellecatégoriedephénomèneestconstruiteenmémoireproto-ontologique,unnouveaunœudcorrespondantàcettecatégorieestajoutéauréseau.Lorsquelejetonestsurcenœud,l’algorithmesélectionnelesexpériencesintentéesenfaisantl’hypothèsequel’agentestentraind’interagiravecuneinstancedephénomènedecettecatégorie.L’algorithmeconstruitunarcversunnœudreprésentantunecatégorielorsqu’ilinfèrequel’agentcommenceàinteragiravecunphénomènedecettecatégorie.Aufuretàmesurequel’algorithmeconstruitleréseaude
18
Pétri,ill’utilisepourévaluerlesconséquencespossiblesdesexpériencesqu’ilpourraitintenter:l’expérienceénactéequirésulteraitd’uneexpérienceintentéeparticulière,ainsiquelephénomèneaveclequell’agentinteragiraitàlasuitedecetteénaction.Lorsqu’uneexpérienceesténactée,l’algorithmedéplacelejetonlelongdel’arcassociéàcetteexpérience.Lescatégoriesdephénomènes(mémoireproto-ontologique)etleréseaudePétri(mémoiredetravail)cessentd’évoluerquandilspermettentàl’algorithmedefairedesanticipationscorrectes.Ladifficultéprovientdufaitquel’algorithmedoitconstruirelecontenudecesdeuxmémoiresenparallèle.
Danscetteexpérimentation,lemondeestcomposéed’unechainede11chiffresarbitrairesinitialiséeàlavaleurC0=[1,7,3,2,9,3,5,6,7,8,9],etd’unentierpdansl’intervalle[0,9],initialiséàp0=0,quireprésentelapositiondel’agentsurlesdixpremierschiffresdecettechaine.Ct(p)désignelechiffreàlapositionpdel’agentautempst.L’agentpeutsedéplacerdanslachaineversladroite.Quandl’agentarrivesurledixièmechiffreCt(9),unnouveaudéplacementversladroiteleramènesurlepremierchiffreCt+1(0).LesexpériencessontlistéesdansleTableau3.
Tableau3:Expériencesdontdisposel’algorithme.Ct(p)désignelechiffreàlapositionpautempst.
Expériences Implémentation ValenceSentirsupérieur Ct(p+1)≥Ct(p) 0Sentirinférieur Ct(p+1)<Ct(p) 0Avancerverssupérieur Ct(p+1)≥Ct(p);If(p<9)thenp←p+1elsep←0; 1Avancerversinférieur Ct(p+1)<Ct(p);If(p<9)thenp←p+1elsep←0; -1Permuterverssupérieur Ct+1(p+1)←Ct(p)|Ct+1(p)←Ct(p+1);Ct+1(p+1)≥Ct+1(p) 0Permuterversinférieur Ct+1(p+1)←Ct(p)|Ct+1(p)←Ct(p+1);Ct+1(p+1)<Ct+1(p) 0
Rappelonsquel’algorithmeignoreleseffetsproduitsparlesexpériences,ainsiquelefaitmêmequ’ilcontrôleunagentlocaliséàl’emplacementpdansunechainedechiffres.Lesvalencesdesexpériencessontinitialiséespoursimulerunagentquisembleraitaimeravancerversunchiffresupérieurouégalàceluisurlequelilestàl’instantt,etnepasaimeravancerversunchiffreinférieur.
Cecouplageagent/environnementoffredeuxcatégoriesdephénomènesquisontintéressantesàdécouvrirpourl’algorithme—catégoriesquenousdésignonsarbitrairementparmontéeetdescente.L’algorithmedoitdécouvrirqu’ilpeututiliserlesexpériencessentirpourobserverl’instancedephénomèneaveclequell’agentinteragitàl’instantt,etconnaîtresacatégorie.Ildoitégalementdécouvrirqu’ilpeututiliserlesexpériencespermuterpourtransformeruneinstancedephénomèned’unecertainecatégorieenuneinstancedephénomèned’uneautrecatégorie.Cesphénomènessontdoncbiendes«façonsdontlemondeseprésenteàl’algorithme».Lachainedechiffres,quantàelle,constitue«lemondeensoi,inconnudel’algorithme»,quipourraitdoncêtreappelé,entermesphilosophiques,lemondenouménaldecettesimulation.
Nousavonsimplémentéunalgorithmequis’inspiredetechniquesdeprocessmining(e.g.,VanderAalst,etal.2003).Leprocessminingestunedisciplinequiviseàconstruiredemanièrenonsuperviséeunmodèlecausald’unsystème,àpartird’unetraced’activitégénéréeparce
19
système.LaFigure8montreleréseaudePétriconstruitparl’algorithmeaprèsenviron70expériences.L’algorithmeaapprislesdeuxcatégoriesdephénomèneP1etP2quenous(observateurs)connaissonspourêtrelescatégoriesmontéeetdescenteainsiquelesdifférentesexpériencesquipermettentàl’agentdechangersasituation(arcsduréseaudePétri).
Ignorant(
P2(
Sen-er(supérieur(
Sen-r(inférieur(
Avancer(vers(supérieur(
Avancer(vers(inférieur(
Permuter(vers(inférieur(
Permuter(vers(supérieur(
P1(
P1(=({((((((,(((((((,((((((}(
P2(=({((((((,(((((((,((((((}(
Figure8:Laproto-ontologie(gauche)etleréseaudePétri(centre)représentantlesystèmedeconnaissanceconstruitparl’algorithme(adaptédeGeorgeonetal.,2015).LescatégoriesdephénomènesmontéeetdescentesontreprésentéesparlesensemblesP1etP2desexpériencesoffertesparlesphénomènesdechaquecatégorie.LesnœudsduréseaudePétrireprésententdesétatsdeconnaissancesquel’algorithmepeutavoirsurl’étatdumonde:agentinteragissantavecunphénomènemontée(gauche),avecunphénomènedescente(droite),ouignorantduphénomènecourant(bas).Lesarcsdugraphemontrentlesexpériencesquifontpasserl’algorithmed’unétatdeconnaissanceàunautre,pourrefléterleschangementsdumondeprovoquésparl’énactiondesexpériencesattachéesàcesarcs.
UnefoisqueleréseaudePétriestconstruit,l’algorithmel’exploitedanslebutd’énacterdesexpériencespositivesetd’éviterlesexpériencesnégatives.Dupointdevuedel’observateur,l’agentsemblecomprendreprogressivementcommentilpeutobserversasituationetcommentilpeutlatransformeràsonavantage.Quandilestdansl’étatignorant,ilintenteuneexpériencesentirpourconnaitrelacatégorieduphénomèneaveclequelilestentraind’interagir.Quandilsembleserendrecomptequ’ilestconfrontéàunphénomènedelacatégoriemontée,ilénactel’expérienceavancerverssupérieur.Quandilestconfrontéàunphénomènedelacatégoriedescente,ilénactesuccessivementlesexpériencespermuterverssupérieurpuisavancerverssupérieur.
Bienentendu,ledéveloppeurdel’algorithmepourraitfacilementprogrammerdirectementcescomportementsens’appuyantsursaconnaissancedeseffetsdesexpériences.Cependant,pourl’observateur,l’agentsembleraitconnaîtrelastructuredumondedèsledépart.Aucontraire,dansnotreexpérience,l’observateurvoitl’agentapprendreprogressivementcommes’ilparvenaitàcomprendredelui-mêmelastructuredesonenvironnement.Nousconstatonsquel’observateurestdavantageenclinàattribueruneintelligenceàl’agentquandilesttémoindeceprocessusd’apprentissage(sinon,l’observateurpenseque«l’agentestseulementunautomatequiexécuteuncomportementpréprogrammé»).L’articledeGeorgeonetal.(2015)présenteuneanalyseapprofondieducomportementd’apprentissageenanalysantunetraced’activité.
Notonsquecetteexpérimentationillustreaussilefaitquel’algorithmeneparvientpasàconstruireuneconnaissancephénoménalequirendeexactementcomptedelastructuredumondenouménal.Eneffet,danslasituationrareoulechiffrecourantestégalauchiffresuivant(Ct(p)=Ct(p+1)),sil’agenténactel’expériencepermuterilresteconfrontéàunphénomènedela
20
catégoriemontée,contrairementàcequeleréseaudePétrilaisseanticiper.Pourcomprendrecequisepassedanscettesituation,ilfaudraitquel’agentpuisseconstruirelatroisièmecatégoriedephénomènes«horizontal»,cequ’ilestincapabledefairedansl’étatactueldel’algorithme.Unedesdifficultésprovientdufaitquelescatégoriesdephénomènesneseraientalorsplusreprésentéespardesensemblesd’expériencesdisjoints.Nouscontinuonsàtravaillersurdesalgorithmescapablesdegérercettedifficulté.
5.2 ArchitecturecognitiveCettesectionexamineuneextensiondumodèleexpérientiel(Figure1d)quipermetàl’algorithmed’apprendredesrégularitésd’expériencesspatio-séquentielleseffectuéesparunagentévoluantdansunespaceeuclidien.LaFigure9présentecetteextensionappeléemodèleexpérientielspatial.Achaquetourducycled’interaction,l’algorithmepeuttraiterplusieursexpériencesquisonténactéessimultanément,etpeutsuivrelesdéplacementsspatiauxducorpsdel’agent.
Algorithme+ Expériences Intentées I ⊂ Σ
Expériences enactées
E ⊂ Σ
Monde+
Déplacement spatial
!
Figure9:Modèleexpérientielspatial.L’ensembledesexpérienceslocaliséesquepeuttraiterl’algorithmeestnotéΣ.Achaquecycled’interaction,l’algorithmeintenteunensembled’expérienceslocaliséesintentéesI⊂Σ.Enretour,ilreçoitunensembled’expérienceslocaliséesénactéesE⊂Σetuneinformationdedéplacementspatial𝜏.
LemodèleexpérientielspatialprésentéenFigure9permetdemodéliserdesagentscapablesdelocaliserapproximativementleursexpériencesdansl’espace,ainsiquedepercevoirleurspropresdéplacements.Cemodèlefaitl’hypothèsequel’agentdisposed’undispositifsensorielluiapportantcesinformations.Cettehypothèses’appuiesurdesétudesquimontrent,parexemple,queleshumainsutilisentdescapteurskinesthésiquespourlocaliserleursexpériencestactiles,laconvergenceoculairepourlocaliserleursexpériencesvisuelles,etledéphasageinterauralpourlocaliserleursexpériencesauditives.Ilsutilisentleursystèmevestibulaireetlefluxoptiquepourconnaîtreleursdéplacementsdansl’espace(e.g.,GrossetGraziano,1995).Cemodèlefaitégalementl’hypothèsequel’agentdisposed’unemémoirespatialeprédéfinie.Cettemémoireestinspiréeducolliculussupérieurducerveaudesmammifères.Dansd’autrestravaux,nousétudionscommentcettemémoirespatialepourraitêtreconstruiteàpartirderégularitésd’expériencessensorimotrices(Gayetal.,àparaître).
Danslemodèleexpérientielspatial,l’ensembleΣdesexpériencescontientdesexpérienceslocalisées.Uneexpériencelocaliséeestuneexpériencesimilaireauxexpériencesdumodèleexpérientielprécédent,àlaquellesontrattachéesdespropriétésdelocalisationspatialeparrapportàunréférentielcentrésurlecorpsdel’agent.Parexemple,appliquéàl’expérimentationdelaSection4.2,lemodèleexpérientielspatialpermetdetraiterlestroistypesd’expérience
21
avancerversuneciblecommeunseultyped’expérienceauquelestrattachél’informationdelocalisationspatialeA,B,ouC.
L’algorithmereçoitégalementuneinformationτreprésentantledéplacementspatialeffectuéparl’agentpendantlecycled’interaction.Sil’environnementpossèdeunestructured’espaceeuclidienàndimensions(e.g.,unespacesimuléàdeuxdimensionsoulemonderéelàtroisdimensions),etsilecorpsdel’agentestunblocindéformable,alorsledéveloppeurdel’algorithmepeutencoderτcommeunefonctiondetranslationetderotationeuclidiennededimensionnreprésentantlemouvementdel’agentdansl’espace(Georgeonetal.2013).Cemodèlenesupposepasquelesinformationsdelocalisationetdedéplacementsoienttrèsprécises.Nousn’avonspasencoreétudiécommentl’agentpourrait,delui-même,calibreretraffinercesystèmesensoriel.
L’algorithmeestmaintenantorganisésouslaformedel’architecturecognitivereprésentéeenFigure10.
Ligne&de&temps&d’expérience&
Mémoire&spa4ale&&égocentrique&
Mémoire&séquen4elle&hiérarchique&
Sélec4on&&comportement&
Intente&
Prop
ose&
Propose&
Apprend/&suit&
Proto>ontologie&
Evoq
ue&
Construit&
Enacte&
ALGORITHME&
Figure10:Architecturecognitivepourl’apprentissagederégularitésspatio-séquentielles.Fluxd’expérience(bas):expériencesprimitives(petitscarrésetparallélogrammes)énactéesaucoursdutemps,similaireàlaFigure2.Mémoireséquentiellehiérarchique(haut):lesystèmed’abstractiond’expériencesprésentéenSection3.Mémoirespatialeégocentrique(MSE,centre):mémoirespatialeàcourttermedesexpériencesénactéeslocaliséesdansl’espacerelativementàl’agentetmiseàjourenfonctiondesdéplacementsdel’agent(flèche«suit»).Proto-ontologie(gauche):mémoiredescatégoriesdephénomènesapprisesparexpérience.Lescatégoriesdephénomènes(représentéesparlerondbleu,letrianglerouge,etletrianglevert)sontdéfiniesparl’ensembledesexpériencesoffertesparlesphénomènesdecettecatégorie.LesexpériencesenMSEpeuventactiverdescatégoriesdephénomènesmémoriséesdanslaproto-ontologiequiproposentlesexpériencesquecesphénomènesoffrent(flèche«évoque»).Lesexpériencessontproposéesenfonctionducontextespatio-séquentiel(flèches«propose»),avantd’êtrechoisiescommefuturesexpériencesàtenterd’énacter(basàdroite).
L’architecturecognitiveprésentéeenFigure10utiliselesinformationsspatialesattachéesauxexpériencesénactéespourlesplacerenmémoirespatialeégocentrique(MSE).Elleutiliselesdéplacements𝜏 pour mettre à jour la MSE à chaque cycle d’interaction. Par exemple, si l’agent effectue une rotation vers la gauche, l’algorithme fait pivoter les expériencesprécédemment énactées de l’angle opposé (vers la droite) en MSE pour refléter ce déplacement. La MSE est une
22
mémoire à court terme ; elle ne vise pas à construire une carte de l’environnement ; nous ne considérons pas que les informations spatiales disponibles soient suffisamment précises pour permettre cela. En revanche, elle permet à l’algorithme de détecter des recouvrements spatiaux des expériencesénactées sur le court terme. Lorsque des expériencessont énactées dans des endroits proches, l’algorithme infère l’existence d’un phénomène qui offre ces expériences à cet endroit. Par exemple, en Figure10,leparallélogrammevertetlecarrébleureprésententdesexpériencesénactéesàdifférentsinstantsdanslamêmezonedel’espace,révélantlaprésenced’unphénomènequioffrecesexpériences(rondbleu).
Unefoisquel’agentaconstruitdescatégoriespermettantdeclasserlesphénomènesqu’ilrencontre,etdesséquencesd’expériencesadaptéesauxcatégoriesdephénomènes,ilpeuteffectuerdessimulationsspatio-temporellesinternesdeséquencesd’expérienceadaptéesàsasituationcourante.LaMSEpermetdessimulationsdecomportementsdansunréférentielégocentré.Al’avenir,noussouhaitonsimplémenterd’autresstructuresmémoriellespermettantdessimulationsspatio-temporellesdansunréférentielallocentré,parexempleinspiréesdel’hippocampe.Cetteapproches’inscritdanslecadredel’hypothèseformuléeparcertainschercheurs(e.g.,Hesslow,2002;Buzsáki,2013)selonlaquellel’intelligence«dehautniveau»(raisonnementlogique,langage)pourraitreposersurdesmécanismesdesimulationspatio-temporelledefluxd’expériencedéjàprésentsdanslacognitionanimale.
6 Conclusion
Nousavonsprésentéquatremodèlespourconcevoirdesalgorithmesquiapprennentàpartirderégularitésd’expériencessensorimotrices:lemodèleexpérimentation/résultat,lemodèleinteractionnel,lemodèleexpérientiel,etlemodèleexpérientielspatial.Cesmodèless’inspirentdethéoriescognitivesquiremettentenquestionlecycleperception/cognition/actionclassique(e.g.,PfeiferetScheier,1994;Hurley,1998),ouquiproposentuneconceptionactivedelaperception(e.g.,O’ReganetNoë,2001;FindlayetGilchrist,2003).Danscesmodèles,l’absencededonnéesontologiquessuruneréalitéprésupposéesetraduitenévitantd’assimilerleprocessusdegénérationdesdonnéesd’entréeàunefonctionmathématiquedéfiniesurl’ensembledesétatspossiblesdumonde:lemêmeétatdumondepeutproduiredifférentesdonnéesd’entréeselonl’expérienceintentée.Lesalgorithmesn’effectuentpasunerecherched’unétatsolutiondansunensembled’étatsprédéfinis.Lesagentsnesontpasévaluésparleurcapacitéàatteindreunbutprédéfininiàmaximiserunevaleurnumérique.
Nosobjectifssontdedévelopperdesagentsquigénèrentdescomportementssusceptiblesd’êtrejugésintelligentspardesobservateurs.Cesobjectifsrejoignentceuxd’autresauteursquitravaillentsurlamotivationintrinsèqued’agentsinformatiques(e.g.,Steels,2004;Oudeyeretal.,2007)etl’apprentissagedéveloppemental(e.g.,Lungarellaetal.,2003).Pourprogresserdanscedomainederecherche,ilconvientdes’accordersurdescritèrespartagésparlacommunautéscientifiquepourévaluerl’intelligenced’uncomportement.Ennousinspirantdeméthodesutiliséesenéthologiepourévaluerl’intelligenceanimale(e.g.,MartinetBateson,1993),noussuggéronsdeproduiredesdémonstrationsdecomportementsintelligentsbaséssurlestracesd’activitédel’agent.Unetraced’activitéestunfluxdedonnéesreprésentantl’activitédel’agent
23
(e.g.,Figure5etFigure7)quipermetàunobservateurhumaindejugerduniveaud’intelligencedescomportements.Nousgardonsl’idéeproposéeparTuring(1950)d’uneévaluationbaséesurlejugementd’observateurshumains,pourproposercequenouspourrionsappeleruntestdeTuringdescomportements.UnagentartificielréussiraituntestdeTuringdescomportementssiungrouped’observateurs(pouvantéventuellementinteragiravecl’agent)s’avéraitincapabledediresilestracesontétégénéréesparl’agentouparunanimal.Enimaginantcegenredetestsintermédiaires,nousespéronsfavoriserunerechercheincrémentalequipasseraitparl’implémentationdedifférentsniveauxd’intelligencesensorimotricepourprogresserversl’implémentationd’uneintelligenceartificiellecapabledemanipulerunlangagequiseraitancrédansl’expériencedel’agent.
Cestravauxsoulèventdenombreusesquestionsquirestentàrésoudrepourprogresserdanslaconceptiond’agentsquiexhibentdescomportementsdeplusenplusintelligents.Cesquestionsincluent:commentcatégoriserdesphénomènesquioffrentcertainesexpériencesencommunmaisdiffèrentpard’autres,commentl’agentpeut-ilrévisersescatégoriesdephénomènes,commentpermettreàl’agentdecalibreretaffinerlalocalisationspatialedesesexpériences,commentapprendre,encoder,etsimulerdesrégularitésspatio-temporellescomplexes,commentétendrel’effetd’apprentissagerécursif(présentéenFigure2)aumodèleexpérientielspatial(présentéenFigure9)afindepermettrel’évolutionducouplagecognitifdanslecadredumodèleexpérientielspatial.
7 Références
AndersonM.(2003).Embodiedcognition:Afieldguide.ArtificialIntelligence,V,149,91–130.BrooksR.A.(1991).NewApproachestoRobotics.Science,V,253,1227–1232.BuzsákiG.(2013).Time,spaceandmemory.Nature,V,497,568-569.DeLoorP.,Manac’hK.,&TisseauJ.(2010).Enaction-BasedArtificialIntelligence:TowardCo-evolutionwithHumansintheLoop.MindsandMachine,V,19,319–343.
DreyfusH.(2007).WhyHeideggerianAIfailedandhowfixingitwouldrequiremakingitmoreHeideggerian.Artificialintelligence,V,171,1137–1160.
DrescherG.L.(1991).Made-upminds,aconstructivistapproachtoartificialintelligence.Cambridge,MA:MITPress.
EngelA.K.,MayeM.,KurthenM.,&KönigP.(2013).Where’stheaction?thepragmaticturnincognitivescience.TrendsinCognitiveSciences,V,17,202–209.
FroeseT.&ZiemkeT.(2009).Enactiveartificialintelligence:Investigatingthesystemicorganizationoflifeandmind.ArtificialIntelligence,V,173(3-4),466–500.
FindlayJ.,&GilchristI.(2003).ActiveVision:ThePsychologyofLookingandSeeing.USA:OxfordUniversityPress.
GayS.,MilleA.,GeorgeonO.,DutechA.(àparaitre).Autonomousconstructionandexploitationofaspatialmemorybyaself-motivatedagent.CognitiveSystemsResearch.
GarnierJ.,GeorgeonO.,&CordierA.(2013).Inferringactionsandobservationsfrominteractions.ProceedingsoftheGoalDrivenAutonomyWorkshop(GDA)atAdvancedCognitiveSystems(ACS2013),Baltimore(pp.26–35).
GeorgeonO.,MarshallJ.,&GayS.(2012).Interactionalmotivationinartificialsystems:betweenextrinsicandintrinsicmotivation.ProceedingsoftheSecondInternationalConferenceon
24
DevelopmentandLearningandonEpigeneticRobotics(ICDL-EPIROB2012),SanDiego(pp.1-2).
GeorgeonO.&AhaD.(2013).TheRadicalInteractionismConceptualCommitment.JournalofArtificialGeneralIntelligence,V,4(2),31–36.
GeorgeonO.&RitterF.(2012).Anintrinsically-motivatedschemamechanismtomodelandsimulateemergentcognition.CognitiveSystemsResearch,V,15-16,73–92.
GeorgeonO.&MarshallJ.(2013).Demonstratingsensemakingemergenceinartificialagents:Amethodandanexample.InternationalJournalofMachineConsciousness,V,5(2),131–144.
GeorgeonO.,MarshallJ.,&ManzottiR.(2013).ECA:Anenactivistcognitivearchitecturebasedonsensorimotormodeling.BiologicallyInspiredCognitiveArchitectures,V,6,46–57.
GeorgeonO.,WolfC.,&GayS.(2013).AnEnactiveApproachtoAutonomousAgentandRobotLearning.ProceedingsoftheThirdJointInternationalConferenceonDevelopmentandLearningandonEpigeneticRobotics,Osaka(pp.1–6).
GeorgeonO.&CordierA.(2014).Invertingtheinteractioncycletomodelembodiedagents.ProcediaComputerScience,V,41,243–248.ProceedingsofthetheFifthinternationalconferenceonBiologicallyInspiredCognitiveArchitecture,Boston,MA.
GeorgeonO.,BernardF.,&CordierA.(2015).ConstructingPhenomenalKnowledgeinanUnknownNoumenalReality.ProcediaComputerScience,V,71,11–16.ProceedingsoftheSixthintenationalconferenceonBiologicallyInspiredCognitiveArchitectures,Lyon,France.
GibsonJ.(1977).Thetheoryofaffordances.InR.E.Shaw&J.Bransford(éds.),Perceiving,acting,andknowing.Hillsdale,NJ:LawrenceErlbaumAssociates.
GrossC.&GrazianoM.(1995).Multiplerepresentationsofspaceinthebrain.TheNeuroscientist,V,1(1),43–50.
HesslowG.(2002).Consciousthoughtassimulationofbehaviorandperception.TrendsinCognitiveSciences,V,6(6),242–247.
HumeD.(1739).Atreatiseofhumannature.OxfordUniversityPress.HurleyS.(1998).Consciousnessinaction.Cambridge,MA:HarvardUniversityPress.JonasH.(1966).ThePhenomenonofLife:TowardaPhilosophicalBiology.Evanston,Illinois:NorthwesternUniversityPress.
Kant(1781).CritiqueofPureReason(KritikderreinenVernunft).LakoffG.,JohnsonM.(1999).PhilosophyintheFlesh:TheEmbodiedMindandItsChallengetoWesternThought.NewYork:BasicBooks.
LungarellaM.,MettaG.,PfeiferR.,&SandiniG.(2003).Developmentalrobotics:Asurvey.ConnectionScience,V,15(4),151–190.
MartinP.&BatesonP.(1993).Measuringbehavior,Anintroductoryguide.CambridgeUniversityPress.
MondadaF.,BonaniM.,RaemyX.,PughJ.,CianciC.,KlaptoczA.,MagnenatS.,ZuffereyJ.-C.,FloreanoD.,MartinoliA.(2009).Thee-puck,arobotdesignedforeducationinengineering.Proceedingsofthe9thConferenceonAutonomousRobotSystemsandCompetitions(pp.59–65).
NewellA.&SimonH.(1976).Computerscienceasempiricalinquiry:Symbolsandsearch.CommunicationsoftheACM,V,19(3),113–126.
O'ReganJ.K.,NoëA.(2001).Asensorimotoraccountofvisionandvisualconsciousness.BehavioralandBrainSciences,V,24,939–1031.
OudeyerP.-Y.,KaplanF.,&HafnerV.(2007).Intrinsicmotivationsystemsforautonomousmentaldevelopment.IEEETransactionsonEvolutionaryComputation,V,11(2),265–286.
PfeiferR.&Scheier,C.(1994).Fromperceptiontoaction:Therightdirection?InP.GaussierandJ.-D.Nicoud(éds.),FromPerceptiontoAction(pp.1–11).IEEEComputerSocietyPress.
25
Philipona D., O'Regan J.K., & Nadal J.-P. (2004). Perception of the structure of the physical world using unknown sensors and effectors. Advances in Neural Information Processing Systems, V, 16, 945–952.
Piaget J. (1951). The psychology of intelligence. London: Routledge and Kegan Paul. PierceD.&KuipersB.(1997).Maplearningwithuninterpretedsensorsandeffectors.ArtificialIntelligence,V,92,169–227.
RieglerA.(2007).Theradicalconstructivistdynamicsofcognition.In:B.Wallace(éd.)TheMind,theBodyandtheWorld:PsychologyAfterCognitivism?(pp.91–115).Imprint:London.
RussellS.,&NorvigP.(2003).ArtificialIntelligence,AModernApproach.PrenticeHall.Simondon G. (2007). L’individuation psychique et collective : à la lumière des notions de forme,
information, potentiel et métastabilite. Paris: Aubier. SteelsL.(2004).TheAutotelicPrinciple.InI.Fumiya,R.Pfeifer,L.Steels,&K.Kunyoshi(éds),EmbodiedArtificialIntelligence(pp.231-242),SpringerVerlag.
SunR.(2004).Desiderataforcognitivearchitectures.PhilosophicalPsychology,V,17(3),341–373.
Sutton R., Precup D., & Singh S. (1999). Between MDPs and semi- MDPs: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, V, 112, 181–211.
ThórissonK.,NivelE.,SanzR.,WangP.(2013).ApproachesandAssumptionsofSelf-ProgramminginAchievingArtificialGeneralIntelligence.JournalofArtificialGeneralIntelligence,V,3(3),1–10.
TuringA.(1950).Computingmachineryandintelligence.Mind,V,59(236),433–460.OxfordUniversityPress.
VanderAalstW.,VanDongenB.,HerbstJ.,MarusterL.,SchimmG.,&Wei-jtersA.(2003).Workflowmining:Asurveyofissuesandapproaches.Data&KnowledgeEngineering,V,47(2),237–267.
VarelaF.,ThompsonE.,&RoschE.(1991).Theembodiedmind:Cognitivescienceandhumanexperience.Cambridge:MITPress.
Weill-FassinaA.,RabardelP.,&DuboisD.(1993)Représentationspourl'action.Toulouse:Octares.
WhiteheadS.D.&BallardD.H.(1991).Learningtoperceiveandactbytrialanderror.MachineLearning,V,7(1),45–83.
ZwirnH.&DelahayeJ.-P.(2013)Unpredictabilityandcomputationalirreducibility.InH.Zenil(éd.),IrreducibilityandComputationalEquivalence:10YearsAfterWolfram'sANewKindofScience(Emergence,ComplexityandComputation)(pp.273–295).Springer.