27
基基基基基基基基基基基基基基 基基基基基基 Offensive and Defensive Strategies Design of Wheeled Robot Soccer Simulation Based on Microsoft

1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

基于微软轮式仿真足球机器人的攻防策略设计

Offensive and Defensive Strategies Design of Wheeled Robot Soccer Simulation Based on Microsoft

Page 2: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

摘 要机器人足球世界杯赛,是多智能体系统的一个典型问题,又是研究分布式人工

智能的理想平台。多智能体学习与协作是当今人工智能领域研究的热点与难点,在动态、复杂、不确定且通信受限的环境中如何进行Agent间的协作是迫切需要解决的问题,而RoboCup比赛正是检验和促进多智能体相关技术发展的有效平台。

RoboCup是Multi—Agent系统的一个典型代表,它是国际上一项为提高相关领域的教育和研究水平而举行的大型比赛和学术活动,通过提供一个标准任务来促进分布式人工智能、智能机器人技术、及其相关领域的研究与发展。RoboCup是Multi—

Agent系统研究的一个很好的平台。建立一支成功的机器人足球队需要很多领域的知识,合理的模型结构和Agent之间的协调与协作是RoboCup比赛中赢球的关键所在,协调与协作是Multi—Agent系统研究的重要课题。

为了提高决策的速度和智能性,提出一种基于行为的Multi—Agent决策模型,该模型分为个体决策模型和团队决策模型,个体决策模型是为了提高智能体决策的速度,团队决策模型为了提高决策的智能性。在团队协作方面,使用阵型和角色实现整体队形分布;设计战术系统实现局部配合,并利用队友间通讯共享信息、传达战术意图。在个体决策方面,根据球场状况、协作建议等,使用决策树为个体球员确定当前的技术动作。针对关键的控球球员的技术动作,对射门成功率进行评估,并将传球、带球划分为多种类型进行选择。

关键词:RoboCup 多智能体 团队决策 个体决策

I

Page 3: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

Abstract

The RoboCup is a typical issue of Multi—Agent system(MRS)and the ideal plat form of

Distributed Artificial Intelligence(DIA)research.The learning and collaboration of Agent

is difficult and hot in intelligence robot research . The issue of how to carry out the

collaboration between Agents is need to be solved in a dynamic,complex and uncertain

environment with limited communication.The RoboCup is an effective plat form to test

and promote the development of Multi—Agent technology.RoboCup is an image representation of Multi—Agent Systems,it's a lagre match &

learning activity fur improving education and research’s level in correlative domain

RoboCup is a good flat roof fur Multi—Agent Systems research . Various fields

knowledges make up of a Success RoboCup team . Reasonable model—structure and

correspondency&collaboration are the key to prevailie the RoboCup matches , So they

are the important problem in the Multi—Agent researchs.A Multi—Agent decision model is introduced to make Agents accomplish tasks

promptly and artificially.This model is made up of individual decision model and team

decision model.The former enhances the reactivity of Agents,and the later improves

the intelligence of Agents. In the aspect of team cooperation,form ations and roles are

used to realize the distribution of team form,tacticals ystemis designed to realize partial

cooperation , conununications among teammates are used to share information and to

transfer tactical intentions. In the aspect of personal decision , decisiontree is used to

determine current technical action for individual player according to the situation on

soccer field and cooperation suggestion. As far as the crucial technical action of ball 一holder is concerned, the shoot success rate is assessed ,also passing and dribblins are

divided into several types for choosing.

Key words: RoboCup multi—agent team decision individual decision

II

Page 4: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

目 录摘要…………………………………………………………………………………………I

Abstract…………………………………………………………………………………Ⅱ绪论………………………………………………………………………………………1

1 足球机器人仿真平台…………………………………………………………………5

1.1 Robocup仿真平台………………………………………………………………… 5

1.1.1 服务器 (Soccer server)……………………………………………………………6

1.1.2 监视器(Soccer monitor)……………………………………………………………6

1.1.3 仿真平台的特点…………………………………………………………………7

1.2 NewNEU仿真服务…………………………………………………………………8

1.3 人机交互服务………………………………………………………………………9

1.4 可扩展功能…………………………………………………………………………9

1.5 本章小结……………………………………………………………………………10

2 Agent的理论基础……………………………………………………………………11

2.1 Agent概念…………………………………………………………………………11

2.2 Agent属性…………………………………………………………………………13

2.3 Agent结构分类……………………………………………………………………13

2.4 多 Agent系统及其研究内容………………………………………………………15

2.5 本章小结……………………………………………………………………………17

3 RoboCup中的协作策略……………………………………………………………18

3.1 多智能体学习………………………………………………………………………18

3.2 多智能体的协作……………………………………………………………………20

3.2.1 协作概述…………………………………………………………………………20

3.2.2 设计难点…………………………………………………………………………21

3.2.3 仿真球队面临的协作问题………………………………………………………21

3.2.4 RoboCup 仿真中的协作策略分析………………………………………………23

3.3 常用的协作模型……………………………………………………………………23

III

Page 5: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

3.3.1 理性智能体 BDI 模型……………………………………………………………24

3.3.2 规划协作模型……………………………………………………………………25

3.3.3 基于学习的自协调协作模型……………………………………………………25

3.4 TsinghuAeolus队防守体系中的协作……………………………………………26

3.5 本章小结……………………………………………………………………………27

4 决策算法设计与实现………………………………………………………………28

4.1 决策系统的设计理念和框架………………………………………………………28

4.2 基于行为的智能自信度决策算法…………………………………………………29

4.3 决策树………………………………………………………………………………31

4.4 本章小结……………………………………………………………………………32

结论………………………………………………………………………………………33

致谢………………………………………………………………………………………34

参考文献…………………………………………………………………………………35

IV

Page 6: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

绪 论近年来,随着人工智能、自动控制、通信工程学、运筹学、系统工程学等领域的快

速发展和交叉结合,分布式人工智能(DAI,Distributed Artificial Intelligence)已成为人工智能领域的重要研究方向之一。多智能体系统(MAS,Multi-Agent System)的研究 是 DAI 的 一 个 前 沿 学 科 , 而 机 器 人 足 球 仿 真 比 赛 RoboCup 是 一 个 典 型 的MAS[1]。MAS是由多个相互作用的自治智能体形成的集合,是一种分布式自主系统。其主要研究目标是调和组织多个智能体,实现相互协作来完成一个共同的目标。

多智能体系统的协作是近年来分布式人工智能领域的研究热点,机器人足球仿真比赛是完全分布式的既有合作又有对抗的MAS协作理论的理想测试平台。就近期来说,RoboCup为人工智能和机器人学提供了一个标准的测试平台,检验信息自动化前沿研究,特别是MAS研究的最新成果,包括动态不确定的对抗环境下的多智能体协作、实时推理、机器学习和策略获取等当前人工智能的热点问题以及自动控制、机器人学、传感与感知融合、无线通信、精密机械和仿生材料等众多学科的前沿研究与综合集成。

机器人足球RoboCup自1997年7月举办以来,到今天已经发展为一项国际性的赛事。它为机器人学、人工智能、多智能体系统、模式识别、计算机视觉等其他交叉或前沿学科提供了一个理想的仿真和实验平台。RoboCup的最终目标是在2050年建立一支完全自治的类人机器人足球队,在遵循国际足联比赛规则的前提下,能够战胜当时的世界杯冠军队。1.1 RoboCup简介

1992年,机器人足球的最初想法是大不列颠哥伦比亚大学的Alan Mackworth教授于正式提出。同领域学者立即对这一想法进行了系统的调研和可行性分析。1993年MinoruAsada(浅田埝)、HimakiKitano(北野宏明)和Yasuo Ktmiyoshi等著名学者创办了RoboCup机器人足球世界杯赛。与此同时,一些研究人员开始将机器人足球作为研究课题。隶属于日本政府的电子技术实验室(ETL)的Itsuki Noda(松原仁)以机器人足球为背景展开多主体系统的研究,日本大坂大学的浅田埝、美国卡内基梅隆大学的Veloso等也开展了同类工作。

1

Page 7: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

1997年,在国际上最权威的人工智能系列学术大会——第15届国际人工智能联合大会(The 15th International Joint Conference on Artificial Intelligence)上,机器人足球被正式列为人工智能的一项挑战。至此,机器人足球成为人工智能和机器人学新的标准问题。

RoboCup的最终目标是到21世纪中叶,一支完全自治的人形机器人足球队应该能在遵循国际足联正式规则的比赛中,战胜最近的人类世界杯冠军队。就近期来说,RoboCup为人工智能和机器人学提供了一个标准的测试平台,检验信息自动化前沿研究,特别是多智能体系统研究的最新成果,包括动态不确定的对抗环境下的多智能体合作、实时推理、机器学习和策略获取等当前人工智能的热点问题以及自动控制机器人学、传感与感知融合、无线通讯、精密机械和仿生材料等众多学科的前沿研究与综合集成。并且和影响范围最广的足球运动结合,受到了公众的关注,促进了基础研究和实际应用的联系和转化。

RoboCup机器人足球世界杯赛及学术研讨会是国际上级别最高、规模最大、影响最广泛的机器人足球赛事和学术会议。从1997年在同本名古屋开始举行第一届比赛后,以后每年举办一次。现在RoboCup共包括四大项活动,分别是足球比赛、紧急救灾比赛、青少年组比赛和研讨会。足球比赛是整个比赛的主要部分,包括小型组、中型组、四腿组、类人组和仿真组,除了仿真组比赛是全部通过电脑模拟外,其余的比赛都是以实物机器人形式比赛。

仿真组2D和3D比赛是在一个标准的计算机环境下进行的,是所有RoboCup项目中参赛球队数目最多的一种。仿真环境与人类足球比赛的环境相似,比赛队员的仿真模型与实际人类足球队员也很接近,比赛规则基本上与国际足球联合会的比赛规则一致,只是在某些方面 有很 小的改动 ,比 赛采用 Client/Server方式 ,由RoboCup委员会提供标准的Soccer Server系统,各参赛队编写各自的Client程序,模拟人类足球实际比赛的情况,故其对于分布式人工智能理论的研究具有重要意义。

RoboCup仿真比赛是一个典型的多智能体系统,它提供了一个完全分布式控制、实时异步的多智能体环境,避开了诸如对象识别、通讯和硬件设计等机器人底层问题,使研究人员能够集中精力研究多智能体之间的协作、学习、规划等高层次问题,通过这个平台可以检验各种多智能体理论、算法和智能体的体系结构,在实时异步、

2

Page 8: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

有噪声的对抗环境下模拟实际足球队员的比赛,研究多智能体间的合作和对抗问题。1.2 国外研究现状

近几年,参加RoboCup仿真比赛的球队发展非常迅速,基本上都实现了个人技术和多Agent之间的合作技术,迅速发展的先进智能算法得到了充分运用,并取得了较好的效果。美国卡耐基梅隆大学的PeterStone在其博士论文中提出将分层学习的方法运用于

RoboCup的研究,使用层学习技术来设计和实现机器人的基本动作和顶层决策,将决策分为底层技术层和顶层决策层,在不同的层次采用不同的方法进行决策,上层决策构筑在下层决策之上。复杂的决策任务被分层后,分到每个层次的决策任务就变得简单了。卡尔斯鲁厄大学将再励学习(Reinforcement Learning)作为主要的研究方向,期

望做到通过告诉Agent去完成进球的任务,而Agent便能够自主的通过和环境的交互,学习各种技能甚至是策略。从思维层次上说,再励学习模仿的是人类较低级的智能行为,很难表现出如推理这类人类思维中较高级、较抽象的行为。德国汉堡大学采用Case—Base的方法研究RoboCup,主要是定义各种典型的场

景,根据当前场景和典型场景的匹配程度来进行决策。这种方法无法克服状态空间巨大的问题,而且很难满足环境对动态性的要求。荷兰阿姆斯特丹大学的UVA Trilearn球队是RoboCup2003仿真组的冠军,在

2001至2005连续五年的仿真组比赛中,均获得前十名的优秀成绩。他们开发了智能体的底层代码,设计了一个简单有效的策略高层,并在RoboCup2001仿真组中获得第四名。之后他们的研究主要集中在高层策略中多智能体的相互协作上。葡萄牙Aveiro和Porto大学的FC Portugal队是2000年RoboCup仿真组的冠军,他

们的主要特点是充分利用人类足球的知识和建立准确的世界模型。由于环境具有噪声而且是部分可观的,如何充分利用得到的信息去推测当前的世界模型成了比赛的一个关键所在。1.3 国内研究现状

国内著名的球队有清华大学的TsinghuAelous,该队的研究重点在智能体的可调节性上,智能体根据来自教练和其他智能体的建议来调节决策参数,对每一个动作

3

Page 9: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

的使用和选择都比较合理,个体技术较强,如截球、带球等具有较高水平,在此基础上其采取的进攻跑位和防守跑位策略实现的协作准确性很高。另外一支是中国科技大学的WrightEagle在智能体结构方面采用了BDI模型,也成功地实现了多智能体之间的协作。

国内对RoboCup这一典型MAS的研究虽然起步较晚,但仿真球队一直处于世界领先水平。到今年为止,中国机器人竞赛共举行了六届,而且在2006年还举行了首届RoboCup中国公开赛,全国30多所大学和研究机构都在进行这方面的研究工作。清华大 学 TsinghuAeolm 仿 真 球 队获得 RoboCup 机 器 人 足 球 世 界 杯 赛 仿 真组2001、2002年冠军、2003年、2006年亚军。浙江大学ZJUBase3D仿真球队获得2006年RoboCup世界杯赛的第三名。中国科学技术大学WrightEagle2D和3D仿真球队在2006年RoboCup世界杯赛中分别获得2D组冠军、3D组亚军,在2007年RoboCup世界杯赛中获得2D组亚军、3D组冠军。东南大学3D季军。中南大学CSU

YunLu在2005年中国机器人大赛、2006和2007年中国机器人大赛暨RoboCup公开赛中均获2D和3D仿真球队三等奖。1.4 论文的组织

绪论简要介绍了本课题的研究背景、RoboCup的起源、国内外的研究现状以及本文研究的内容。第一章介绍了RoboCup仿真平台的组成。第二章介绍了Agent的基础理论。第三章介绍了RoboCup中的协作策略,首先介绍了多智能体的协作技术,在介

绍了常用的协作模型后分析了它们的具体应用,最后分析了清华TsinghuAeolus队防守体系中的协作机制。第四章具体阐述了决策算法的设计与实现,提出一种基于行为的Multi—Agent

决策模型,提高决策的速度和智能性。

4

Page 10: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

1 足球机器人仿真平台RoboCup仿真比赛在标准的计算机环境下进行,比赛模拟了人类足球比赛的实

际情况,比赛队员的仿真模型与人类足球队员接近,比赛规则也基本上与国际足球联合会的比赛规则一致,主要区别在于2D仿真平台模拟的是二维平面,没有高度的概念。仿真比赛环境避开了诸如对象识别、通信和硬件设计等机器人底层问题,使研究人员能够集中精力研究多智能体之间的协作和学习等高层次问题。另外建立仿真比赛的研究平台只需少量资金投入。因此,仿真比赛成为所有RoboCup比赛项目中参赛队伍最多的一种。RoboCup仿真比赛提供了一个完全分布式控制、实时异步的多智能体环境,通过这个平台,测试各种理论、算法和智能体体系结构,在实时异步、有噪声的对抗环境下,研究多智能体问的合作和对抗问题。1.1 RoboCup 仿真平台

RoboCup仿真比赛规则基本上与国际足球联合会的比赛规则一致。仿真比赛在一个标准的计算机环境RoboCup仿真系统中进行。仿真平台包含两个程序:Soccer

server和Soccer monitor。Soccer server[2]提供了一个虚拟场地,模拟球和所有球员的动作,负责服务器和客户端之间的通信和根据规则控制比赛过程。Soccer monitor是一个用来将比赛的虚拟场地显示在计算机屏幕上的一个程序。RoboCup仿真比赛采用Client/Server方式运行:服务器端运行Soccer server程序为比赛提供平台;客户端运行各参赛队伍编写的球员程序,每个球员就是一个自治智能体,模拟实际足球队员进行比赛。每个客户端(Client或Player)程序只能控制一名球员,所以每个参赛队伍的球员数和客户端程序数目相同。不同客户端程序之间的通信必须通过Soccer server

执行say和hear命令来实现。仿真系统的结构如图1-1所示,从中看出Server与Agent间的C/S关系。

仿真系统的一个目的就是用来评价MAS的,在这个系统中多智能体之间的通信效率也是一个评价的标准。参赛队伍必须使用这种受限的通信来实现对多智能体的控制。

5

Page 11: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

图 1-1 仿真系统的结构1.1.1 服务器(Soccer server)

由于比赛以Client/Server方式运行,在服务器和每个客户端程序之间的所有通信都是通过一个UDP socket来进行的,所以参赛队伍可以使用任何支持UDP/IP协议的操作系统平台和编程语言来设计自己的客户端程序。每个客户端程序是一个独立的进程,通过特定的端口地址连接至Soccer server上。每个队伍能启动11个客户端(或球员)和一个在线教练(online coach)。客户端程序根据自己想要执行的动作向服务器发送命令请求(比如kick,turn或run等),服务器收到这些命令后处理这些请求并响应更新比赛的环境。除此之外,服务器还向每个球员提供感知信息(比如球、球门和其他队员的位置信息)。客户端程序就像是球员的大脑:从服务器接收视觉和听觉信息,根据这些信息做出决策,然后发送控制命令到服务器。服务器通过将时间分割成离散的时间片来实现一个实时系统,每个周期有特定

的长度,任何需要在给定周期内完成的动作必须在相应的周期内到达服务器。因此,效率引起的丢失动作执行机会对整个队伍的比赛成绩有很大的影响。1.1.2 监视器(Soccer monitor)

监视器作为一个特殊的客户端程序连接至Soccer server上,是一个可视化工具,用来动态实时显示比赛过程中的服务器信息。这些信息包括:当前比分、参赛双方队伍名称、足球场地、球员和球的位置等。同时Soccer monitor程序也提供了控制服务器的一些简单接口,比如参赛双方的客户端连接到服务器后,可以按Soccer monitor的

6

Page 12: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

“Kick-Of”按钮来开始比赛。对于一场比赛的进行,Soccer monitor不是必须的,然而如果需要,多个Soccer monitor可以同时连接到服务器上,如想在不同的终端上显示比赛。仿真环境如图1-2所示。

图1-2 仿真环境1.1.3 仿真平台的特点

作为一个试验平台,仿真比赛系统提供了一个全分布的、包括合作与对抗的多主体实时环境,很有挑战性[3]。其具有如下特点:

(1)分布式多主体团队合作和对抗。所有客户端程序分别控制场上的一名球员或教练,自主决策,分布运行,队友之间有合作,对手之间有对抗。

(2)动态、实时、不确定环境。在服务器端,整个系统按照100毫秒的周期运转,所有球员都必须按照这个周期运行,意味着球员的所有决策都必须实时完成,由于多主体的存在,环境在动态的转变,无法预知。

(3)感知和行为异步。由于比赛时间以周期为单位离散,感知和行为就无法同步所以仅靠传统人工智能方法使用感知来激发行动是远远不够的。

(4)球员能力受限。场上所有球员的能力都是参照真实球员有所限制的,如体力加速度、最大速度、惯性等。

(5)视觉受限。每个球员的视觉都是局部的,受到球员视角和视距的限制,也就7

Page 13: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

是说球员在任何时刻都只能获得一部分球场上的信息。这就给球员正确分析场上形势,进而做出决策带来了困难。

(6)通讯受限。球员之间的通讯环境具有单信道、窄带宽等特点,即每队球员公用一条信道,每个球员一个周期内只能“听”到队友一条消息,而且信道容量很有限(缺省为lO字节)。这样,现有的一些团队合作理论就很难直接应用,因为目前大部分合作理论前提都是要求通讯是及时的、完全的。

(7)多噪声源。为了真实模拟实际比赛,仿真世界里球员感知和动作都带有噪声使得球员既无法精确地感知世界也不能完全按照它的意图影响世界。

(8)连接不可靠。平台网络连接使用UDP/IP,不确保所有信息的正确及时到达,在网络繁忙时一些信息甚至会丢失,这也体现了比赛环境的不确定性,球员程序必须能够适应这一环境。1.2 NewNEU 仿真服务

NewNEU 仿真服务是 NewNEU 足球机器人 3D 仿真平台的主运行服务,主要功能是仿真引擎服务和人机交互服务的消息处理、维护仿真环境的状态、保证比赛的时序和逻辑等。NewNEU 仿真服务主要包括以下模块:

(1)自动裁判模块自动裁判模块根据仿真环境中的实时状态数据,依据比赛规则裁定简单的犯规,

裁决进球等。(2)回放模块回放模块主要功能是实现实时在线回放。反复再现比赛情况,使裁判有充分时

间观察某一段时间的比赛,最大限度地保证比赛公平合理地进行,同时也可以多次欣赏比赛的精彩瞬间。

(3)时序控制模块时序控制模块主要功能是保障比赛高效有序的运行。控制比赛的运行,停止以

及适时调用自动裁判模块处理复杂的情况。(4)决策模块决策模块主要功能是调用外部的决策文件(DLL)实现决策控制。在实时采集

仿真环境中足球机器人和足球的位姿信息后,调用决策文件,用返回的控制量控制8

Page 14: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

足球机器人比赛。1.3 人机交互服务

人机交互服务是足球机器人仿真平台的主控制服务,主要功能是显示比赛的运行情况、设置比赛的相关参数以及足球机器人的测试等。人机交互服务主要包括以下模块:

(1)2D全景视图模块2D全景视图模块根据比赛的状态数据,同步显示平面的比赛示意图,使用户

能够以全局和队形的角度去观看比赛。(2)比赛设置模块

比赛设置模块实现对比赛的时间、比赛模式等自定义设置。同时为犯规等特殊情况提供开球方式的选择,NewNEU 足球机器人 3D 仿真平台支持手动设置队形。

(3)状态显示模块状态显示模块将比赛运行时间、比分以及比赛状态等显示在控制面板。

1.4 可扩展功能NewNEU 足球机器人 3D 仿真平台现在具备的主要功能有:3D/2D 实时显示、

实时回放、裁判逻辑、人机交互等。在开发过程中预留的开发接口使得仿真平台具有很好的可扩展性,待扩展的高级功能有:

(1)智能裁判仿真比赛的速度比较快的,而现在并没有像现实足球比赛中的专职的国际裁判,

智能裁判功能能够减少需要人工判断的情况,降低人的干预,有效的防止误判和错判的情况发生,使比赛更公平合理。

(2)比赛录像记录整场比赛的过程能够方便比赛双方根据需要回放比赛,更好的分析决策,

从而改进算法的缺陷。(3)自动开球在仿真比赛的过程中,在进球或者违规之后都要开球,因此需要人工重新放置

足球机器人。人工方式不仅浪费时间而且准确性不够,利用决策文件自动形成开球阵形将是比较好的方法。

9

Page 15: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

(4)动态加载决策 DLL

在不重新启动仿真环境的情况下,能够根据需要实时更换决策 DLL,方便用户操作与决策效果比较。

(5) Matlab 实时引擎支持使仿真环境能够与 Matlab 高级语言进行实时动态数据交互,充分发挥 Matlab

科学计算和算法开发的优越性,将 Matlab数据分析与仿真集成到仿真环境中。1.5 本章小结

本章系统地介绍了 RoboCup 仿真平台的组成以及仿真平台的特点,NewNEU 仿真服务的功能模块,人机交互服务及其可扩展功能。

10

Page 16: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

2 Agent 的理论基础2.1 Agent 概念

随着人类社会进入信息化时代,各种新的信息资源以极高的速度大量涌现,其中多数为不同形式的异质信息,这些信息采用不同的标准,提供不同的信息服务。人们开发出了大量的软件产品,服务于各个不同领域。但要使多种孤立的软件协作完成一项复杂任务,却常常需要花费大量的人力和物力。

通常人们将分布式人工智能的研究分为两个领域,一个是分布式问题求解(DPS),另一个则是多Agent系统(Multi—Agent System—MAS)。前者主要研究任务的分解和协作完成任务,后者则着重研究Agent之间在自治基础上的协商和协作。现在IT界的Agent概念是由MIT的著名计算机学家及人工智能学科创始人之一Minsky提出的,他的“Society of Mind”一书将社会与社会行为概念引入计算系统。传统的计算系统是封闭的,需要满足一致性要求。然而社会机制是开放的,不能满足一致性条件,这种机制中的部分个体在矛盾的情况下,需要通过某种协商机制达成一个可接受的解。Minsky将信息世界中的这种个体称为Agent。Agent是一些具有特别技能的个体,这些个体的有机组合构成信息世界的多Agent系统。Simon的有限性理论是多Agent系统思想形成的另一个重要基础。Simon认为一个大的结构把许多个体组织起来可以弥补个体工作能力的有限:每个个体负责一项专门的任务,可以弥补个体学习新任务能力的有限;社会机构间有组织的信息流动可以弥补个体知识的有限:精确的社会机构和明确的个体任务,可以弥补个体处理信息和应用信息、能力的有限。

随着Internet的飞速发展,智能Agent和多Agent系统理论被越来越多的应用系统所使用,智能Agent和多Agent系统已经成为分布式人工智能研究的核心问题,并且对于Agent的研究也已经成为人工智能的核心问题。斯坦福大学计算机科学系的Barbara Hayers.Roth在IJCAI’95的特约报告中谈到:“智能的计算机Agent既是人工智能的最初的目标,也是人工智能最终的目标。”

Agent可被看作是在线的伪人类(peseudo—people)。Agent是组成所谓Agent社团的成员。Agent可以是一个人、一台机器或者一个软件。

通常,Agent有一个可用的动作库。这些可能的动作集合表示一个Agent的有效11

Page 17: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

行为能力,即它可以改变环境的能力。注意,不是所有动作都可以在各种情形下执行。例如,“抬桌子”这个动作只有当桌子的重量足够小,Agent可以抬起来的情况下才能实现。因此,动作都有与之相应的前提,定义这个动作在什么情况下可以执行,也就是说Agent在什么样的情况下使用什么样的动作,这就加进了思考或推理的过程。

Agent与对象既有相同之处,又有很大的不同。Agent和对象一样具有标识、状态、行为和接口。但Agent和对象相比主要有以下差异:

(1)Agent具有智能,通常拥有自己的知识库和推理机,而对象则一般不具备智能性。

(2)Agent能够自主地决定是否对来自其它Agent的信息做出响应,而对象却必须按照外界的要求行动。也就是说Agent系统能封装行为,而对象只能封装状态,不能封装行为,对象的行为取决于外部的方法调用。

(3) Agent之间的通信通常采用支持知识传递的通信语言。图2-1给出了一个Agent与环境交互的抽象视图。在这个框架中,可以看到Agent

为了影响其环境而产生动作输出。Agent接收从环境中感知的输入,并产生输出动作作用于环境。这种交互通常是一个连续不断的过程。在复杂适度的环境中,Agent不能完全控制自己的环境,最多只能部分地控制,即对环境产生影响。从Agent的视图角度来说,这意味着在相同的环境中同一个动作执行两次可能会出现完全不同的效果,特别是可能无法产生理想的效果。因此,所有的Agent必须做好在通常的环境中都可能出现失败的准备。对这种形式的表达是假定一般情况下环境是不确定的[4]。

动作输出

从环境输入

图2-1 Agent-环境交互图Agent与环境交互的基本模型如图2-1。环境从某个状态开始,Agent选择一个动

Agent 环境

12

Page 18: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

作作用于这个状态。动作的结果是环境可能到达某些状态。然而,只有一个状态可以真正实现,当然,Agent事先并不知道哪个状态会实现。在第二个状态的基础上,Agent继续选择一个动作执行,环境到达可能状态集中的一个状态。然后,Agent再选择另一个动作,如此继续下去。2.2 Agent属性

Agent的基本属性有以下几点:自治性:Agent可以在没有人或者其他Agent直接干预的情况下运作,而且对自

己的行为和内部状态有某种控制能力。社会能力:Agent和其他Agent通过某种Agent通信语言进行交互。反应能力:Agent观察其环境,并在一定时间内作出反应,以改变环境。预动能力:Agent不仅能够简单地对环境作出反应,而且能够通过接受

某些启示信息,体现出面向目标的行为。一些学者,特别是来自越界的研究人员认为,Agent不仅应该具有以上定义的

属性,而且还应具有一些通常人类才具有的属性,如知识、目的、信念、义务等 。shoham认为,Agent就是一种实体,它可以看做是由多种心智状态,如信念、能力、选择和承诺等组成的。另外,Agent还具有其他一些属性,如:移动性,指Agent可以在信息网络上移动。真实性,假设Agent不传输错误信息;善意性,假设Agent没有冲突的目标,因此每个Agent通常有求必应;合理性,假设Agent总是为实现日标而努力,而不阻碍目标的获得,至少在它的信念应该如此。2.3 Agent结构分类

Maes认为Agent结构主要是考虑如何将Agent分解为构件模块的集合,以及这些构件模块之间的交互问题。Agent按结构划分主要有三种,即慎思型Agent,反应型Agent和混合型Agent。

(1)慎思型Agent(deliberate Agent)建造Agent的经典方法是将其看作是一种特殊的知识系统,即通过符号人工智

能的方法来实现Agent的表示和推理,这就是所谓的慎思型Agent。慎思型Agent的最大特点就是把Agent看作是一种意识系统。人们设计的基于Agent系统的目的之一是把它们作为人类个体或社会行为的智能代理,那么Agent就应该能模拟或表现出被

13

Page 19: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

设计者具有的所谓意识态度,如信念、愿望、意图、目标、承诺、责任等。Bratmant提出用信念(Belief)、愿望(Desire)、意图(Intention)来表示Agent。他从认知的角度来描述信念,认为信念是Agent对当前世界状况以及为达到某种效果所可能采取的行为路线的估计;从情感的角度来描述愿望,认为愿望是描述Agent对未来世界状态以及对所可能采取的行为路线的喜好;从意动方面来描述意图,认为目标是愿望的子集,但没有采取具体行动的承诺,如果某一或一些目标得到了承诺,这些目标就是意图;这也是最初的BDI模型。对 BDI模型做出最大贡献的当首推澳大利亚的 Rao和Georgeff,他们提出了一系列用来描述Agent意识的BDI逻辑,分别用3个模态算子来刻画信念、愿望和意图。

(2)反应型Agent(reactive Agent)由于符号人工智能的特点和种种限制,如慎思型Agent的形式化系统还不成熟

以及用来表示Agent的意识态度的工具没有得到最终的统一,这给慎思型Agent带来了许多尚未解决并且很难解决、甚至无法解决的问题,因此研究人员提出了反应型Agent。他们认为,Agent应该取决于感知和行动,从而提出Agent智能行为的“感知一动作"模型,此时的Agent不需要知识,不需要表示,也不需要推理,Agent可以象人类一样逐步进化,Agent的行为只能在现实世界与周围环境的交互作用中表现出来。

(3)混合型Agent(hybrid Agent)反应型Agent能及时而快速的响应外来信息和环境的变化,但其智能性较低,

也缺乏足够的灵活性。慎思型Agent具有较高的智能,但无法对环境的变化做出快速的响应,而且执行效率也较低。混合型Agent综合了两者的优点,具有较强的灵活性和快速的响应性。混合型Agent通常被设计成至少有两层的层次结构。高层是一个包含有符号世界

模型的认知层,进行Agent整体规划与设计;低层是一个能快速响应和处理环境中突发事件的反应层。一般反应层具有较高的优先级。以上是构造Agent的三种结构,其中慎思型Agent采用的是符号人工智能,所以

得到了大多数分布式人工智能研究人员的青睐,反应型Agent尚处初级发展阶段。而混合型Agent由于其优点己经成为当前的研究热点[5]。

14

Page 20: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

2.4 多Agent系统及其研究内容 多Agent系统是由异构、分布、动态、大规模、自治Agent构成的系统。正如在人类

社会中集体智慧总是胜过任何个体智慧一样,多Agent系统求解问题的能力也超过了单个Agent。与单个Agent的系统相比,多Agent系统有如下特点:由多个Agent构成且系统分别建立每个Agent目标和行为模型:每个Agent只具有不完全的信息和问题求解能力,数据是分布的,控制也是分布的,计算过程是异步、并发和并行的;其他Agent行为将导致环境不确定的变化。因此多Agent系统本质是一个动态系统,Agent通过交互求解问题。

多Agent系统研究的基础是智能Agent(Intelligent Agent)技术。智能Agent主要研究单个Agent的基础理论和建造方法,属于多Agent系统研究的微观层次:而多Agent

系统主要研究Agent间互操作性和系统结构,如何用Agent进行程序设计以及Agent间协商和协作等问题,这些属于多Agent系统的宏观层次。

多Agent系统的研究内容主要包括:多Agent组织、通信、协作、协商、规划、学习等。

(1)多Agent组织多Agent组织从本质上来说是多Agent系统的一个更加灵活的系统框架。组织能

够通过Agent间的相互信念、承诺、意向动态地确定Agent间的关系,使得整个系统体现出自适应的行为方式。

(2)多Agent通信通信是Agent间进行交互的基础。在多Agent系统中主要有两类方法用于解决

Agent通信问题:直接交换消息进行通信;或者通过共享“黑板”进行通信。在多Agent系统内部的通信上,研究者们提出了许多具体的手段,包括通过推理直接推断其他Agent规划的无通信方式,采用有限的通信原语进行交流的原语通信方式,采用交换规划方式进行通信的规划传递方式,采用事先定义的通信协议和格式传递消息进行通信的消息传递方式以及较高级的,利用标准通信语言进行通信的高层通信方式等等。

在上述这些方式中,为Agent通信提供标准通信语言己逐渐成为主流。(3)多Agent协作

15

Page 21: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

在多Agent系统中,Agent间存在着不同程度的合作,包括完全合作、部分合作以及针对问题的合作,等等。建立合作关系对于多Agent系统是十分重要的,有助于更好地完成目标任务。然而过多的不必要合作也有可能导致较高的通信代价,因此采用什么样的合作方式,以求得两者之间的平衡,是常被研究的问题。

(4)多Agent协商协商在人类社会的个体交往中充当着重要角色,人们通过协商解决矛盾,化解

彼此的冲突。与人类社会相似的是,多Agent系统中也存在Agent间的目标有冲突的情况,需要通过协商过程化解。Durfee等人定义negotiation是Agent间通过传递结构化消息减少相互间关于某个观点或计划的不一致性和不确定性的过程。

(5)多Agent规划近年来,规划研究有从对单Agent规划的研究扩展到对多Agent规划的研究的趋

势。多Agent规划可分为集中式多Agent规划和分布式多Agent规划两种,集中式多Agent规划是由一个Agent为其他所有Agent产生行动规划并协调行动的执行;在分布式多Agent规划中则没有一个Agent有对多Agent规划的全部控制权。Von Martia将多Agent规划分为两类问题:一类是有初始的目标或任务,且该目标或任务已被分解并分配给几个不同的Agent,需要解决的问题是如何产生一个有效的多Agent规划;另一类问题是每个Agent都已经有自己的规划。需要解决的问题是如何处理规划执行过程中可能产生的冲突。目前对这两类问题都正在进行研究。

(6)多Agent学习学习是多Agent系统的重要能力,也是近年来才开始高速发展的一个研究方向。

多Agent系统在结构和功能上都非常复杂。对于大多数实际应用,设计者都无法事先描述Agent的系统行为和环境所有的状态,也无法事先给定所有可能发生事件的对策。因此多Agent系统客观上需要具有学习能力或自适应性,使系统能够具备通过学习解决新问题的能力。学习能力己被公认为是智能系统的重要特征之一 [6]。由于多Agent学习涉及Agent之间通讯、协商、合作以及Agent对动态复杂的环境的适应问题,因此多Agent学习比单Agent学习要复杂得多,多Agent学习的研究成果必将促进多Agent乃至整个人工智能领域的发展。2.5 本章小结

16

Page 22: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

本章首先介绍了Agent的概念,分析了Agent的属性,详细阐述了Agent的结构分类,并引入多Agent系统及其研究内容。

3 RoboCup中的协作策略17

Page 23: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

随着计算机技术的发展,分布式人工智能中多智能体系统的理论及应用研究已经成为人工智能研究的热点。RoboCup仿真平台充分体现了多智能体环境的动态、实时和不确定性的特点,其研究重点是仿真球队的高层协作策略,包括多智能体的任务合理分配、协作过程的实时规划、行为策略的学习和及时的动作决策等问题。3.1 多智能体的学习

学习是人类具有的一种重要的智能行为。人工智能中的学习是指系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样任务或类似任务时效率更高[7]。机器学习是研究机器获取新知识和新技能并识别现有知识的学问,这里所说的“机器”指的就是计算机。

学习系统的基本结构如图3-1所示。其中环境向系统的学习部分提供某些信息;学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能;执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。

图3-1 学习系统的基本结构影响学习系统设计的一个重要的因素是环境向系统提供信息的质量。在知识库

里存放的是指导执行部分动作的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量较高,与一般原则的差别较小,则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的指导执行具体动作的信息,则学习系统需要在获得足够数据之后删除不必要的细节,进行总结并形成指导动作的一般原则然后放入知识库中。如此,学习部分的任务就较重,设计起来也相对很困难。因为学习系统获得的信息往往是不完全的,所以学习系统进行的推理并不是完

全可靠的,这要通过执行效果加以检验。正确的规则能使系统的效能更高,应予以

学习部分 知识库 执行部分

环境

18

Page 24: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

保留,而不正确的规则应予以修改或直接从知识库中删除。影响学习系统设计的第二个因素是知识库。知识库存在的一个问题是,学习系

统不能在没有任何知识的情况下凭空获取知识,每个学习系统都要求具有一定知识从而理解环境提供的信息,分析比较、做出假设、检查并修改这些假设。因此,可以说学习系统是对现有知识的扩展和改进。执行部分是整个学习系统的核心,因为执行部分的动作是学习部分力求改进的

动作。RoboCup是一个典型的多智能体系统,机器学习算法在多Agent系统中的应用是

由多Agent系统自身的特性决定的。首先,Agent系统要求每个Agent具有自适应性和学习能力。另外,Agent的决策模型也给机器学习算法提供了应用,如:Agent的决策函数是多输入多输出的,可以使用人工神经网络来实现,Agent的行为选择模型可以使用决策树学习来实现。

由于仿真机器人足球的复杂性,难以将机器学习的方法直接加以应用。一般先把主体的决策分成不同的层次,在每个层次中又分成一些不同的任务,对应每个任务再使用相应的学习方法来完成学习任务。Peter Stone率先提出了分层学习(Layered

Learning)的想法,并且给出了四个原则。结合人类足球的特点,可以把仿真机器人足球中主体的决策分为三个层次,分

别是:个人技术决策、局部战术决策和全局战术决策。个人技术决策是最低层的决策它的任务是一些个人必备的技术,如传球、带球、射门等,它们的决策结果是由基本动作组成的动作序列:局部战术决策是较高层次的决策,它的任务主要是几个队友之间的一些战术配合,决策结果是个人技术层的任务即个人技术组成的序列;全局战术决策是最高层的决策,涉及阵型、战术风格等,决策结果是战术配合组成的序列。

在全局战术层,目前还没有很好的学习方法,通常仍依靠手工编码。在个人技术层和局部战术层,机器学习使用的比较多。个人技术是一个球员最基本的技能,如追球、拦球、传球、带球、射门、盯人等。这些个人技能的任务都比较简单。一个简单任务所需要的环境信息相对较少,球员的行动空间也大大减小。战术学习中使用较多的方法仍然是Q-Learning强化学习方法[8]。

19

Page 25: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

3.2 多智能体的协作在MAS中智能体是自主的,对于每个智能体来说,本身具有的能力一方面使其

能够进行各自独立的行为规划,并采取相应的动作来执行规划,实现各自目标,自主解决局部问题;另一方面,每个智能体又具有不同的资源和能力,当单个智能体没有足够的资源和能力去解决整个问题时,就需要与其他智能体进行有效的协作,产生共同的适应行为,共同完成系统的目标任务。

在复杂、动态不确定的RoboCup仿真比赛中,各智能体所处的环境是复杂而多变的,为了赢得比赛,不仅需要单个智能体具有快速的反应能力,更需要多个智能体有一个有效的整体协作策略,才能完成球队的比赛任务——进球得分。目前制定并实施合理的高层协作策略就成了队伍致胜的关键,对RoboCup中仿真球队在比赛中取得好成绩是至关重要的[9]。3.2.1 协作概述

如何协调在逻辑上或物理上分离的、具有不同目标的多个智能体的行为,使其联合采取行动或求解问题,协调各自的知识、希望、意图、规划、行动,以对其资源进行合理安排,最大程度地实现各自和总体的目标,这是MAS的研究重点所在。而各智能体在社会层次上的知识和行为、协调与协作则成为MAS研究的核心问题。

协调是指具有不同目标的多个智能体对目标、资源进行合理安排,以解决它们策略上存在的行为冲突,最大程度地实现各自目标。而多智能体协作是指多个智能体通过协调各自行为,合作完成共同目标。协调是合作的基础,合作又反过来提高系统的协调一致性,采用合适的协调合作技术,使单个智能体局部一致,多个智能体全局一致,从而出色地完成复杂任务。

随着分布式人工智能的发展,需要处理的问题也越来越复杂。对于一些复杂的任务,单个智能体的资源和问题求解能力则显得比较单薄,为了达到系统共同的目标,它必须与其他智能体建立有效的合作关系,产生共同的适应行为,通过相互协作来完成目标任务。

多智能体的协调与协作的实现方法可分为三大类:无通信的协调与协作、有中心控制的通信协调与协作、基于协商的协作。如何更完全的表达系统内容信息,在此基础上开发有效的任务传达和分配机制,减少系统的通讯量,提高多智能体协作的

20

Page 26: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

效率,有效地避免资源浪费和冲突,是多智能体协作研究的主要目标。从本质上说,MAS的协作是每个Agent学习其它智能体的行动策略而采取自己

相应的最优反应。只有先了解了环境和其它智能体的行动,Agent才能更合理地进行行动选择。这就需要Agent利用学习的方法建立并不断修正对其他Agent的信念。另外冲突是协作中普遍存在的问题,因此要求多智能体协作策略提供学习机制,以使Agent能够从失败经验中不断学习,增强对环境的适应性。学习的内容包括个人技术多智能体间的合作技术及对手的合作与对抗模式等。3.2.2 设计难点

RoboCup仿真比赛是完全分布式和实时异步的多智能体环境,具有以下特点[10]:

(1)动态实时性比赛中Server将时间分割成离散的时间片来实现一个实时系统,每个仿真周期

为lOOms,要求每个智能体在此时间内将要执行的命令发送给Server,否则将失去本次执行的机会。因此,低效引起的丢失动作执行机会对整个队伍的比赛成绩影响很大。

(2)环境干扰仿真比赛具有部分可观性,为了使仿真比赛更加真实,在比赛环境中生成一定

的环境噪声,对每个智能体的感知和执行动作进行干扰,每个智能体并不能准确地感知环境,同时也不能精确地改变环境。

(3)合作与协调全部智能体具有一个共同的目标,必须通过有效的方法进行智能体间的合作来

完成这个目标,同时需要解决局部目标与全局目标、个体目标与共同目标之间的冲突问题。

(4)受限的通信带宽系统不允许智能体之间直接进行信息交换,通信必须由Server控制。在一个仿真

周期内只能传递有限的消息。正因为仿真环境具有以上特点,故在进行球员间的协作设计及目标规划时具有一定困难。下面将详细介绍仿真球队面临的协作问题。3.2.3 仿真球队面临的协作问题

21

Page 27: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

RoboCup仿真系统是一个典型的MAS,它提供了一个完全分布式控制、实时异步的多智能体环境。一个RoboCup仿真球队由11个球员智能体和1个教练智能体组成其中11个球员智能体由相同的个体进行设计和实现且具有共同的目标,即“多进球赢得比赛”。尽管11个球员智能体都具有带球、截球、奔跑和射门的能力并可独立工作,但是没有一个智能体具有求解问题所需的足够专长、资源和信息,并且不同类型的智能体具有求解问题不同部分的专长,比如守门员智能体具有比其他球员智能体更好的防守能力,所以一个球队中的智能体必须协作来完成团队共同的目标。另外,RoboCup仿真比赛是一个对抗性的多智能体环境,这一点也要求智能体之间必须相互协作才能与对手对抗。在仿真球队的设计中主要面临的协作问题有:

(1)任务的合理分配在RoboCup仿真比赛中,整个球队所需完成的总任务就是11个球员智能体共同

协作实现进球得分。在比赛的不同阶段,每个Agent要根据自身的任务去确定采取的动作,当Agent不能独立完成当前目标任务时,就需要与其他球员协作。需要将总的目标任务进行分解,分配给合适的Agent,使单个Agent及所在的子团体和整个合作团体可以根据场上形势进行分工协作,充分利用系统的资源,共同完成所赋予的目标任务。

(2)团队显式合作为了实现RoboCup团队合作,必须解决在动态对抗环境中多Agent团队合作中的

实时规划、重规和执行等问题。在当前的Agent体系结构中,缺少团队合作的理论,如团队目标、团队规划、共有信念和联合承诺等。这样,Agent不能显式地表示它们的团队目标和规划,也不能进行推理,更不能在意外事件发生时进行灵活地通讯或协调。因RoboCup仿真比赛提供的是一个单通道、低带宽的通信机制,所以需要一种不依赖于通信的显式合作。

(3)协作策略的学习近年来,多智能体的学习成为一个新的研究热点,关键问题是用学习技术增强

Agent的智能,也就是其解决问题的能力。在诸多学习方法中,强化学习方法得到广泛关注。RoboCup的学习任务包括:单个智能体的离线技术学习、智能体团队的离线协作学习、在线协作学习和在线对抗学习。

22

Page 28: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

3.2.4 RoboCup仿真中的协作策略分析多智能体环境是一个复杂、开放、动态及不可完全感知的环境,由于多个Agent

的存在,MAS高度复杂,系统中问题的求解需要考虑多个智能体之间的影响,问题求解空间非常巨大,对单个智能体而言,要在智能体设计时就定义好行动策略是非常困难的,因此学习技术是MAS协作中极为重要甚至是不可缺少的部分。美国卡耐基梅隆大学的CMU球队采用决策树方法对球员的基本动作,高层决策

和队员间的协作进行训练,提出阵型和站位的概念,并根据比赛结果和剩余时间动态改变阵型,同时研究在MAS中各个智能体为达到一个目标是如何进行协调和学习的,提出分层学习的多智能体学习框架。

FC Portugual是葡萄牙的一支球队,它是在CMU99公开的底层源代码的基础上,对MAS的协作方面进行深入研究,扩展球员阵型和站位这些概念,并在球员类型、战术以及角色的动态分配机制等方面提出了自己特有的球队策略,取得了较大的进展 。 该 球 队最主要 特 点 是 基 于 场 上 形势的 策 略站位 (Situation Based Strategic

Positioning , SBSP) 、 动 态 站 位 和 角 色 变 换 (Dynamic Positioning and Role

Exchange,DPRE),球员不仅够改变它们的站位,而且还可以在当前阵型下改变球员类型。

Uva Trilearn是荷兰萨姆斯特大学的一支球队,它采用推理层和执行层的双层结构,MAS结构特点不是很明显,主要是把异构球员的方法应用到MAS,同时采用了Priority/Confidence模型进行决策算法的设计,取得了良好的效果。德国卡尔斯鲁厄大学的球队Brainstormer采用强化学习技术进行球员的底层动作

的学习,把RoboCup问题看成部分可观察的马尔可夫决策问题,简化世界状念和动作集,通过使用动态规划的方法,用前向反馈神经网络来近似一个对连续的状态空间进行评价的V函数,通过不断尝试学习去提高V函数的性能,它们的最终目标是能够做到在仅仅给定一个命令告诉智能体去完成进球任务的情况下,智能体能够自主的通过和环境的交互学习各种技能,并选择合适的动作。3.3 常用的协作模型

近年来,MAS理论和协作技术在RoboCup仿真比赛中的应用越来越深入。协作23

Page 29: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

模型是为适应MAS的动态实时控制和优化而提出来的,它是建立在开放、动态环境下的多智能体模型。MAS协作模型需要解决MAS的协同工作、冲突消解和任务调度等协作问题,并使智能体能通过采取有效的协调机制,在有限时间、有限资源情况下完成某些相互受益且自身无法独立求解的复杂任务。多智能体环境中的协作模型主要是为了实现下述两个目标:

(1)通过定义MAS的结构和规划运作过程来构建有效的协作模型。MAS的结构预先描述了系统成员的角色,MAS的规划运作过程描述不同角色的职责以及完成系统目标所需制定的子目标、策略和规划等。

(2)要求MAS中的智能体能够灵活地适应不断变化的环境。这两个目标是相互排斥的,如果重点放在预定义的MAS结构和规划运作过程上

就会降低系统的灵活性,如果太强调系统的灵活性就需要定义共享的、冗余的、甚至是模糊的角色分配,这会增加系统的计算复杂度。因此,为了平衡这两个互相冲突的目标,就需要构建一种实际且灵活的协作框架,它能够根据MAS的结构和规划运作过程的先验知识,通过学习自动推理出目前的状态和其他球员的需求,同时要求对智能体职责的分配应该同环境及系统目前的状态相适应。

目前,MAS协作模型的主要有:理性智能体BDI模型、规划协作模型和基于学习的自协调协作模型等。下面将分别介绍这三种协作模型,并分析其优缺点。3.3.1 理性智能体BDI模型

BDI(Belief,Desire, Intention)模型是一个概念和逻辑上的理论模型,自从Bratman提出智能体信念、愿望、意图的理性平衡观点后,BDI模型成为研究智能体理性和推理机制的基础。将BDI模型扩展到MAS后,出现了联合意图、社会承诺、合理行为等描述或约束智能体协作行为的形式化定义,使MAS中的智能体能够了解其他智能体,以实现协作和交互。哈尔滨工业大学的刘新宇和洪炳铬提出了一种基于 BDI框架的动态协作模型

[11],这种实现方法认为将强化学习和BDI思维状态模型相结合,即形成了针对MAS

的动态协作模型。WrightEagle仿真球队把BDI模型引入到RoboCup足球机器人仿真系统的设计中,通过定义Belief为球员感知到的比赛状态,Desires是根据Belief确定的可能要使用的动作目标,Intention在Desires中选择最好的动作作为结果。

24

Page 30: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

由于BDI模型要求智能体达到信念、愿望和意图的理性平衡,所以它的反应速度慢,不能很好的适用于动态、实时的MAS中,而且BDI模型的准确定义也很难给出。3.3.2 规划协作模型

规划协作模型主要用来为多个智能体制定协调一致的问题求解规划。清华大学的蔡云鹏等人在TsinghuAeolus足球仿真系统的设计中提出从局部观察来进行全局规划(Global Planning from Local Perspectives)的协作结构。该仿真球队中的多智能体协作主要依赖于事先设定的规则进行局部合作,好处是能够及时地对外界环境变化进行实时反应,但智能难以体现。3.3.3 基于学习的自协调协作模型

自协调模型是为适应复杂控制系统的动态实时控制和优化而提出的。CMU机器人仿真足球队使用了分层学习技术来设计机器人的基本动作和顶层决策,使得智能体学会为了共同的目标而通过协作进行工作,在这种分层结构中每一层的学习都直接影响下一层的学习。UvATrilearn仿真球队通过预测对团队成员的行为进行相互建模;在不依赖通信的情况下,用协调图的方法实现多智能体间的协作[12]。

由于多智能体的自协调模型要求智能体具有分布式环境下的学习能力,而现有较为成熟的学习方法一般都是基于独立智能体的学习,不能直接用于MAS分布式环境,并且现有预测方法的有效性和动态性不够理想,所以自协调模型的实现比较困难。

在具有实时动态、不确定的非线性控制对象和难以建立数学模型的RoboCup仿真环境中,理性智能体BDI模型难以建立,且响应慢、动态性差;规划协作模型具有良好的反应特性,但很难满足动态和全局控制系统的智能性要求;自协调模型能适应和满足复杂系统的动态实时控制和优化的需求,但要求系统具有较好的多智能体学习能力。

RoboCup仿真球队要实现的目标就是“多进球赢得比赛”,其关键是要通过协作模型来实现球员间的协同工作。目前基于不同的战术提出了各种协作模型,有许多协作模型已经成功应用于RoboCup仿真球队。

1998年和1999年的仿真组世界冠军CMUnited球队提出了一种“球队一队员一智能体”的结构来平衡智能体的反应式结构和慎思结构,并引入了一种基于行为的

25

Page 31: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

决策算法,提出了一种黑盒子协定来完成多智能体的协作,这支球队的协作实时性强,但是智能体间的决策和协作不够灵活和智能。

2000年的仿真世界冠军FC Portugal球队提出了基于形势的策略站位的思想,采用动态站位和角色交换策略来实现多智能体的协作,这种策略具有很好的智能性,可用在动态复杂的环境,但其快速反应能力有待进一步提高。

2001年和2002年的仿真世界冠军TsinghuAeolus球队提出了基于启发式搜索算法和反应式决策结构的动态编程机制,它能够快速对环境的变化做出反应,但是智能体的智能度有待进一步加强。3.4 TsinghuAeolus队防守体系中的协作清华大学的TsinghuAeolus队在防守体系中设计了三种动作:盯人、阻截和跑本

位点。其中,盯人的目的是防止被盯的对手接到传球;阻截的目的是妨碍对方控球队员带球前进;跑本位点是指球员在本位点处防守,即进行区域防守[13]。

TsinghuAeolus队将防守动作的目标点离本位点的远近、目标点离球员当前位置的远近和防守目标对防守的威胁程度作为防守动作的特征。目标点离本位点远,则球员要离开自己的防守区域去防守,这对整体的防守不利。目标点离当前位置远,则该防守动作短期内不易收到效果,因为在防守目标点移动时原来的决策可能失去意义;如果目标点离当前位置近,说明该防守动作可以很快见效。威胁程度大致可用被防守的对手离球门的远近来衡量,离球门越近,威胁程度越大。

使用上述三个特征可以对每个球员可能的防守动作的利益做一个评价,决策时每个队员不是寻找对自己防守利益最大的防守动作,而是求解所有防守队员的防守和最大的防守分配方案,即达到整体最优。在这个防守系统中,每个球员基于相同的评价系统进行决策,作出的决策在全队的防守效果上看是协调一致的。球员间通过一个共同的评价系统在一定程度上达成了共识,这是协作的基础。但这种防守体系的缺点是:由于每个球员观察到其他队员和球的位置可能存在差异,如果有个球员没观察到一个有威胁的对手,但其他球员观察到了并认为应该由该队员来防守,这时这个有威胁的对手就可能被漏防。解决此问题的两种方法:一是选择相对客观的量进行评价,所谓客观是指从不同球员的角度观察得出的结论都相近;二是通过通讯来解决,这要求球员能够发现疏漏的情况,并告知队友,队友间通过沟通来进

26

Page 32: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

行裁决。

3.5 本章小结本章首先简要地介绍了多智能体的学习技术,接着分析了多智能体的协作技术 ,

包括设计难点和仿真球队面临的协作问题;然后介绍了机器人足球中常用的协作模型及具体应用,包括理性智能体BDI模型、规划协作模型和基于学习的自协调模型;最后分析了清华TsinghuAeolus队防守体系中的协作机制。

27

Page 33: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

4 决策算法设计与实现由于在多智能体系统(Multi—Agent System,MAS)中,各个智能体都是具有相

似的思维方法的自治系统,都能够利用局部信息进行自主决策,并通过人工智能的方法和逻辑推理策略解决局部冲突,从而最终实现多个机器人相互协调,共同完成团队或局部的策略。利用集中式的控制方法已不能完成MAS对实时性和动态性的要求,因此多数RoboCup仿真球队采用的是分布式的控制方案,例如基于行为的控制方案等。在基于行为的控制算法中,比较典型的是美国Camegie Mellon大学的CMUinted系列,这种控制策略具有反应灵活、便于完成实时任务等优点。但这种结构的协作能力比较差。基于功能的控制算法中,比较典型的是Tambe的决策算法,该系统具有协作能力,能对环境的变化做出合理的反应,但缺点也很明显,这种决策系统的速度不能够满足动态实时性环境的要求[14]。4.1 决策系统的设计理念和框架

RoboCup仿真比赛是各种比赛中参赛队数目最多的一种。由于仿真环境与人类足球比赛的环境相似,比赛队员的仿真模型与实际队员也很接近,实现了机器人比赛中由于机器人硬件的不足而放弃的规则。所以,在仿真组中的重点研究就是决策策略了。目前的决策控制结构有慎思结构、反应结构和混合结构。慎思结构的决策控制模型是基于Simon和Newell的物理符号系统假说。在该假说中,结构内部维护一个对外界环境的描述,这是一个精确的精神状态,并可以通过某种形式的符号推理进行改变。自主机器人利用其内部具有的环境模型,根据感知的外部信息进行实时推理,产生动作。反应结构是基于行为的,内部并不维护外界的环境模型,直接由外界传感器输入进行决策。即可以在完全陌生的环境中进行操作,这种结构实现的焦点在于产生鲁棒的行为,而不是正确的或最优的行为。它是受到了行为心理学的强烈影响。

在一些著名学者的引导下,如Brooks、Chapman&Agre、Kaelbling和Maes,一种新的控制结构发展起来,它经常称之为:基于行为的 (Dehavior-based)或反应式的

28

Page 34: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

(Reactive)。上述的种结构有其各自的缺点:①大多数基于推理机制的慎思系统缺少对陌生

环境的反应能力,并且在决定行为之前,寻找所有可能的行为,从中选出最优的选择。这样,它需要大量的计算推理,要花费很多时间,不适合实时动态的系统;②纯粹的反应式系统,虽然比较前者有更好的适应性,但是很多时候,它所做出的决策并不是最好的,它需要更多的优化。所以不能用它来直接设计目标的行为。二者的有机结合可以有效克服各自的缺点,为此提出了层结构的方案。层结构

是过去几年中逐步发展起来的一种典型的混合结构。层是结构化功能与控制的有效手段,同时可以使设计的系统具有多种期望的属性,如推理能力、反应能力、合作和自适应能力。层结构的主要思想是将按照功能将其结构分成两个或更多的混合组织的层,层之间可以互相交互。这些优点使层成为统一Deliberative和Reactive结构最有效的技术。本文将要讨论的决策系统的结构是一个分层的结构[15]。

由于足球赛场上的状态空间很庞大,所包括的信息量太大,如果让Agent直接从环境信息中获得信息,并组成知识,形成决策是很困难的。又由于足球赛是大家非常熟悉的内容,人类有很多现成的经验知识。提到足球的时候,人类很容易就想起进攻、防守、传球、射门、阵形等概念。这些都可以应用于足球机器人的决策中。所以本文设计的决策系统是一个融入人类先验知识的系统,这些知识概念都是预先定义好的,以框架的形式存在于Agent的决策系统中。而一些人类的经验建议则以一定的算法来求得有限解的形式存在。4.2 基于行为的智能自信度决策算法

为了克服现有控制算法的缺点,提出了一种新颖的基于行为的决策算法。该算法通过引入自信度,使得多智能体不仅满足动态实时性环境的要求,而且还具有较强的协作能力。其主要思想包括:如果一项任务只需一个智能主体就可完成,则将之称为个体决策;如果一项任务需要多个智能体才能够完成,则将之称为团队决策;选取决策树种的行为来完成多智能体之间的合作与协调;取决使用个体决策还是团队决策的桥梁是自信度。图4-1是该算法功能示意图。Bj表示智能体的信念集,E表示事件,Aj表示智能体的行为集,Gj表示智能体将要完成的目标集,Bj表示智能体的计划集,Aj表示智能体的行为集。

29

Page 35: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

图4-1 一种新颖基于行为的决策算法从图4-1可知,当有事件到达时,智能体会根据当前环境信息和自身信息来计

算对当前事件的自信度,如果自信度高(为1)时,就选取基于行为的决策算法;如果自信度低(为O),则智能体选取基于BDI的决策算法。BDI决策算法会首先更新当前的信念模型,根据更新后的信念来产生目标,并决定出相应的计划集,然后选取相应的行为集来完成这一系列的计划,如果计划失败,则继续更新信念集。

在决策系统的结构上,本文采用的是一个两层的系统:团队决策和个体决策。足球比赛是一个团队的比赛,完成一个比赛是一个团队任务。队里面的每一个

成员应该协调合作,才能有效地完成既定任务,这是团队决策所负责的内容。个体决策里面的是球员的个人技术,主要根据不同的环境,决定采用哪些个人技术,以及如何使该技术在当时环境下更好的实现。由于Soccer Server提供了几个简单的动作命令接口,完全没有智能可言,所以团队决策就是把个人的任务细化实现。可以说,团队决策是上层的,它考虑全局的作战利益,然后做出决策,然后把任务下到个体决策中,然后,Agent在根据上层的结果和当时的相关环境把任务细化,直到使之成为可以直接在Soccer Server上面执行的简单动作,如图4-2所示。

30

Page 36: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

本文后面讨论的决策策略中,是用基于行为的决策树来实现的。

信息输入 命令输出图4-2 决策分层

4.3 决策树基于行为的决策树,如图4-3所示。智能体在每个仿真周期,首先是从决策树中选择相应的策略模型,然后再执行

相应的动作。智能体选用决策树的条件用抽象描述如下:

(1=抢断;2=守门;3=卡位;4=走到定点;5=跟踪)图4-3 决策树

(1)如果球处在守门员的位置,用守门模式;

团队决策

个体决策

31

Page 37: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

(2)如果球员的位置不知道,用定位模式;(3)如果Server的比赛模式为before_kick_off,用before_kick_off模式;(4)如果球的位置不知道,用面向球模式;(5)如果球处在kickable area位置,用处理球模式;(6)如果球没有运动并且没有其它的对友靠近球,用积极进攻模式;(7)如果没有对友可以更快的截取球的当前运动轨迹,用积极进攻模式;(8)当对方球员持球时,如果能够截取球的当前运动轨迹,并且最多只有一个

队友更接近球,用积极防守模型;(9)当要接球时,用面向球模型;(10)如果处在防守的位置:①如果对方球员持球并且球远离自己的位置,用辅

助进攻模式;②如果球员被指定来跟踪对手,则用辅助防守模式;③否则,用消极防守模式;

(11)如果处在中场位置:①如果对方球员持球,则用消极进攻模式;②否则,用辅助进攻模式。球员在每个仿真周期,首先是从决策树中选择相应的策略模型,然后再执行相应的动作。4.4 本章小结

本章针对几种常用的决策算法,提出了一种新颖的基于行为的Multi—Agent决策算法,并用这种决策算法来完成球队的比赛任务,仿真结果证明了该算法是可行的、高效的。

32

Page 38: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

结 论 MAS协作的研究是近年来分布式人工智能领域的一个重要研究热点。 RoboCup是检验各种MAS理论的标准平台。在RoboCup仿真比赛这个极为复杂的多智能体环境中,多个智能体必须通过协作才能完成它们的共同目标——多进球赢得比赛。

RoboCup仿真比赛提供的是一个动态、通信受限的环境,球员间的通信是在一个单通道、低带宽的信道上进行的。而且球员智能体感知到的信息是不确定的,利用这些不准确的知识进行行为规划不能保证是可行的,存在很多不确定性。在规划的基础上应提供监控机制来判断规划是否正确执行,在出现错误时需对行动进行重新规划,从而使得智能体能适应环境的不确定性。因此使智能体学习如何有策略地进行比赛很重要。

本文在简要介绍多智能体的学习,多智能体的协作机制,包括多智能体协作面临的问题及仿真球队现有的协作策略分析之后,为了提高决策的速度和智能性,提出一种基于行为的Multi—Agent决策模型,该模型分为个体决策模型和团队决策模型,个体决策模型是为了提高智能体决策的速度,团队决策模型为了提高决策的智能性。

33

Page 39: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

致 谢本次毕业设计是在尊敬的导师陈强老师的悉心指导下完成的。从毕业设计的选

题到课题的关键性研究,以及毕业设计论文的撰写与修改,都自始至终得到了导师的亲切关怀和精心指导。导师渊博的学识、敏锐的思维、谦虚严谨的治学态度、高尚的敬业精神以及平易近人、诲人不倦的作风令我受益匪浅,终生难忘。这些宝贵的学术思想及精神财富将是我在今后的工作及学习中不断努力的动力和源泉。籍此毕业设计完成之际,谨向辛勤培育我的导师陈强老师致以最崇高的敬意和最深挚的感谢。衷心感谢我的同学翁星星,张杰,黄璐等,在本人毕业设计课题研究阶段给予

的热情帮助。特别感谢给予我无限爱心的父母。他们在学业上给我鼓励,在生活上给我关怀,

在经济上给我支持,使我能够顺利完成学业。感谢在本人成长道路上不断给予关心爱护和帮助支持的师长、同学和朋友们!

参考文献34

Page 40: 1 劳动合同解除制度的价值分析 - zzu.edu.cn€¦  · Web viewIn the aspect of personal decision,decisiontree is used to determine current technical action for individual

[1] Ehsan Foronghi , Fredrik Heintz , et a1 . Users Manual RoboCup Soccer

Server,2001.[2] 李实,徐旭明,叶榛等.机器人足球仿真比赛的 Server模型.系统仿真学报,

2000,12(2).138-145 .[3] 蔡自兴.机器人学基础.北京:机械工业出版社, 2009.[4] 余斌, 李龙澍. Multi-Agent层次协作模型在RoboCup仿真比赛中的应用. 计算机

技术与发展,2006.[5] 杨宝庆,刘国栋.基于 RoboCup 多智能体系统学习与协作问题的研究.计算机

工程与应用,2008.[6] 陈世福,陈兆乾.人工智能与知识工程.南京: 南京大学出版社, 1997. [7] 蔡自兴,徐光佑.人工智能及其应用.北京:清华大学出版社,2004.[9] 杨煌普,李晓萌,许晓鸣. 多 智 能 体 协 作 技 术综述 . 信 息 控 制 ,2001,30(4):

337-342.[10] 杨佩,陈兆乾,陈世福.机器学习在RoboCup中的应用研究.计算机科学,

2003,30 (6):118一121 [11] 刘新宇,洪炳镕.基于BDI框架的多Agent动态协作模型的应用研究.计算机

研究与发展,2002,39(7):787-801.[12] 郭叶军,吴铁军. 机 器 人 足 球 仿 真 比 赛 中 多 智 能 体 系 统 的 构 建 .February,2004.[13] 潘凌寒,程显毅,殷秀莲.机器人足球策略的研究.江苏大学学报(自然科学版).

200 4,25(3):257一260[14] 仵博.Multi—Agent协作模型及其在RoboCup中的应用.中南大学,2003.[15] GeoffNitscke . Cooperating air traffic control agents . Applied Artificial

Intelligence,2001,15(13):209—235.

35