广东企业黄页网站,中企动力优秀网站,wordpress 图片管理插件,ftp服务器设置网站主页基于人机协作的无人集群搜索方法研究
人工智能技术与咨询 点击蓝字 关注我们 关键词#xff1a; 无人集群 ; 人机协作 ; 动态规划 ; 多Agent系统 摘要#xff1a; 人与机器人交互是当前一项研究热点#xff0c;人与无人集群协作搜索是人机交互的典型场景#xff0c;通过结…基于人机协作的无人集群搜索方法研究
人工智能技术与咨询 点击蓝字 关注我们 关键词 无人集群 ; 人机协作 ; 动态规划 ; 多Agent系统 摘要 人与机器人交互是当前一项研究热点人与无人集群协作搜索是人机交互的典型场景通过结合人的复杂推理能力和无人集群的重复精确执行能力以完成更为复杂的任务。以不确定场景下高价值目标搜索为背景给出了人与无人集群协作搜索问题概念定义为描述多Agent系统如何在人工辅助下进行选择目标区域进行探索构建了一种先验态势不确定情况下多Agent动态规划问题模型提出了一种基于顺次分配的动态规划算法。并对该方法进行了仿真实验实验结果表明该算法性能明显高于基准算法。 引言 无人技术的快速发展使得无人集群逐渐成为人类的合作伙伴。人机交互系统[1]是由指挥员与机器人组成的复杂系统他们相互协作以实现一个共同的目标。本文聚焦人机交互的一个子类即指挥员与无人集群协作搜索问题。无人集群是由多个无人平台组成的群体如无人机集群、无人车集群[2-4]。在无人集群自动规划领域无人平台会根据其当前状态和附近环境与相邻无人平台相互交互以及自己的局部控制规则进行自动规划。人机交互系统在未知远程环境和高度非结构化的任务中具有卓越性能能够减少人员工作量完成单个无人平台无法完成的任务且具有更高的故障鲁棒性和可扩展性。现如今人机交互的性质也发生了变化由单人与单无人平台协作逐渐发展为多人与单无人平台交互、多人与多无人平台交互、单人与多无人平台交互[6]。一般根据自动化层级来描述机器人自主程度[7]10级表示机器人具有完全自主能力而1级表示人类需要操控所有行动。现有机器人技术远未达到10级因此仍需要人为干预来完成复杂任务例如进行更高级的推理和决策。 一些学者对人与无人集群协作问题进行过研究。Aamodh提出了一种协作框架在框架中指挥员能够控制集群的形状和编成[8]。Shishir研究表明适当的人与无人集群协作可以使无人集群受益从而能够更好地达成目标[9]。指挥员与无人集群协作方式很多其中一种是指挥员向无人集群提供辅助消息。在很多情况下指挥员能够根据经验或其他消息途径为无人集群提供消息消息可能降低信息的不确定性从而降低无人集群决策的复杂度进而提高系统整体性能。事实上从指挥员获得所需信息的最直接方法是遇到情况直接询问。假设无人集群具备较高自主能力能够自己完成任务偶尔会得到指挥员的支持。指挥员作为消息提供者主要提供信息状态和决策行动2种方式。作为信息状态提供者常见的问题框架是HOP-POMDP(human observation provider partially observable markov decision process)[10]。HOP-POMDP考虑了Agent在规划决策时能够咨询指挥员通过咨询获得必要信息但指挥员可能提供非完整信息且不一定能实时响应。作为决策行动提供者常见的框架为MU-POMDP(model uncertainty partially observable markov decision process)[11]。MU-POMDP考虑了转移函数、观测概率和回报值不确定的规划过程Agent向指挥员询问一系列“是/否”问题或者描述行动列表然后由指挥员确定采用何种行动。上述问题模型与本文提出的问题框架有所不同因而其求解算法无法有效地应用于提出的搜索问题。 人与无人集群协作决策可以抽象为一种方案空间探索问题。假设存在很多备选目标区域无人集群选择其中若干区域进行搜索方案可以认为是无人平台搜索一个目标区域的过程所有方案的集合称为方案空间。方案空间越大越有可能包含最有价值的目标。对于方案空间搜索问题通常将其抽象为一种目标优化问题。根据目标的数量可以将优化问题分为单目标优化和多目标优化。为了便于分析多个目标可以整合为单个目标。现有研究中每个方案的回报值是确定的可以直接得到而无需经过复杂计算。目前普遍采用帕累托最优方法如NSGA-II(non dominated sorting genetic algorithm II)和NSGA-III(non dominated sorting genetic algorithm III) [12-13]以及这些算法的扩展算法。这些算法适用于输入输出关系确定的问题中但难以有效解决本文的问题框架即无人集群的行动可能产生大量的、甚至无穷多的不同数值的搜索问题。指挥员首先需要确定拟探索方案的先后顺序然后在已搜索的方案中选择最有价值的若干方案。换句话说问题的目标是寻找到最优搜索路径以保证在有限时间和资源内寻找到最优方案。该问题类似于旅行商问题[14-15]最优搜索路径的计算复杂度为O(n22n)O(n22n)其中n表示方案空间中的方案数但又不同于旅行商问题本文考虑的路径优选问题中每种方案的价值服从某种分布准确的价值在方案被探索之前是未知的。考虑到搜索目标需要耗费一定代价搜索路径根据需求长度可调。Blanco等[16]提出了一种搜索算法决策者通过花费一定代价以获取未知方案的信息并提出了停止搜索的条件。Weitzman[17]提出了一种基于评判指标的顺序搜索问题不过该方法适用于选择一个最优方案的情景。Chen等[18]提出了一种用于人工辅助机器人决策的最优搜索算法同样该方法只能选取一种最优方案无法解决本文提出的问题。 本文考虑的场景是假设具有高度自主性的无人集群在人工干预下对敌方目标区域进行探测以求在大范围环境中寻找到若干最有价值的区域。由于先期情报不准无法确定高价值目标具体位置。此外派遣无人集群执行任务时需要一些代价一方面需要耗费燃料另一方面有可能被对手击毁。因此需要无人集群通过搜索判断不同区域的价值以便为下一步行动提供支撑。因指挥员能够获取额外的信息以弥补无人集群的不足即指挥员可以减少无人集群搜索过程的不确定因素所以在很多情况下人工干预的无人集群规划是十分必要的[5]。但是指挥员的精力和能力是有限的难以实时操控每个无人平台因而无法同时为所有无人平台分析和处理数据。 鉴于此本文聚焦于如何以有限的代价和资源寻找到最有价值的目标。高价值目标可以指指挥所、火炮阵地、机场等指挥员感兴趣的事物。本文弱化了实际应用背景以便提出的问题框架以及求解算法具有一般性。指挥员与无人集群协作搜索问题面临三方面挑战①各个区域具有不确定性。在派遣无人集群前往目标区域探测之前需要收集先验知识如卫星图像。先验知识一方面具有不确定性另一方面能够作为启发式信息辅助决策②派遣无人集群前往目标区域探测需要花费代价如油耗、损坏等。因而指挥员需要决定是继续探测下一个地区还是停止搜索并选择已探测的最有价值的区域③进行探测的手段很多例如无人机实地抵近侦察或者回传高空侦察数据以寻求人工分析因此指挥员应权衡不同行动的效用和成本。
1 人机协作搜索问题框架 本节给出了人与无人集群协作搜索问题的概念定义并将该问题抽象为一种动态规划问题。
1.1 概念定义 把地理环境划分为若干区域无人集群需要在这些区域中找到高价值目标如果包含的高价值目标越多则这片区域就越有价值。无人集群的目标是以尽可能少的代价找到价值尽可能高的若干区域。假设每个区域的价值是独立的在被无人集群探测之前具体数值是未知的。 定义1(搜索价值)搜索价值是指无人集群探索某个区域的必要性综合度量。 搜索价值由目标的重要程度决定目标越重要该目标所具备的价值就越大探索这片区域的价值也就越高。考虑到先验态势信息的不准确性每片区域的价值事先是不确定的。假设不同区域的价值是相互独立的。对于区域u∈Uu∈U其价值xuxu服从概率分布Fu(xu)Fu(xu)其中U表示所有备选区域或称为方案空间。无人集群可以采用抵近侦察或者高空侦察的方式获取信息。其中抵近侦察能够获取区域的确切价值高空侦察数据需要成功咨询指挥员后才可能获得确切价值。另外不同行动耗费的成本是不一致的比如抵近侦察就存在被击落的风险而高空侦察则不易被击落。 定义2(搜索代价)搜索代价是指无人集群探索某个区域时的成本综合度量。 派遣无人集群前往目标地点搜索是需要耗费成本的记为c∈Rc∈R。假设采用不同行动搜索不同区域的代价是已知且相互独立的。那么无人集群在考虑进一步探索时需要权衡搜索价值和搜索代价的关系即回报值。回报值可以认为是净效益本文无人集群的目标是使回报值最大化。 定义3(回报值)回报值是搜索价值与探索成本之差。 每个区域的状态分为状态未知、状态已知和状态分析3类如图1所示。状态未知是指该区域还未被无人集群探索确切价值尚不可知状态已知是指该区域已经被无人集群探测过已经查明了确切价值状态分析是指该地区正在被无人集探测无人集群正向指挥员请求数据分析。可以采用多种手段进行探测不失一般性无人集群主要有2种手段①无人集群前往目标区域u进行抵近侦察采用多个视角和多种传感器收集和处理数据记为auau②无人集群前往目标区域u进行高空侦察并请求指挥员进行数据分析记为a′′uau″。所有行动集合记为A{au,a′′u|u∈U}A{au,au″|u∈U}。 图1 方案状态转移关系
Fig. 1 Scheme state transition relationship
1.2 动态规划问题
人与无人集群协作搜索被形式化建模为一类多Agent系统动态规划问题其中无人平台被抽象为Agent每个区域被称为一个方案。将备选方案集合记为u∈Uu∈U将其分为2个互斥集合①不断增加的已探索方案集合I∈UI∈U②未探索方案集合I¯∈UI¯∈UI⋃I¯UI⋃I¯UI⋂I¯∅I⋂I¯∅。每个Agent在决策时可以选择是否从集合I¯I¯中选择一个未探索方案进行探索此时可以采用抵近侦察和咨询指挥员两种方式获得确切回报值或者该Agent停止探索并从集合II中选择一个已探索方案作为最终方案。设定整个集群一共选取|K|K个方案每个Agent只能选择一个最有价值的方案使探索价值最大化 求解问题的充分统计量记为(I¯,y)(I¯,y)称为系统状态。系统状态分为2部分未探索方案信息I¯I¯和已探索方案集合y{y1,y2,⋯,y|I|}y{y1,y2,⋯,yI}。将Agent系统多动态规划问题转化为系统状态评估函数。
定义4(系统状态评估函数)。系统状态评估函数为当已知价值集合为y且未探索方案集合为I¯I¯时执行最优策略能够获得的期望回报值记为ψ(I¯,y)ψ(I¯,y)。
由于每个方案探索价值和探索成本是独立的因此集群的期望回报值可以分解为每个Agent的期望回报值。 式中ψk(I¯k,yk)ψk(I¯k,yk)为第k个Agent的子系统状态评估函数。对于任意2个Agent w,v∈Kw,v∈K所选择的方案yˆw,yˆvŷw,ŷv有yˆw≠yˆvŷw≠ŷv表示每个Agent选择不同的方案。每个Agent都有局部方案空间不同Agent的方案空间可能交叉Uw⋂Uv≠∅Uw⋂Uv≠∅也可能不交叉Uw⋂Uv∅Uw⋂Uv∅。对于每个子集I¯kI¯k和价值集合ykyk子系统状态评估函数ψk(I¯k,yk)ψk(I¯k,yk)需要满足式(3)所示的迭代关系。不失一般性本文以Agent k∈Kk∈K为例进行说明其中K表示无人集群索引集合。 式中ψk(I¯,yk)ψk(I¯,yk)为Agent k执行抵近侦察行动后的系统状态评估函数ψ′′k(I¯,yk)ψ″k(I¯,yk)为Agent k执行询问指挥员行动(记为aa)后的系统状态评估函数p为指挥员响应并成功分析出该方案价值(记为a′′a″ )的概率ci,c′′ici,ci″为对于方案iAgent执行行动aa和行动a′′a″所耗费的成本。当系统状态为(I¯k,yk)(I¯k,yk)时Agent k需要确定是停止搜索并从集合ykyk选择最大价值yˆkŷk或是在比较行动aiai和行动a′′iai″效果后继续探索未知方案i。 通过上述定义本文将人与无人集群协作搜索问题建模为一种动态规划问题。该问题特点是递归计算因此难以直接求解状态评估函数。
2 基于顺次分配的动态规划算法 本节提出了一种基于顺次分配的动态规划(sequential allocation based dynamic planningSADP)算法通过决策指标与采样值之间的大小关系来选择行动。
2.1 决策指标 对于每个方案i执行行动aiai和行动a′′iai″的决策指标分别记为didi和d′′idi″。决策指标是继续探索与停止探索的综合度量。 参考文献[18]可以解算式(6)得到 根据系统状态ψ(I¯,y)ψ(I¯,y)和指标集合{ci,c′′i/p|i∈I¯}{ci,ci″/p|i∈I¯}可以设计一种简单但最优的搜索规则分为判断规则和选择规则。判断规则是指如果Agent要进一步探索未知方案则选择决策指标最大的未知方案同时选择对应的行动停止规则是指如果当前最大价值大于所有未知方案的决策指标时则停止搜索并选择具有最大价值的方案作为最终方案。 通过该规则复杂的系统状态函数计算问题就转化为简单的指标判断问题且每个指标的计算都是独立的不受其他方案价值概率分布的影响。
2.2 规划算法 在探索程序中首先根据式(6)和(7)计算所有方案所有行动的决策指标并保存至集合ππ中。其次嵌套遍历所有Agent k∈Kk∈K和每个Agent的未知方案空间UkUk。在嵌套遍历中应先找出集合ππ中最大指标 d* d*以及对应的方案i*i*、行动a*a*和代价c*c*。为了便于描述指标集合是以全集为基础计数而不以每个Agent的局部集合计数即π{di,d′′i |i∈I¯}π{di,di″ |i∈I¯}。如果最大采样价值大于最大决策指标yˆk≥d*ŷk≥d*则停止搜索并返回最大采用价值yˆkŷk、最终方案iˆkîk和累积搜索代价反之则进入仿真程序G获取是否咨询成功s∈{True, False}s∈{True, False}以及采样价值x。如果获得确切采样价值那么更新集合IkIk、I¯kI¯k、πkπk和累积搜索代价cc。 算法1探索程序 在仿真程序G中如果采取行动a′′a″则将生成的随机数r与咨询成功率p对比以判断能否咨询成功。另外符号“~”表示采样x∼Fi(xi)x∼Fi(xi)表示对概率分布Fi(xi)Fi(xi)进行一次采样。
算法2仿真程序 3 仿真实验
3.1 实验设置
假设需要对目标区域进行探测建立战场高价值目标态势图为后续行动提供最新支撑。为了完成一系列使命拟派遣高智能无人集群前往目标区域并在人工辅助下以尽可能低的探索成本寻找若干高价值目标区域。那么无人集群如何自动规划自身行动是本实验需要解决的问题。
为了评估基于顺次分配的动态规划(sequential allocation based dynamic planning, SADP)算法的性能定义统计指标①平均回报值指多次仿真中K个最高价值减去累积搜索代价的平均值②平均运行时间指运行多次仿真的平均时间③平均探索次数指每轮无人集群探索未知方案的平均次数④平均咨询次数指每轮中无人集群向人类咨询的平均次数。
此外为了对比SADP算法的性能设计了在问题框架下2种基准算法
(1) 快速探索算法(fast exploration algorithm, FEA)其评判指标是最高期望价值与代价之差即每轮决策选择方案 当已探索方案中的最高回报值大于该指标集合中的所有指标则停止探索并选择具有价值最高的方案。
(2) 试触探索算法(touch exploration algorithmTEA)其核心思想是比较当前最大回报值与下一时刻期望最大回报值相比如果小于0则继续探索反之则停止探索。每轮选择方案 3.2 方案空间扩展性实验
本节设计了3个典型场景用以评估算法对于方案空间可扩展性的适应程度。一般而言咨询代价小于抵近侦察代价c′′ici,i∈Ici″ci,i∈I但是咨询次数未知。设定所有搜索价值函数服从独立的均匀分布即Fi(xi)∼U(ai,bi)Fi(xi)∼U(ai,bi)ai∼U(1 000,1 500)ai∼U1 000,1 500bi∼bi∼U(1 500,2 000)U1 500,2 000i∈Ii∈I设定搜索代价也服从独立的均匀分布即ci∼U(10, 20)ci∼U10, 20c′′i∼U(3, 4)ci″∼U3, 4i∈Ii∈I咨询成功概率为p{0,0.1,0.2,⋯,1}p0,0.1,0.2,⋯,1时无人集群选取|K|9K9个方案每个场景独立重复运行1 000次仿真。评估3个场景下算法的性能指标
场景A1方案空间大小为|I|50I50。
场景A2方案空间大小为|I|500I500。
场景A3方案空间大小为|I|5 000I5 000。
场景A1仿真结果如图2所示。实验结果表明在这些场景中SADP回报值远高于FEA和TEA的回报值SADP运行时间略高于FEA和TEAFEA和TEA探索次数非常接近随着p的增加SADP探索次数波动增长。当p≥0.3p≥0.3时SADP咨询次数大于FEA和TEA咨询次数。 图2 场景A1仿真结果
Fig. 2 Simulation results in scenario A1 场景A2仿真结果如图3所示。实验结果表明在这些场景中SADP回报值远高于TEA而TEA回报值高于FEA。SADP运行时高于FEA和TEA。SADP探索次数明显大于FEA和TEA的探索次数。当p0.2时SADP咨询次数大于FEA和TEA咨询次数。 图3 场景A2仿真结果
Fig. 3 Simulation results in scenario A2 场景A3仿真结果如图4所示。实验结果表明在大部分场景下SADP的回报值、运行时间、探索次数和咨询次数大多高于TEA而TEA的回报值、运行时间、探索次数和咨询次数又大多高于FEA。 图4 场景A3仿真结果
Fig. 4 Simulation results in scenario A3
3.3 参数敏感性实验
设定所有搜索价值函数服从独立的均匀分布即Fi(xi)∼U(ai,bi)Fi(xi)∼U(ai,bi)ai∼U(1 000,1 500)ai∼U(1 000,1 500)bi∼Ubi∼U(1 500,2 000)(1 500,2 000)i∈Ii∈I设定搜索代价也服从独立的均匀分布即ci∼U(10,20)ci∼U(10,20)c′′i∼U(3,4)ci″∼U(3,4)i∈Ii∈I。此外咨询成功概率设为p0.3p0.3方案空间大小设为5 000无人集群选取|K|{1,3,⋯,19}K1,3,⋯,19个方案时的回报值、运行时间、搜索次数、咨询次数4项性能指标。每个场景独立重复运行1 000次仿真。
场景B仿真结果如图5所示。实验结果表明随着|K|K的增加所有算法的回报值、运行时间、搜索次数、咨询次数都逐渐增加。此外在这些场景中SADP回报值、运行时间、搜索次数、咨询次数高于TEA而TEA又高于FEA。 图5 场景B仿真结果
Fig. 5 Simulation results in scenario B 3.4 实验分析 本节设置若干场景但实验结果具有一些共性。比如在场景A中随着变量p的增加回报值略有增加而运行时间会逐渐减少。这是因为p的增加会减少咨询次数并降低期望咨询代价从而提高期望回报值。值得说明的是p0.3是SADP算法的拐点当p0.3时其回报值、运行时间、探索次数、咨询次数都处于低位而当p0.3时有明显的提高。这与实验参数设置有很大关系当p0.3时行动aa的代价cc基本上大于行动a′′a″的代价c/pc/p因此Agent将采用咨询指挥员而不是采用抵近侦察行动。此时即便搜索路径不变代价值也会降低回报值增加咨询次数增加。进一步代价c的变化会影响决策指标d的变化从而影响搜索顺序以及何时停止搜索。决策指标d具有期望回报值类似的意义c与d呈负相关如果c越小则d越大。对于场景B随着变量|K|K增加各项指标随之增加。很显然毕竟选择的方案多了而每个方案回报值为正所以回报值肯定增加。同样运行时间、搜索次数、咨询次数也会增加。
4 结论 人与无人集群协作搜索是具有广泛的应用价值和重要的研究意义。关于人机交互协作搜索许多学者将其抽象为一种动态规划问题。其中大多考虑单个最优方案如何生成而对于多个最优方案并没有考虑。本文的工作是对之前工作的拓展主要研究如何选择若干最优的方案。针对人与无人集群交互协作搜索问题提出了一种多项式事件最优的方案空间探索算法。由于算法采用一种基于判定指标的贪婪搜索方法使得该算法探索的回报值高于其他基准算法。然而该算法也存在一些不足主要体现在运行时间比基准算法略长这可能与判定指标计算的复杂度有关。下一步可以考虑更为复杂的协作搜索问题以及如何并行分布计算以提高问题的适用性和计算效率。