设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

南栖仙策提出新型环境特征编码器学习算法,有效提升环境识别的泛化能力

发布时间: 2024-01-30 15:17:49 来源:

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于上下文的离线元强化学习(Context-based OMRL)通过构建一个上下文编码器,将收集到的上下文数据映射到任务表征,进一步基于任务表征来自适应的在多个环境中进行决策。然而,在离线的情形下,任务表征的编码器极大的依赖于用于训练的离线数据的丰富程度。当数据采集有限,以至于与特定采样策略的特点耦合时,学习的任务编码器通常会难以获得较好的泛化能力,进而影响元强化学习的性能。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于此,南京大学&南栖仙策团队合作提出了一种基于模型对抗样本增强的环境特征编码器学习,task Representation learning via adversarial Data Augmentation (ReDA)算法,并发表在AAMAS24会议上。这一方法可以应用于元强化学习的环境特征识别上,缓解了以往算法中环境特征和采样策略耦合的影响,从而使得我们在样本受限的实际场景中可以提升环境特征编码器的泛化能力,进而提高元学习策略的表现,推进强化学习在现实世界的应用落地。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

离线元强化学习环境特征耦合问题Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

离线元强化学习(Offline Meta Reinforcement Learning)是一种重要的机器学习技术,其结合了离线和元学习两种方法优势,可以帮助智能系统从以往的多种环境的离线经验中学习,以提高在新环境下的泛化能力。通过离线数据,系统可以更有效地利用以往的经验,而无需实时与环境进行交互,从而提高数据利用效率。并且,由于在不同的环境下进行学习,而不仅仅是在当前环境下,也极大的提高了策略的泛化能力。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在很多实际应用中,实时与多种环境交互收集数据可能会很昂贵或不切实际,离线元强化学习为这些场景提供了解决方案。离线元强化学习可以使强化学习技术更易于应用和部署,在提高泛化能力、数据效率、稳健性以及降低成本等方面具有重要意义,尤其是在实际应用中,如机器人控制与路径规划、自动驾驶系统、智能游戏角色、智能物流和仓储以及工业自动化等方面具有广泛的用途。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

离线元强化学习中,主要的方法是基于上下文的离线元强化学习。该类方法将策略建模为两部分:第一部分是环境特征提取器,可以将历史收集到的上下文数据映射到环境特征上;第二部分是基于环境特征的条件策略,在给定的当前状态和得到的环境特征的条件下进行决策。第一部分的任务编码器是非常重要的,提取的环境特征将直接决定了下游的元策略的学习质量和泛化能力。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,以往的环境特征编码学习需要依赖非常丰富且多样的数据进行学习,这在很多真实的物理场景中是不现实甚至存在一定危险的,比如机器人等。以往的工作中,环境特征提取是基于对比学习直接在离线数据集上进行训练的:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由于对比学习直观上就是减小相同任务的上下文表征的距离,增大不同环境的上下文表征的距离,通常需要收集到非常丰富的离线数据集来获得一个鲁棒且可泛化的环境表征,例如CORRO[1]需要使用整个训练期间的所有策略检查点来收集数据,这在真实场景中是不现实的,显然整个训练流程中的数据对于现实任务例如机器人控制任务是很难获取的,甚至获取过程中存在一定的不安全因素。因为很多时候我们无法获取如此丰富的样本来训练一个好的环境特征编码器,所以我们需要去关注数据集有限时环境编码器的学习问题。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

简单以倒立杆任务(InvertedPendulum)为例,我们的训练数据是重力1.0下的高质量数据和重力2.0下的低质量数据,然后使用上下文数据是1.0倍重力下的低质量的数据进行测试(图1-a),对数据集的分布进行降维可视化展示(图1-b),发现测试数据到同样环境下的训练数据的距离,并没有相对其他环境的训练数据的距离更加接近(图1-c),这样的情况下,仅仅依赖于数据集的对比学习,由于缺少足以代表环境任务特征的样本,将很难保证任务表征的泛化能力。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图1. (a). 训练数据和测试数据 (b). 数据分布的可视化 (c). 测试数据到不同任务的训练数据的相对距离Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于模型的对抗样本增强Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了让环境特征编码器更好地捕捉到环境特征而非采样策略本身的特征,我们提出了一种基于模型的对抗样本增强的方法,产生更多的不同于数据集的数据来训练环境特征编码器。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先我们基于每个任务的数据集,分别学习各个任务上的转移模型:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在学习好可以用来交互的环境模型后,接下来我们需要面临的问题是:1.采集什么样的样本来有效增强任务编码器的能力?2.如何缓解环境模型误差带来的影响?Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于这两个问题,我们引入了一个对抗采样策略,该策略的优化目标主要由三部分组成:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

·最小辨识度的样本:我们需要采集让任务编码最难区分的样本,即该样本到相同任务的距离和到其他任务的距离差距不大。所以我们考虑这样的样本需要具备的特点是,当它被加入上下文之后,会导致基于上下文的对比学习的损失函数上升。所以我们使用该损失函数变化的程度来作为优化的奖励信号,如果对比损失上升越大,说明该样本的引入使得任务编码器更加难以识别环境了。定义该样本加入前的任务表征为z_t,加入该样本后的任务表征为z_t+1,单步的奖励定义为:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

·模型不确定性惩罚:我们并不希望对抗策略去搜索模型中误差过于大的区域,所以参考MOPO我们基于不确定性度量给出对样本的惩罚。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

·任务相关奖励:我们使用了任务的奖励函数来避免对抗策略去搜索和任务无关的样本。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

综上所述,我们最终得到了在模型上搜索对抗样本的对抗策略的优化目标:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于该对抗策略搜索到的增强样本,我们得到了新的环境特征编码器的优化目标:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该目标是一个标准的强化学习的定义,所以可以使用SAC等算法求解。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整体的算法流程如下图所示,首先基于离线数据集学习转移模型,然后在转移模型上获得对抗策略,并产生对抗数据训练任务编码器,再基于任务编码器训练最终的元策略。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图2. 算法流程Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整体训练的算法描述如下:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

技术验证Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于倒立杆的环境与数据集,我们对我们的方法进行了简单的验证,首先定义相对距离:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该距离描述了相同任务下训练集和测试集的距离与不同任务下训练集和测试集的距离的差异,如果该距离越小,说明我们的表征训练的泛化能力越好,通过和FOCAL[2]等基础算法进行对比,我们发现ReDA显著的提升了表征的泛化能力(图3-b),并且取得了更好的测试性能(图3-a)。这一结果表明,我们学习到的环境表征解耦了采样的策略特征,从而更好的泛化到了更多数据上。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图3. 倒立杆多种方法下的表征与性能Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整体性能Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们设计了两种模式进行测试,第一种是on-policy模式,上下文的样本来源于当前策略的采样;另一种是off-policy模式,策略来源于数据集以外的其他样本。这两者都是在实际部署时最常需要使用的上下文样本,并且都存在和训练集存在一定的偏差。我们参考以往的工作构建了MuJoCo上的多任务数据集,包括HalfCheetah、Hopper、Walker2d、Ant在Gravity、Dof-Damping等模拟器参数变化下的多任务数据集。在训练过程中我们只使用几个检查点的数据,然后使用其他检查点的数据作为off-policy模式下的测试数据。实验结果如下:Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图4. on-policy模式下的性能Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中[任务] [参数类型]-[数字]的格式表示使用的训练数据集是哪个任务的哪类参数,总共使用了几个检查点的数据去训练。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图5. off-policy模式下的性能Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中[任务] [参数类型]-[数字]的格式表示使用的训练数据集是哪个任务的哪类参数,总共使用了几个检查点的数据去训练。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以看到,通过引入基于模型的方法,学习一个泛化能力更强的环境特征提取器,极大地提高了元策略的表现,使离线元强化学习得以在样本受限的情况下仍然取得一个不错的性能。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文关注低数据情境下的离线元强化学习(OMRL),强调了环境表示学习与数据收集策略分离的重要性,并提出了对抗数据增强的实际解决方案;训练了转移模型和对抗性策略来增强离线数据集,以应对数据集受限的情况。希望这项研究能够激发对数据采样策略在元强化学习中的影响,以及OMRL测试基准标准化的进一步探索。Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考文献Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

[1]. Haoqi Yuan et al. obust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning. (ICML 22)Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

[2]. Lanqing Li et al. FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization. (ICLR 21)Rtc速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

21世纪经济报道记者 王俊 北京报道数字技术深深嵌入到人类生产生活各个环节,新技术不断迭代,随之带来治理方面的挑战。如何平衡数字经济发展与民生权益保障,考验着司法智慧。今年全国两 几乎所有成功的品牌,都有一句超级广告语。比如,高奢珠宝品牌戴尔比斯的“钻石恒久远,一颗永留传”;中国饮料龙头农夫山泉的“农夫山泉,有点甜”;凉茶领导者王老吉的“怕上火喝王老吉”;法国白兰地酒人头马XO 21世纪经济报道记者李德尚玉 实习生郝文琪 北京报道碳中和周报关注“双碳”领域的最新前沿动态,包括碳中和政策、地方动态、企业实践等。我们将通过精选每周碳中和领域的重大事件,并进 为进一步促进中外人员往来,中方决定扩大免签国家范围,对瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡6个国家持普通护照人员试行免签政策。 2024年3月14日至11月30日期间,上述国家持普通护照人员来华经商、旅游观光、 新华社北京3月7日电 中共中央政治局委员、外交部长王毅7日在两会记者会上谈及中俄关系。(直播 | 十四届全国人大二次会议举行外交主题记者会) 王毅表示,在习近平主席和普京总统的战略引领下,中俄新时代全面战略协作伙伴关 十四届全国人大二次会议召开记者会 新快报讯 十四届全国人大二次会议于3月6日下午在梅地亚中心新闻发布厅举行记者会,邀请国家发展和改革委员会主任郑栅洁、财政部部长蓝佛安、商务部部长王文涛、中国人民银行行长潘功 。

本文链接:南栖仙策提出新型环境特征编码器学习算法,有效提升环境识别的泛化能力http://www.sushuapos.com/show-1-4106-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 宇瞳光学获评“国家知识产权优势企业”

下一篇: 健合集团携合生元母婴救助基金斩获第十三届公益节双项大奖

热门资讯

推荐资讯

  • 咖啡色毛衣配什么色围巾?

    咖啡色毛衣配什么色围巾?咖啡色毛衣可以搭配多种颜色的围巾,以下是一些常见的搭配建议: 1.灰色围巾:灰色与咖啡色相近,搭配起来非常自然,同时也很百搭。 2.白色围巾:白色围巾可

  • 粉色西服搭配什么内搭好看?

    粉色西服搭配什么内搭好看?搭配粉色西服时,可以选择不同颜色和款式的内搭来打造出不同的风格。以下是一些搭配粉色西服的内搭建议: 白色衬衫:白色衬衫是搭配粉色西服的经典选

  • 蓝色针织帽怎么搭衣服?

    蓝色针织帽怎么搭衣服?蓝色针织帽是一种常见的冬季配饰,可以为整体造型增添亮点和时尚感。以下是一些建议的搭配方式: 基础款衣服搭配:可以选择基础款的衣服搭配蓝色针织帽,如

  • 黑色长款毛衣的时尚搭配法则,让你轻松穿出高级感

    黑色长款毛衣是冬季最常见的单品之一,它不仅保暖性能优越,而且十分百搭。但是,如何将其穿出高级感却是一门学问。今天,我将为大家分享一些黑色长款毛衣的搭配技巧,让你轻松晋升

  • 挠比基尼美女痒痒:探索夏日海滩的趣味瞬间

    随着夏日的来临,海滩成为人们度假休闲的热门去处。在海滩上,总会看到一些穿着比基尼的美女,她们或在沙滩上晒太阳,或在海中畅游,亦或在遮阳伞下聊天。而挠比基尼美女痒痒这个话

  • 浅蓝色配什么颜色好看

    浅蓝色配什么颜色好看?这是一个值得探讨的问题。在穿搭和配色领域,浅蓝色一直是一个备受欢迎的颜色,因为它既清新又百搭。那么,浅蓝色究竟配什么颜色好看呢?今天,我们来一起探

  • 揭开谜底!测试自己适合的穿衣风格,让你焕然一新

    穿着是一个人的门面,一个适合自己的穿衣风格能让人在生活中更加自信。但是,很多人在面对琳琅满目的服装时,会开始迷茫,不知道自己到底适合哪种风格。别担心,今天我将带你一起测

  • 服装店陈列颜色搭配技巧:打造令人叹为观止的视觉盛宴

    随着时尚潮流的不断更迭,服装行业的竞争日趋激烈。要想在众多服装店中脱颖而出,吸引消费者的眼球,除了拥有独特的款式设计外,合理的陈列颜色搭配也是至关重要的一环。今天,就让

  • 冬天卫衣怎么搭配外套?这三种方法让你时尚又保暖!

    随着气温骤降,冬天的脚步悄然而至。在这个寒冷的季节,如何将卫衣与外套搭配得时尚又保暖,成为了不少时尚达人关注的焦点。本文将为您介绍三种实用的卫衣搭配外套的方法,让您在

  • 四十岁女人穿什么衣服搭配显气质

    四十岁女人穿什么衣服搭配显气质?这是一个值得探讨的话题。女人到了四十岁,经历岁月的沉淀,更显得成熟、自信、优雅,因此穿衣搭配上也需要注重气质的展现。本文将为大家介绍

  • 96 年鼠女与 93 年鸡男姻缘婚配:解析最佳配对秘诀

    随着社会的发展,越来越多的人开始关注星座、生肖等命理学说,以便更好地了解自己的性格特点和命运趋势。在众多姻缘配对中,96 年鼠女与 93 年鸡男的结合一直是人们关注的焦点

  • 脖子短粗者适合佩戴什么样式的项链?这三种款式让你轻松化解尴尬

    面对脖子短粗的困扰,很多小伙伴不知道如何选择合适的项链来佩戴。本文将为你详细介绍三种适合脖子短粗者佩戴的项链款式,让你轻松化解尴尬,提升整体气质。一、总述项链作为首

  • 日榜
  • 周榜
  • 月榜