设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

“换个角度”往往是颠覆性创新的起点

发布时间: 来源: 科技日报

3月29日,2025中关村论坛年会——第十四届吴文俊人工智能科学技术奖颁奖典礼将科技进步奖特等奖授予京东科技信息技术有限公司、中国科学技术大学等共同完成的“多模态交互式数字人关键技术及产业应用”项目。中国工程院院士、清华大学信息学院院长戴琼海在颁奖典礼上评价,获奖团队通过产学研合作推动数字人技术应用,为数字经济的发展树立了标杆。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“能打动评委的,或许不是形容数字人逼真度的一系列量化指标,而是真真切切呈现在他们面前的、让人一时真假难辨的数字人本身。”特等奖团队负责人、京东探索研究院院长何晓冬告诉科技日报记者,特等奖不是每年都有,要在一等奖的基础上再评审,只有得到绝大多数评委的认可才会被授予。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3年前,普通人要拥有一个和自己长得像、说话像的数字人几乎是不可能的,寥寥几位名主持人的数字分身表现也有些僵硬。如今,只需一张照片或很短的视频,人人都能借助京东言犀拥有“以假乱真”的数字分身。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

换个角度攀登“珠峰”ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在虚拟世界“克隆”一个自己,这曾经被认为是行业的一座“珠峰”。2020年,英伟达创始人黄仁勋带着自己的数字分身召开发布会,不到一分钟的“再现”背后,是几百个摄像头采集数据、最新的显卡处理数据以及各类计算资源的支撑。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“那时不到一分钟的数字分身‘仿真’可能需花费百万美元。”何晓冬解释,为了复刻得像,那时的技术逻辑是构建物理模型,把真实的三维世界的每个表面分割成大量很小的三角形,通过物理模型进行模拟,然后渲染面部表情,这样需要极大量的计算,且难以满足实时输出的要求。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现实世界的逼真再现要处理的数据量太大了,这似乎是一个迈不过去的“大山”。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究团队没有选择“死磕”,而是逆向思维研究起信息的接收方——视网膜。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“人体的视网膜是二维的,我们之所以能感知这个世界,是因为二维的信息在大脑中重构出了三维。”何晓冬说,与其先复现一个刻板的三维世界,被视网膜“降维”再由大脑重构,不如直接把“降维”后的影像给视网膜。这样既解决了重构的数据量,又没有影响大脑的感知。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“换个角度解决问题”让团队找到了颠覆性创新的“更优解”。团队进一步打磨端到端(无需高颗粒度拆解)的再现技术,提升了二维的精度,做到让大脑“满意”。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在动作的再现上,团队利用“常识”进一步压缩计算量。“过去每个动作都要采集,然后再重现,事实上,人类动作大多是常规的,很少有人像蜘蛛侠一样行动。”何晓冬说,通过预建模将“先验知识”告知给AI,AI在进行动作创造时就会有“依据”,共同的动作有选择,个别的动作再采集,降低了处理量,也让动作更符合常理。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

给多模态数据任命“领队”ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们瞄准的不是做一个‘展示品’,而是要落地直播应用。”何晓冬说,直播要和观众互动几个小时,就要解决人工智能幻觉,声音、手势、表情等协调的问题,而人对人是最敏感的,哪怕眼珠转动与声音、仪态出现一点偏差也会被视为异常。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

文生视频大模型Sora的产品是无声的,但想应用于直播就必须配上声音。一旦需要配音,虚拟人的声调、特有口音、是否与动作匹配等细节都可能露馅,这些使得多模态数据的联动成为必须解决的问题。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何才能让数字人知道说话的时候什么时候该亢奋,什么时候该温柔呢?ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“团队经过讨论决定用语音来驱动‘统领’表情、微动作等其他模态的信息。”何晓冬说,通过生成一个基础数字人,用视觉特征对其进行训练,让它学会什么时候该轻声细语、什么时候该声音激昂,声音跟它要播报的文字内容相匹配,然后再驱动多模态的协同配合,最终生成一个合乎常理的形象。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由于需要长时间播报,团队还对人工智能的幻觉问题进行了专门攻关,将人工智能的幻觉率降低到可接受范围内,让它在相当长的时间里保持逼真的拟人度和情绪。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在计算量降低、降本增效的基础上,京东言犀数字人实现了大规模商业化,已经服务9000多户商家、累计创造140亿元的经济价值,未来将在文旅、教育、政务等其他场景落地应用。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还将推出来‘千人千面’的数字人。”何晓冬说,现在大家一场直播中看的内容是一样的,未来每个人根据喜好可以定制不同的数字人服务,在文旅表演等方面都能落地。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月29日,2025中关村论坛年会——第十四届吴文俊人工智能科学技术奖颁奖典礼将科技进步奖特等奖授予京东科技信息技术有限公司、中国科学技术大学等共同完成的“多模态交互式数字人关键技术及产业应用”项目。中国工程院院士、清华大学信息学院院长戴琼海在颁奖典礼上评价,获奖团队通过产学研合作推动数字人技术应用,为数字经济的发展树立了标杆。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“能打动评委的,或许不是形容数字人逼真度的一系列量化指标,而是真真切切呈现在他们面前的、让人一时真假难辨的数字人本身。”特等奖团队负责人、京东探索研究院院长何晓冬告诉科技日报记者,特等奖不是每年都有,要在一等奖的基础上再评审,只有得到绝大多数评委的认可才会被授予。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3年前,普通人要拥有一个和自己长得像、说话像的数字人几乎是不可能的,寥寥几位名主持人的数字分身表现也有些僵硬。如今,只需一张照片或很短的视频,人人都能借助京东言犀拥有“以假乱真”的数字分身。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

换个角度攀登“珠峰”ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在虚拟世界“克隆”一个自己,这曾经被认为是行业的一座“珠峰”。2020年,英伟达创始人黄仁勋带着自己的数字分身召开发布会,不到一分钟的“再现”背后,是几百个摄像头采集数据、最新的显卡处理数据以及各类计算资源的支撑。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“那时不到一分钟的数字分身‘仿真’可能需花费百万美元。”何晓冬解释,为了复刻得像,那时的技术逻辑是构建物理模型,把真实的三维世界的每个表面分割成大量很小的三角形,通过物理模型进行模拟,然后渲染面部表情,这样需要极大量的计算,且难以满足实时输出的要求。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现实世界的逼真再现要处理的数据量太大了,这似乎是一个迈不过去的“大山”。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究团队没有选择“死磕”,而是逆向思维研究起信息的接收方——视网膜。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“人体的视网膜是二维的,我们之所以能感知这个世界,是因为二维的信息在大脑中重构出了三维。”何晓冬说,与其先复现一个刻板的三维世界,被视网膜“降维”再由大脑重构,不如直接把“降维”后的影像给视网膜。这样既解决了重构的数据量,又没有影响大脑的感知。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“换个角度解决问题”让团队找到了颠覆性创新的“更优解”。团队进一步打磨端到端(无需高颗粒度拆解)的再现技术,提升了二维的精度,做到让大脑“满意”。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在动作的再现上,团队利用“常识”进一步压缩计算量。“过去每个动作都要采集,然后再重现,事实上,人类动作大多是常规的,很少有人像蜘蛛侠一样行动。”何晓冬说,通过预建模将“先验知识”告知给AI,AI在进行动作创造时就会有“依据”,共同的动作有选择,个别的动作再采集,降低了处理量,也让动作更符合常理。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

给多模态数据任命“领队”ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们瞄准的不是做一个‘展示品’,而是要落地直播应用。”何晓冬说,直播要和观众互动几个小时,就要解决人工智能幻觉,声音、手势、表情等协调的问题,而人对人是最敏感的,哪怕眼珠转动与声音、仪态出现一点偏差也会被视为异常。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

文生视频大模型Sora的产品是无声的,但想应用于直播就必须配上声音。一旦需要配音,虚拟人的声调、特有口音、是否与动作匹配等细节都可能露馅,这些使得多模态数据的联动成为必须解决的问题。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何才能让数字人知道说话的时候什么时候该亢奋,什么时候该温柔呢?ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“团队经过讨论决定用语音来驱动‘统领’表情、微动作等其他模态的信息。”何晓冬说,通过生成一个基础数字人,用视觉特征对其进行训练,让它学会什么时候该轻声细语、什么时候该声音激昂,声音跟它要播报的文字内容相匹配,然后再驱动多模态的协同配合,最终生成一个合乎常理的形象。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由于需要长时间播报,团队还对人工智能的幻觉问题进行了专门攻关,将人工智能的幻觉率降低到可接受范围内,让它在相当长的时间里保持逼真的拟人度和情绪。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在计算量降低、降本增效的基础上,京东言犀数字人实现了大规模商业化,已经服务9000多户商家、累计创造140亿元的经济价值,未来将在文旅、教育、政务等其他场景落地应用。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还将推出来‘千人千面’的数字人。”何晓冬说,现在大家一场直播中看的内容是一样的,未来每个人根据喜好可以定制不同的数字人服务,在文旅表演等方面都能落地。ApH速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是新质生产力发展的“新引擎”,也是产业和消费 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验 2024年2月,OpenAI公司推出了文生视频人工智能(AI)模型Sora。OpenAI展示了Sora利用少量简短文字提示即可创建逼真视频的能力,并提供了包括一位女士在闪烁着霓虹灯的东京街道漫步,以及一只狗在两个 中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和区域百米级尺度数值预报的精度,显著减小全球 3月24日消息,今日一则#男孩捡17岁女生电话归还反被讹200#的话题登上微博热搜,引发网民热议。据报道,3月23日,山西长治。郭女士父亲捡到一台iPhone电话,归还时机主反称电话后壳里的200元现金不见了。郭 近日,民航华东地区管理局向峰飞科技公司颁发V2000CG无人驾驶航空器系统型号合格证,这也是中国民航系统颁发的首个无人驾驶吨级电动垂直起降航空器型号合格证。航空器型号合格证取证是保障航空 。

本文链接:“换个角度”往往是颠覆性创新的起点http://www.sushuapos.com/show-2-11605-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 新DNA显微镜“从内到外”绘制生命3D图

下一篇: 感受生命科学“最”新成果的震撼

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜