“换个角度”往往是颠覆性创新的起点

发布时间: 2025-04-01 07:03:00 来源：科技日报

观看：132

3月29日，2025中关村论坛年会——第十四届吴文俊人工智能科学技术奖颁奖典礼将科技进步奖特等奖授予京东科技信息技术有限公司、中国科学技术大学等共同完成的“多模态交互式数字人关键技术及产业应用”项目。中国工程院院士、清华大学信息学院院长戴琼海在颁奖典礼上评价，获奖团队通过产学研合作推动数字人技术应用，为数字经济的发展树立了标杆。

“能打动评委的，或许不是形容数字人逼真度的一系列量化指标，而是真真切切呈现在他们面前的、让人一时真假难辨的数字人本身。”特等奖团队负责人、京东探索研究院院长何晓冬告诉科技日报记者，特等奖不是每年都有，要在一等奖的基础上再评审，只有得到绝大多数评委的认可才会被授予。

3年前，普通人要拥有一个和自己长得像、说话像的数字人几乎是不可能的，寥寥几位名主持人的数字分身表现也有些僵硬。如今，只需一张照片或很短的视频，人人都能借助京东言犀拥有“以假乱真”的数字分身。

换个角度攀登“珠峰”

在虚拟世界“克隆”一个自己，这曾经被认为是行业的一座“珠峰”。2020年，英伟达创始人黄仁勋带着自己的数字分身召开发布会，不到一分钟的“再现”背后，是几百个摄像头采集数据、最新的显卡处理数据以及各类计算资源的支撑。

“那时不到一分钟的数字分身‘仿真’可能需花费百万美元。”何晓冬解释，为了复刻得像，那时的技术逻辑是构建物理模型，把真实的三维世界的每个表面分割成大量很小的三角形，通过物理模型进行模拟，然后渲染面部表情，这样需要极大量的计算，且难以满足实时输出的要求。

现实世界的逼真再现要处理的数据量太大了，这似乎是一个迈不过去的“大山”。

研究团队没有选择“死磕”，而是逆向思维研究起信息的接收方——视网膜。

“人体的视网膜是二维的，我们之所以能感知这个世界，是因为二维的信息在大脑中重构出了三维。”何晓冬说，与其先复现一个刻板的三维世界，被视网膜“降维”再由大脑重构，不如直接把“降维”后的影像给视网膜。这样既解决了重构的数据量，又没有影响大脑的感知。

“换个角度解决问题”让团队找到了颠覆性创新的“更优解”。团队进一步打磨端到端（无需高颗粒度拆解）的再现技术，提升了二维的精度，做到让大脑“满意”。

在动作的再现上，团队利用“常识”进一步压缩计算量。“过去每个动作都要采集，然后再重现，事实上，人类动作大多是常规的，很少有人像蜘蛛侠一样行动。”何晓冬说，通过预建模将“先验知识”告知给AI，AI在进行动作创造时就会有“依据”，共同的动作有选择，个别的动作再采集，降低了处理量，也让动作更符合常理。

给多模态数据任命“领队”

“我们瞄准的不是做一个‘展示品’，而是要落地直播应用。”何晓冬说，直播要和观众互动几个小时，就要解决人工智能幻觉，声音、手势、表情等协调的问题，而人对人是最敏感的，哪怕眼珠转动与声音、仪态出现一点偏差也会被视为异常。

文生视频大模型Sora的产品是无声的，但想应用于直播就必须配上声音。一旦需要配音，虚拟人的声调、特有口音、是否与动作匹配等细节都可能露馅，这些使得多模态数据的联动成为必须解决的问题。

如何才能让数字人知道说话的时候什么时候该亢奋，什么时候该温柔呢？

“团队经过讨论决定用语音来驱动‘统领’表情、微动作等其他模态的信息。”何晓冬说，通过生成一个基础数字人，用视觉特征对其进行训练，让它学会什么时候该轻声细语、什么时候该声音激昂，声音跟它要播报的文字内容相匹配，然后再驱动多模态的协同配合，最终生成一个合乎常理的形象。

由于需要长时间播报，团队还对人工智能的幻觉问题进行了专门攻关，将人工智能的幻觉率降低到可接受范围内，让它在相当长的时间里保持逼真的拟人度和情绪。

在计算量降低、降本增效的基础上，京东言犀数字人实现了大规模商业化，已经服务9000多户商家、累计创造140亿元的经济价值，未来将在文旅、教育、政务等其他场景落地应用。

“我们还将推出来‘千人千面’的数字人。”何晓冬说，现在大家一场直播中看的内容是一样的，未来每个人根据喜好可以定制不同的数字人服务，在文旅表演等方面都能落地。

3月29日，2025中关村论坛年会——第十四届吴文俊人工智能科学技术奖颁奖典礼将科技进步奖特等奖授予京东科技信息技术有限公司、中国科学技术大学等共同完成的“多模态交互式数字人关键技术及产业应用”项目。中国工程院院士、清华大学信息学院院长戴琼海在颁奖典礼上评价，获奖团队通过产学研合作推动数字人技术应用，为数字经济的发展树立了标杆。

“能打动评委的，或许不是形容数字人逼真度的一系列量化指标，而是真真切切呈现在他们面前的、让人一时真假难辨的数字人本身。”特等奖团队负责人、京东探索研究院院长何晓冬告诉科技日报记者，特等奖不是每年都有，要在一等奖的基础上再评审，只有得到绝大多数评委的认可才会被授予。

3年前，普通人要拥有一个和自己长得像、说话像的数字人几乎是不可能的，寥寥几位名主持人的数字分身表现也有些僵硬。如今，只需一张照片或很短的视频，人人都能借助京东言犀拥有“以假乱真”的数字分身。

换个角度攀登“珠峰”

在虚拟世界“克隆”一个自己，这曾经被认为是行业的一座“珠峰”。2020年，英伟达创始人黄仁勋带着自己的数字分身召开发布会，不到一分钟的“再现”背后，是几百个摄像头采集数据、最新的显卡处理数据以及各类计算资源的支撑。

“那时不到一分钟的数字分身‘仿真’可能需花费百万美元。”何晓冬解释，为了复刻得像，那时的技术逻辑是构建物理模型，把真实的三维世界的每个表面分割成大量很小的三角形，通过物理模型进行模拟，然后渲染面部表情，这样需要极大量的计算，且难以满足实时输出的要求。

现实世界的逼真再现要处理的数据量太大了，这似乎是一个迈不过去的“大山”。

研究团队没有选择“死磕”，而是逆向思维研究起信息的接收方——视网膜。

“人体的视网膜是二维的，我们之所以能感知这个世界，是因为二维的信息在大脑中重构出了三维。”何晓冬说，与其先复现一个刻板的三维世界，被视网膜“降维”再由大脑重构，不如直接把“降维”后的影像给视网膜。这样既解决了重构的数据量，又没有影响大脑的感知。

“换个角度解决问题”让团队找到了颠覆性创新的“更优解”。团队进一步打磨端到端（无需高颗粒度拆解）的再现技术，提升了二维的精度，做到让大脑“满意”。

在动作的再现上，团队利用“常识”进一步压缩计算量。“过去每个动作都要采集，然后再重现，事实上，人类动作大多是常规的，很少有人像蜘蛛侠一样行动。”何晓冬说，通过预建模将“先验知识”告知给AI，AI在进行动作创造时就会有“依据”，共同的动作有选择，个别的动作再采集，降低了处理量，也让动作更符合常理。

给多模态数据任命“领队”

“我们瞄准的不是做一个‘展示品’，而是要落地直播应用。”何晓冬说，直播要和观众互动几个小时，就要解决人工智能幻觉，声音、手势、表情等协调的问题，而人对人是最敏感的，哪怕眼珠转动与声音、仪态出现一点偏差也会被视为异常。

文生视频大模型Sora的产品是无声的，但想应用于直播就必须配上声音。一旦需要配音，虚拟人的声调、特有口音、是否与动作匹配等细节都可能露馅，这些使得多模态数据的联动成为必须解决的问题。

如何才能让数字人知道说话的时候什么时候该亢奋，什么时候该温柔呢？

“团队经过讨论决定用语音来驱动‘统领’表情、微动作等其他模态的信息。”何晓冬说，通过生成一个基础数字人，用视觉特征对其进行训练，让它学会什么时候该轻声细语、什么时候该声音激昂，声音跟它要播报的文字内容相匹配，然后再驱动多模态的协同配合，最终生成一个合乎常理的形象。

由于需要长时间播报，团队还对人工智能的幻觉问题进行了专门攻关，将人工智能的幻觉率降低到可接受范围内，让它在相当长的时间里保持逼真的拟人度和情绪。

在计算量降低、降本增效的基础上，京东言犀数字人实现了大规模商业化，已经服务9000多户商家、累计创造140亿元的经济价值，未来将在文旅、教育、政务等其他场景落地应用。

“我们还将推出来‘千人千面’的数字人。”何晓冬说，现在大家一场直播中看的内容是一样的，未来每个人根据喜好可以定制不同的数字人服务，在文旅表演等方面都能落地。

3月18日，荣耀在国内市场发布全新AI使能的全场景战略，推出平台级AI赋能、以人为中心的跨操作系统体验，以及与全球产业链共振创新的一系列智能设备。荣耀CEO赵明表示，人工智能大模型时代，他们的AI战根据《天体物理学杂志》的最新报道，一个国际天文学家团队利用欧洲空间局的盖亚（Gaia）太空望远镜收集的数据，创建了迄今为止最庞大的三维宇宙地图。该地图涵盖了大约130万个活跃类星体的精确空间 3月15日，我国一些地区停止居民集中供热。初春时节，乍暖还寒。停暖初期昼夜温差较大，老人、儿童等身体较弱者，可能需要使用电暖气、电热毯等取暖设备，这导致部分家庭近来用电量增加。最近，一款名为南方财经全媒体记者马嘉璐广州报道如何划分一般数据、重要数据、核心数据终于有了国标版“参考答案”。3月21日，国家标准GB/T 43697-2024《数据安全技术数据分类分级规则》（以下简自2023年以来，人工智能的“触角”已延伸到生活的方方面面。其中，“人工智能+情感”的赛道正悄然崛起。目前，国内外已经出现了多款较为成熟的AI伴侣应用。不少网友在社交媒体上晒出了与自己“AI 据英国《自然》周刊网站3月19日报道，研究人员首次利用生成式人工智能（AI）制造出全新抗体。报道称，本周生物学预印本资料库中的一份预印本报告的原理验证研究，提高了将“AI指导的蛋白质设计引入治。

本文链接：“换个角度”往往是颠覆性创新的起点http://www.sushuapos.com/show-2-11605-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：新DNA显微镜“从内到外”绘制生命3D图

下一篇：感受生命科学“最”新成果的震撼

“换个角度”往往是颠覆性创新的起点

热门资讯

推荐资讯

科技最热文章