设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

从Sora到Suno,解锁多模态大模型的可能性

发布时间: 来源:

21世纪经济报道记者 董静怡 上海报道NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

像年初的Sora一样,这次AI的颠覆性影响传入了音乐圈。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,AI音乐生成软件Suno发布V3版本,仅需要简单的描述,就可以生成2min长度、广播质量级别的音乐。正如Suno官网所显示:“无论您是歌手还是排行榜艺术家,我们都会打破您与您梦想创作的歌曲之间的障碍。不需要任何工具,只需要想象力。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这为普通人打开了音乐制作的大门。在社交媒体上,众多网友参与讨论,并晒出通过Suno制作的曲目,这些可以称得上完整且好听的音乐作品令音乐圈内外人感到颇为震撼,当然,更震撼的还是AI生成能力的迭代速度。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在文生文模型的热度逐渐平息之时,文生图、音频、视频等多模态大模型开始了一轮又一轮的进化。华泰证券的一份研报显示,海外大模型迭代重视多模态能力拓展,相较于早期图像、音频、视频模型,基础模型能力显著提升。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“大语言模型为AI产业带来新的生机,然而语言模型的应用场景有限。要全面打开生成式AI的想象力,还是要依托多模态大模型。”IDC中国研究总监卢言霞向21世纪经济报道记者表示。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她曾预测,未来5年,生成式AI生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。而这其中,与图像文件相关的数据量可能是文本文件的100倍,视频文件是图像文件的10倍。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当见识过这些模型的能力后,生成式AI的想象空间已经被全面打开。尽管目前很多应用尚未正式对外开放使用,也无法了解到更多技术细节,但可以确定的是,这一波技术迭代将为AI行业参与者带来可观的机遇。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

音乐圈的ChatGPT时刻

曾有业内专家认为,考虑到成品的复杂性,可能需要数年时间才能出现一种通过简单的文本描述制作歌曲的工具。但位于马萨诸塞州剑桥市的一家成立两年的初创公司Suno已经成功实现了这一目标。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,Suno V3音乐生成模型发布,面向所有用户开放。Suno通过其先进的AI算法,能够理解和分析用户的输入,然后生成与之相匹配的音乐。这意味着用户只需要提供一些简短的歌词或者描述,Suno就能根据这些信息创作出一首歌曲。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着新版本的推出,Suno还引入了AI音乐水印系统,每段由平台生成的音乐都添加了人声无法识别的水印,旨在保护用户的创作,防止抄袭和滥用。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“相比起之前的版本,或是此前其他AI生成音乐的工具,V3生成的曲目是令人惊艳的。”有音乐博主在社交媒体上发出赞叹,“它已经不再是一小段不成熟的东西,而是有歌词、前奏、间奏、副歌的完整歌曲。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在V3版本中,音质、咬字和节奏编排上都有了显著提升,是Suno AI首次能够生产出广播质量的音乐的模型,它能够在几秒钟内创作出完整的两分钟歌曲,就在半年前,这个时长还仅有30秒。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了激发人们的创作灵感,Suno V3还增加了更多音乐风格和流派的选项,包括古典音乐、爵士乐、Hiphop、电子等新潮曲风。同时,V3版本对于用户输入的提示词,理解和响应更加准确,减少了“幻觉”现象,使得歌曲的结尾更加自然和高质量。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我认为完成度很高,在乐器编排、风格把控、歌词与旋律的匹配度等等方面都做得不错,甚至还有乐器solo。”某独立乐队成员向21世纪经济报道记者表示,“尤其对没有专业制作班底的独立乐队而言,提供了很好的编曲灵感。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

官方宣称,不少知名的艺术家已经在使用Suno,但其核心用户群依然还是没有任何音乐制作经验的普通人。在互联网上,越来越多的网友晒出了自己通过Suno生成的作品,其中不乏中文歌曲,如基于古诗词的古韵歌曲《水调歌头(明月几时有)》、中文硬摇滚《We Go!》,甚至还有以菜谱作为歌词的《宫保鸡丁》等。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“这与AI绘画给人的感觉是类似的,”有使用者向记者表示,“做不到特别好,但可以达到平均水平,甚至要更高。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对于其应用场景,业内普遍认为,作为广告、短视频等背景音乐的“功能性音乐”,Suno生成的音频有着很大的应用前景,再往前发展,个性化定制音乐也会成为一种普遍的现象。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,谈AI替代人力还是为时过早。上述独立乐队乐手向记者表示,作品虽然有完成度,但结构呆板,编排还是粗糙的、模块化的,对于主流的音乐产业还构不成威胁,“它确实降低了音乐制作的门槛,但还远没有突破其天花板。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Suno官方则表示,目前Suno模型仍处于早期阶段,未来还将沿着质量、可控和速度方向进行改进,并透露V4已经在开发中。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态仍在发展初期

事实上,去年下半年以来,由各类多模态大模型生成的作品已经一次又一次带来令人惊艳的效果,AI生成语音、图片、视频的进程似乎比预想中走得更快。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年年底,谷歌上线了文生图模型Imagen 2,在图像的真实性和语言理解的深度上取得了前所未有的成就,能够生成高度逼真且与文本提示一致的高分辨率图像,尤其在处理复杂细节如皮肤质感和头发方面表现出色,被称为DALL•E 3和Midjourney的最强竞品。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

年初,OpenAI的Sora模型带来更大的震撼,它能够根据文本描述生成长达60秒的视频,在此之前,同类产品生成的时长只有几秒钟。同时,它还具有精细复杂的场景、生动的角色表情以及复杂的镜头运动,使得Sora生成的视频在视觉效果上更为连贯和逼真,与之前AI视频生成模型产生的抖动和失真的视频效果形成了鲜明对比。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再加上近期Suno的火爆,各个领域都在迎来自己的ChatGPT时刻。业内人士认为,这类多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,既可以提高生产速度又可以提高生产数量,还可以创造全新的视听感受,能够帮助企业真正实现降本增效、提升用户体验。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从更长远的角度来看,多模态最接近于人对自然界的感知,智谱AI CEO张鹏在此前接受21世纪经济报道记者采访时表示,多模态是走向通用人工智能(AGI)的起点。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“人大脑一定是各种感官融合到一起的,所以人的智力一定是多模态的。”张鹏向记者表示,“多模态不仅是文到图、图到文这么一件事情,它更多的是探究人的认知能力和各种感官之间的相互作用。”NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

东方证券的一份研报指出,多模态大模型一方面有利于形成图片、视频等更加生动活泼、更具交互性的应用,从而有助于C端爆款的诞生;另一方面,多模态大模型能真正打通物理世界和数字世界的障壁,实现与物理世界最自然的交互,从而对自动驾驶、人形机器人等具身智能领域的突破提供有力支撑。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但从技术角度来看,多模态大模型仍面临着多重挑战。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态模型的技术难度主要在于如何有效地整合和处理不同类型的数据,图像、视觉和音频等领域的数据具有更高的维度和更复杂的结构。“与NLP相比,图像、视觉、音频的数据量更大,对算力的要求也更高,计算的速度、性能要求都会更高。”卢言霞向21世纪经济报道记者表示。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她认为,尽管在NLP领域取得了一定的进展,但在图像、视觉和音频等其他模态上,大模型的发展仍然处于起步阶段。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“很多应用表面上看上去惊艳,但是如果我们按需按场景去使用,能满足需求的时候仍是少数。”卢言霞向记者表示,真正的成熟需要至少多个场景都能有效使用,目前很明显达不到这一点。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而人们对于多模态大模型的期望显然不只限于单一的非文本模态。未来的多模态模型可能会朝着更加集成和协同的方向发展,不仅能够处理单一模态的数据,还能够在多个模态之间进行有效的信息融合和转换。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但当前一体化多模态大模型仍存在局限。复旦大学计算机科学技术学院教授邱锡鹏向21世纪经济报道记者表示,目前的多模态大模型通常以语言模型为中心,通过将其他模态的数据映射到语言模型的语义空间中来实现多模态理解,生成时则需要调用外部的插件或系统。这限制了模型的应用场景和灵活性。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他认为,新一代大模型的交互将实现任意模态到任意模态的内生转化,这将与更多实际生活场景相结合,赋能应用场景和生产力变革。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前来看,多模态整体的研究框架仍是非常开放的,它并没有一个非常清晰的、收敛的路线,这对于开发者而言是巨大的挑战,但与此同时,也意味着很多的可能性。NQM速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为“大规模氢电一体化站关键技术、核心装备及 未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足球比赛中预测角球结果并提供实际且准确的战 3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基础销售额同比增长1%;调整后营业利润5.73亿,同 3月23日消息,荣耀Magic6 RSR 保时捷设计于3月22日正式开售,售价为9999元。该款电话首销当天即被抢购一空,荣耀商城显示,下一轮销售时间将是3月29日上午10:08。荣耀总裁赵明在微博上表示,荣耀Magic6 RS 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 。

本文链接:从Sora到Suno,解锁多模态大模型的可能性http://www.sushuapos.com/show-2-4266-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 详解地平线招股书:重研发、高增长,现金流健康

下一篇: 5000人的飞书裁员20%,字节跳动“瘦身”追AI

热门资讯

  • 未来,政企深度用云需要一朵怎样的“云”?

    随着历史的车轮驶入2024年,大模型、AIGC等话题引发广泛热议,云计算与AI技术展现出了前所未有的深度融合趋势,就如同寒武纪的生物大爆发,激发着各行各业

  • “桃花癫”是种病,得治

    民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 我国建立“天-空-地-深”一体化铀矿勘查技术体系

    记者3月21日从核工业北京地质研究院(以下简称核地研院)获悉,该院自1959年成立以来,在天然铀保障、高放废物地质处置、核遥感技术与应用、分析测试等领

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 世界睡眠日:别让你的良好睡眠被手机夺走

    再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • 银鲳高质量染色体水平 参考基因组发布

    3月19日,记者从中国科学院海洋研究所了解到,该所研究团队在国际上首次发布了银鲳的高质量染色体水平参考基因组。相关研究论文近日在线发表于《自然

  • 【科技强国有我】让青年科技人才敢坐“冷板凳”

    习近平总书记在中共中央政治局第三次集体学习时强调,要加强科研学风作风建设,引导科技人员摒弃浮夸、祛除浮躁,坐住坐稳“冷板凳”。甘坐“冷板凳”是

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 全球变暖跟哪些因素有关?IPCC是什么?一文了解

    今天(23日)是第64个世界气象日,今年世界气象日的主题是“气候行动最前线”。地球是人类赖以生存和发展的家园,气候变化给人类造成的影响广泛而深远,关乎

推荐资讯

  • 日榜
  • 周榜
  • 月榜