中国自研“智象视觉大模型” 将生命力注入你的故事

发布时间: 2024-03-18 14:51:52 来源：

观看：384

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

3月18日，荣耀在国内市场发布全新AI使能的全场景战略，推出平台级AI赋能、以人为中心的跨操作系统体验，以及与全球产业链共振创新的一系列智能设备。荣耀CEO赵明表示，人工智能大模型时代，他们的AI战据埃菲社报道，多发性骨髓瘤是成年人中继淋巴瘤之后第二常见的血液肿瘤。最近，西班牙的一个科研团队开发出了一种新的免疫疗法来对抗它。实验室实验表明，这种新疗法比目前优先使用的免疫疗法更有从手机到手表再到电动汽车，锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加，越来越多的锂可能会进入环境。研究人员在美国化学会2024年春季会议上展示的一项研究成果，描述了英伟达的GPU又升级了。3月19日，英伟达CEO黄仁勋发布了最新的B200算力芯片GPU，FP8精度下的训练性能是上一代的2.5倍，FP4精度下的推理性能更是达到了上一代的5倍。然而，这场技术狂欢背后，却令AI领域随着量子技术的发展，利用量子特性突破传统测量技术极限的新一代精密测量技术——量子测量开始得到应用。记者从中国计量科学研究院获悉，由该院牵头编制的《量子测量术语》《量子精密作为月之暗面的创始人，杨植麟常把他的AGI梦想形容为“登月计划”，长文本就是这个伟大计划的第一步。但现在，随着Kimi的爆火出圈，赛道瞬间变得拥挤，24小时内，阿里、360、百度紧急“出手”，纷。

本文链接：中国自研“智象视觉大模型” 将生命力注入你的故事http://www.sushuapos.com/show-2-3922-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：工业互联网“身份证”体系由建到用

下一篇：吴琦：“AI会导致电力短缺”言论是杞人忧天吗？

中国自研“智象视觉大模型” 将生命力注入你的故事

热门资讯

推荐资讯

科技最热文章