?Sora还没来，但腾讯版?Sora来了

栏目分类

你的位置：财新网 > 数据洞察 > ?Sora还没来，但腾讯版?Sora来了

发布日期：2024-12-04 12:25 点击次数：110

（原标题：?Sora还没来，但腾讯版?Sora来了）

距离OpenAI发布文生视频模子Sora已历程去了10个月，但于今Sora尚未对公众通达，仅面向少数专科东谈主士进行内测。

这10个月，也给了其他国表里头部模子厂商追逐的时机，外洋的Runway、Luma、Pika，国内的快手可灵、字节即梦、智谱清摄影继发布文生视频模子。

12月3日，腾讯混元大模子带着最新的文生视频功能来了，并开源视频生成大模子HunYuan-Video，该模子参数目达130亿，这是面前最大的视频开源模子。

当今，HunYuan-Video已向公众和企业通达试用央求。

腾讯混元有关崇敬东谈主告诉经济不雅察网，HunYuan-Vieo生成的单个视频最万古长为5秒，在圭臬款式下生成一个视频所需时间为120秒。

HunYuan-Vieo不仅能杀青文生视频模子的基础才调，比如生成画面合乎提醒词、流通、不易变形等，况兼具备一些特有的才调。尤其是，HunYuan-Vieo或者在保握画面主角不变的情况下，自动切换镜头，这是当今业界大部分文生视频模子不具备的才调。

为了达到这些特有的才调，腾讯混元进行了专项才调的微调，包括画质、高动态、艺术镜头、手写、转场和聚拢动作六个方面。

腾讯混元有关崇敬东谈主先容，在生成某个指定画面上，国表里文生视频模子当今的得手率皆不太高，用户需要屡次“抽卡”，才调取得一个惬意的画面。与相对老到的文生图比较，文生视频的才调还在比较早期阶段。

他进一步讲授原因，一方面是因为视频生成的门槛较高、手艺难度大。“文生图只需要一次出一张图，而文生视频，以HunYuan-Video为例，平均帧率为129帧/秒，每一帧画面皆要精确、流通，这其实相等难。”

另一方面，文生视频开源社区还不够慷慨。开源能促进模子的发展，关于孤苦拓荒者和开源社区是一个1+1强大于2的事。这亦然腾讯混元系列模子坚握开源的紧要原因。

比较之下，图像生成开源社区里照旧网罗了较多的孤苦拓荒者，他们依托开源模子，制作了丰富的插件、小模子等，部分也具有愚弄与生意价值。

开源是腾讯混元系列模子一以贯之的作念法。从岁首以来，腾讯照旧开源了文生文、文生图和3D生成大模子。这次HunYuan-Vieo开源背后的本钱或更高，腾讯混元有关崇敬东谈主示意，视频生成模子所需的算力和数据虚耗量，与图像生成模子之间具有指数级的差距。

据先容，HunYuan-Vieo首个版块主要有4大特点：一是画质偏写实，二是进行大幅度动作时仍具有流通性，三是或者领路复漫笔本以及进行多主体交互；四是接济原生转场，主体保握直出的同期多镜头切换。

这背后的手艺旨趣主要有4点：

一是建造一套超大边界数据处置系统，其中涵盖了图像和视频数据搀杂处置，以及笔墨检测、转景检测、好意思学打分、动作检测、动作打分、准确度检测、了了度检测等；

二是引入多模态大谈话模子算作文本编码器，能耕作文生视频模子对复漫笔本的领路才调；

三是遴荐自研的全小心力DiT（一种基于Transformer框架的扩散模子），在作念到更大参数的同期，也带来更高性能。这种全小心力机制师法了东谈主类小心力机制，在数据处置时只围聚于最有关的部分，忽略其他可见的信息，或者让文生视频模子保握主体一致的前提下，进行多镜头切换；

四是遴荐自研图像视频搀杂VAE（3D 变分编码器）耕作模子细节进展，重心优化东谈主脸占总画面的比例太小，以及高速镜头下东谈主脸敷衍、画面抖动等问题。

财新网