• 首页
  • 财新新闻
  • 财经深度
  • 数据洞察
  • 财新视听
  • 让建站和SEO变得简单

    让不懂建站的用户快速建站,让会建站的提高建站效率!

    你的位置:财新网 > 数据洞察 > ?Sora还没来,但腾讯版?Sora来了

    ?Sora还没来,但腾讯版?Sora来了

    发布日期:2024-12-04 12:25    点击次数:102

    (原标题:?Sora还没来,但腾讯版?Sora来了)

    距离OpenAI发布文生视频模子Sora已历程去了10个月,但于今Sora尚未对公众通达,仅面向少数专科东谈主士进行内测。

    这10个月,也给了其他国表里头部模子厂商追逐的时机,外洋的Runway、Luma、Pika,国内的快手可灵、字节即梦、智谱清摄影继发布文生视频模子。

    12月3日,腾讯混元大模子带着最新的文生视频功能来了,并开源视频生成大模子HunYuan-Video,该模子参数目达130亿,这是面前最大的视频开源模子。

    当今,HunYuan-Video已向公众和企业通达试用央求。

    腾讯混元有关崇敬东谈主告诉经济不雅察网,HunYuan-Vieo生成的单个视频最万古长为5秒,在圭臬款式下生成一个视频所需时间为120秒。

    HunYuan-Vieo不仅能杀青文生视频模子的基础才调,比如生成画面合乎提醒词、流通、不易变形等,况兼具备一些特有的才调。尤其是,HunYuan-Vieo或者在保握画面主角不变的情况下,自动切换镜头,这是当今业界大部分文生视频模子不具备的才调。

    为了达到这些特有的才调,腾讯混元进行了专项才调的微调,包括画质、高动态、艺术镜头、手写、转场和聚拢动作六个方面。

    腾讯混元有关崇敬东谈主先容,在生成某个指定画面上,国表里文生视频模子当今的得手率皆不太高,用户需要屡次“抽卡”,才调取得一个惬意的画面。与相对老到的文生图比较,文生视频的才调还在比较早期阶段。

    他进一步讲授原因,一方面是因为视频生成的门槛较高、手艺难度大。“文生图只需要一次出一张图,而文生视频,以HunYuan-Video为例,平均帧率为129帧/秒,每一帧画面皆要精确、流通,这其实相等难。”

    另一方面,文生视频开源社区还不够慷慨。开源能促进模子的发展,关于孤苦拓荒者和开源社区是一个1+1强大于2的事。这亦然腾讯混元系列模子坚握开源的紧要原因。

    比较之下,图像生成开源社区里照旧网罗了较多的孤苦拓荒者,他们依托开源模子,制作了丰富的插件、小模子等,部分也具有愚弄与生意价值。

    开源是腾讯混元系列模子一以贯之的作念法。从岁首以来,腾讯照旧开源了文生文、文生图和3D生成大模子。这次HunYuan-Vieo开源背后的本钱或更高,腾讯混元有关崇敬东谈主示意,视频生成模子所需的算力和数据虚耗量,与图像生成模子之间具有指数级的差距。

    据先容,HunYuan-Vieo首个版块主要有4大特点:一是画质偏写实,二是进行大幅度动作时仍具有流通性,三是或者领路复漫笔本以及进行多主体交互;四是接济原生转场,主体保握直出的同期多镜头切换。

    这背后的手艺旨趣主要有4点:

    一是建造一套超大边界数据处置系统,其中涵盖了图像和视频数据搀杂处置,以及笔墨检测、转景检测、好意思学打分、动作检测、动作打分、准确度检测、了了度检测等;

    二是引入多模态大谈话模子算作文本编码器,能耕作文生视频模子对复漫笔本的领路才调;

    三是遴荐自研的全小心力DiT(一种基于Transformer框架的扩散模子),在作念到更大参数的同期,也带来更高性能。这种全小心力机制师法了东谈主类小心力机制,在数据处置时只围聚于最有关的部分,忽略其他可见的信息,或者让文生视频模子保握主体一致的前提下,进行多镜头切换;

    四是遴荐自研图像视频搀杂VAE(3D 变分编码器)耕作模子细节进展,重心优化东谈主脸占总画面的比例太小,以及高速镜头下东谈主脸敷衍、画面抖动等问题。