还记得年初火爆全网的AI视频生成模型Sora吗?最近,国产版Sora也来了!快手最近推出了一款名为「可灵」 的全新国产视频生成大模型,主打一个“发布即上线”,现在已经在快影APP中正式开启邀测了。
同时放出了一系列令人惊艳的视频Demo。这款模型不仅能生成长达2分钟的高清视频,还能模拟物理世界特性,其效果堪比Sora。
不止想象力,更懂物理规律
与其他视频生成模型不同的是,「可灵」不仅能生成天马行空的画面,更重要的是,它生成的视频还能符合真实的物理规律,即使是复杂、大幅度的运动也能准确刻画。
例如,在一段展示老虎奔跑的视频中,老虎的四肢动作协调,奔跑过程中躯干的抖动也清晰可见。
而在宇航员登月的视频中,宇航员的步态和影子的运动都相当自然,仿佛身临其境。
除了运动规律,「可灵」还能模拟真实世界的物理特性。例如,在一段倒牛奶的视频中,牛奶的流动、液面的上升,甚至是倒液体时产生的泡沫,都与现实世界别无二致。
更令人惊叹的是,「可灵」甚至考虑到了光学反射。在一只弹钢琴的猫的视频中,猫爪和琴键在光滑表面上的倒影,都随着本体同步变化,细节处理得非常到位。
相比之下,即使是Sora也难以完美模拟物理规律。例如,在Sora生成的吃汉堡视频中,人物的手指出现了错误,咬合位置和汉堡上的咬痕也不匹配。
2分钟高清视频,技术路线有何特别之处?
据了解,「可灵」采用了原生的文生视频技术路线,而非传统的图像生成+时序模块组合。这意味着「可灵」可以直接生成视频内容,而不必先生成图像再合成视频,这也正是它能够生成更长、更流畅视频的关键所在。
为了提升视频生成的效果,「可灵」在模型设计、数据保障、计算效率等方面都进行了技术创新。例如,为了提高运算效率,「可灵」没有采用行业主流的DDPM方案,而是选择了传输路径更短的flow模型作为扩散模型基座。
此外,快手大模型团队还构建了完备的标签体系,用于筛选高质量的训练数据,并研发了视频描述模型,可以生成精确、详尽的视频描述,从而提升模型的文本指令响应能力。
拒绝“画饼”,应用落地才是王道
与许多还处于demo阶段的AI模型不同,「可灵」一经发布就立即在快影APP中开启了邀测,并且快手还计划在近期推出基于「可灵」的图生视频功能。
事实上,快手在大模型领域早有布局,此前已经推出了语言模型和文生图模型,并将其应用于AI文案、AI生图等功能。此次「可灵」的发布,更是完善了快手在AI视频生成领域的布局。
作为短视频行业的领军者,快手拥有海量的用户数据和丰富的应用场景,这为「可灵」的落地应用提供了得天独厚的优势。我们期待「可灵」能够在快手的推动下,为用户带来更多更优质的AI视频创作体验,率先把视频生成能力在短视频场景中落地生花。
如果你对AI视频创作感兴趣,可以到快影APP中一探究竟。
传送门:http://kling.kuaishou.com/