快手可灵,能成为中国Sora吗?

摘要:快手祭出文生视频模型的的王炸,产品型创新能让快手领先多少?

快手祭出文生视频模型的的王炸,产品型创新能让快手领先多少?

@科技新知 原创

作者丨樱木 编辑丨赛柯

“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”镜头前,猎豹移动董事长傅盛,难掩兴奋的表情。而他口中,能吊打国内外各个文生视频模型的产品,就是快手可灵视频生成大模型。

6月6日,快手发布AI视频模型,而就在发布当天,就有诸多如傅盛一样的业内人士,获得邀请码进行了第一波测试。从业内的反馈以及可灵生成的视频样本来看,快手可灵似乎与Sora已然非常相近,在第一版五秒中的视频中,业内反馈无论技术路线,和训练数据质量都较为突出。而更为令业内兴奋的是,快手可灵似乎做到了如Sora一般极度真实的还原物理规律,无论是运动的合理性,还是其他物理特性,甚至概念组合能力和想象力都表现得较为优秀。

但也有业内人士指出,Sora是今年2月公布的,其训练有可能在去年年底就完成了,可灵多出几个月的训练时间。更进一步来说,能调用更多的训练算力,是可灵的优势。

随后6月21日,可灵模型再次抛出新的功能,图生视频以及视频续写等功能上线,让产品功能更加丰富。

可灵的表现之所以从某种程度超出业内的预期,最为关键的是,在其公布之前,绝大部分AIGC从业者对其一无所知,快手的通用语言大模型快意,在国内大模型梯队中,作为新品上线暂无耀眼表现,知名度也没有投入了大量营销预算和研发成本的豆包、混元、文新一言、月之暗面等一众新老势力名气大。

就在这种情况之下,可灵的出现似乎打破了行业内的认知,从技术性到产品性的转化,也有了新的路径。但需要清醒的是,惊艳的产品距离能够广泛应用,以及成功的商业化,都有较大的距离,而快手能否依靠可灵完成超车,与同行拉开差距,此刻来看,还面临着不少的风险与挑战。

Part.1

剑走偏锋的快手

“可以说的是,可灵这个事情肯定是一个非常复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞在2024北京智源大会先后拒绝了几个关于可灵参数、性能的问题之后,给出了一个较为实际的回答。

在国内的AI赛道,能吸引C端目光的部分,其实相当有限,其中的焦点是,百模大战留下的各类语言大模型,月之暗面是个典型的代表,从默默无闻到估值达30亿美金,公司只用了不到1年时间,但从产品上来看,除了一款有长文本阅读能力的Kimi之外,C端对其感知并不明显。

而另一方面,资本和创业方似乎都非常纠结,以金沙江创投管理合伙人朱啸虎为代表的现实主义派,始终在保持一种相对悲观的态度。比如朱啸虎认为这一代大模型创业公司,面临比上一代商汤等AI公司更恶劣的处境:公司之间技术没有差异,每一代技术都要重新砸钱,且投资规模指数级上升。根据媒体报道,在OpenAI发发布GPT-4o后,朱啸虎在朋友圈的新判断是,“不是深度绑定大厂的模型公司基本已经出局”。

而正是在这种复杂的环境之下,产品的创业面临的困难就愈发之多。在商业化的要求之下,各大模型厂商先后加入了价格战,而即便估值已达30亿美元,Kimi也在从打赏等方式试图完成变现。

资本的小心翼翼,叠加大厂的FOMO“不愿错过”成了当下AI,创业的主基调,从这个视角来看,可灵的成功更加难能可贵。

在文生图赛道之中,有业内人士评论道,快手能拿出国内第一个令人惊艳的“准Sora”文生视频大模型,与平台深耕视频内容相关。但是抖音的视频数据更多、算力更强、在AI方面投入更大,为什么反而没拿出来类似量级的大模型?

而从摩根史丹利的研报中也可以看出,目前,可灵的表现要比抖音和腾讯过往发布的视频生成模型都更加优秀,从时长来看,可灵可以生成长达2分钟的视频,而抖音的即梦目前只支持生成最长3秒的视频、腾讯的混元大模型则能生成16秒。

归根到底,大模型本质上还是基础研发的交战,必须从基础研发层面下功夫。而字节跳动的策略是以应用端促进研发,整个字节跳动AIGC线条的人员非常混乱,真正的技术牛人不多,C端应用思维主导了整个AI平台的研发,这可能不是正确方向。

而从实践上来看,与其说可灵的产品是技术的领先,不如说快手,在这一赛道策略布局的成功。用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”

可灵的剑走偏锋,无疑给行业带来了全新的启示,但能否就此判断可灵在文生视频赛道与国内AI大厂差距已经拉开似乎还需要更多实践证据。

Part.2

能否成为下一个爆款?

尽管可灵已然做出了不少成绩,但想要成为AI赛道的下一个Killing APP,可灵要走的路也许还有很多。

首先,可灵想要大规模应用,尚需要时间。在最新的交互页面之中,申请可灵的人数已达41万+,据接近快手人士透露,可灵虽然已有超过10万+的使用者,但目前试用范围依旧无法完全匹配市场需求,即便是快手内部的人想试用都很困难。而另一方面,当下使用的结论,是基于内测视频得出,这也就意味着对于可灵的模型能力可能是高估的。

而与此同时,可灵对于行业内也是神秘的存在,正如快手视觉生成与互动中心负责人万鹏飞对于各项参数的讳莫如深,外界对于可灵使用了多少算力、算力来自哪里,有没有充足的推理算力可供大规模公测,也同样好奇。

在可灵一方,不知是否为了继续产品热度,先后推出了图片生成视频,以及视频续写等功能,但测试下来,整体效果较为平淡,生成时间的不稳定,以及差异化并不明显的效果,也意味着这些功能尚需要进一步优化。

而在行业最为关心的算力上,有从业者评估,快手同时从腾讯云和阿里云租用了大批“大卡”,而快手自身也有一批约为数千张的大卡,而根据多方消息猜测,可灵的训练算力来源应该是多元化的。

而在另一方面,根据多方信源估计,文生视频大模型生成一分钟1080P视频至少要消耗100万Token,推理算力需求远大于文生文,而在推理算力方面,L40采购难度较大,快手可能面临瓶颈,这也就意味着,快手可灵全面投入公测可能还是很遥远的事情。

在多个短视频平台,甚至诸多海外社交媒体,可灵几乎已经成了中国Sora的代名词,海外博主一码难求,国内测评博主声称,已达到了,免费、可用、可实操的阶段,但这样的结论,从目前来看,似乎还有不小的差距。

从某种程度来说,可灵是一款战略意义远大于实际意义的产品,技术的领先无可厚非,对于行业来说也有示范作用。但在真正意义上的广泛应用,似乎还需要很长的时间。

Part.3

老铁们的“新希望”?

在可灵对外的宣传之中,可灵的优势简单明晰,首先是真正可应用,其次是视频生成效果好。不仅可以能够生成大幅度的合理运动,能够模拟物理世界特性,而且,生成的视频分辨率高达1080p,最长可达2分钟(帧率30fps),允许用户自由调节视频的纵横比。

正是基于此,外界对于可灵商业化想象空间进一步打开,有业内人士总结,在媒体与广告行业,可灵可以用于快速生成广告宣传片、新闻报道等,不仅能大幅提升生产效率,还可以通过数据分析优化内容。同时,在教育与培训行业,可灵可以辅助教师制作教学视频,甚至生成虚拟的教学场景,为学生提供沉浸式的学习体验。另一方面,娱乐与社交媒体行业,对于社交平台和内容创作者而言,可灵提供的个性化视频生成工具将极大地丰富平台内容。

多家券商研究机构,也对可灵表示乐观,国泰君安互联网传媒研究表示,可灵大模型配套建设了高效的大规模自动化数据解决方案,覆盖了海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面,在国产视频生成大模型中居于前列。

但丰满的预期,在现实面前,似乎还有不小的差距。

根据接近快手人士透露,当下,可灵暂无商业化计划,也不对外提供API。这就意味着,从投资层面来看,可灵对于快手近几个季度的业绩并无太大贡献。而从快手近期在二级市场的表现来看,也可以印证,可灵似乎对于快手的帮助不大。

在快手视觉生成与互动中心负责人万鹏飞演讲中,在谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”

从此可以简单猜测,也许快手对于可灵的未来,更多的还是倾向于在自有生态中赋能更多的创作者,而从另一个视角来看,快手当下面临着不小的压力,无论是广告还是电商,增长都在经受住各个大厂的挑战。而可灵的出现,如果能如快手负责人所言,降低门槛,提升ROI,从而吸引更多的用户从消费者变成内容生产者,无疑吸引力巨大。

总结来看,可灵似乎让国内从业者以及更广泛受众看到快手在全新领域的努力和希望,但从全局来看,想要短期增加营收,也许需要更长的时间。