摘要:①各家公司都在研发或阶段性地上限多模态模型及其应用。业内人士也表示,多模态将AI大模型的新一轮革命,同时也是未来人工智能应用的主要形式; ②视频生成大模型及应用由于数据、算力等多方面原因,导致效果并没有大家期待的那么完美,对公司业务会产生多大影响目前也无法量化。
《科创板日报》2月19日讯(记者 黄修眉) OpenAI再次以大模型Sora引爆全球。A股龙年开市第一天,包括当虹科技、博汇科技、万兴科技、因赛集团在内涉及文生视频的上市公司股价也受此提振,均强势涨停。
针对上述公司在多模态模型与AIGC方面的布局与现状,《科创板日报》记者以投资者身份致电上述公司董秘办。
整体来看,各家公司都在紧锣密鼓地研发或阶段性地发布多模态大模型及其落地应用。业内人士也表示,多模态将AI大模型的新一轮革命,同时也是未来人工智能应用的主要形式。
集合式系统赋能多领域
当虹科技此前在互动平台表示,该公司拥有自研的AIGC工具集,于2023年上半年发布了以静态照片生成三维体积视频的方案,支持6DOF(六自由度)视角自由移动,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。
当虹科技董秘办人士向记者表示,“上述提到的工具集拥有文生图、图生视频、文生视频等多种技术与功能,集合在公司研发的AIGC视频内容智能生成系统上,该系统融合了大模型技术,能够将多种媒介内容,如文本、图片、音频、视频等,高效智能地转化为高品质的视频内容,但并不是可以下载的APP形式。”
“公司也正在研发与AI相关的其他多模态系统,目前正在进行优化与调试。”上述董秘办人士称,“从技术底座来看没有太大问题,都在进行之中,但具体到产品的形式甚至发布时间等,目前无法确定。”
对于“公司多模态AI领域是否有自己核心技术活产品布局”的问题,博汇科技证代办人士向《科创板日报》记者表示,该公司的多模态处理技术主要应用于传媒安全领域,以AI多模态识别引擎为支撑,通过运用人工智能、大数据等技术,提升对文本、图片、音频、视频等多类型数据的处理分析能力。
《科创板日报》记者注意到,博汇科技拥有以视听大数据采集技术、分析技术、可视化技术三大核心技术为轴心的视听数据处理技术群,在公司所涉及的领域,特别是在对视听数据处理要求极高的广播电视领域得到了广泛应用。
对于“公司是否有研发C端客户应用”的问题,当虹科技则表示该公司存在相关研发和应用,但其主业以赋能政务和企业为主。博汇科技则表示,该公司目前暂未针对C端客户进行应用研发。
“从科创板的定位和对上市公司的要求来看,科创板聚焦AIGC业务的公司不太可能只涉及或者以C端业务为主。有长期关注人工智能及其应用的业内分析师向《科创板日报》记者表示,“他们更多是以大模型、大数据为基础,研发国产化的文、图、音频、视频集成系统赋能各个行业,特别是涉及到信息数据安全的领域。”
值得一提的是,博汇科技2023年11月在互动平台表示,已完成全国产化双引擎分布式系统及桌面型国产化视频处理平台的研发。
AI内容生成应用受关注
除上述科创板公司业务涉及多模态模型外,万兴科技与因赛集团也因旗下消费级应用产品受到投资者关注。
需要一提的是,当虹科技、博汇科技聚焦视频/视听相关技术,集合多种技术与产品,赋能传媒、教育、安防、汽车等行业,客户以政务与企业为主;万兴科技与因赛集团除提供上述两端解决方案外,同时也开发了多款针对C端用户的APP/小程序。
2024年1月30日,万兴科技正式发布国内首个音视频大模型万兴“天幕”。这是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。
万兴天幕多媒体大模型AI创作《江湖恩仇录》 图源:公司官方公众号
万兴科技董秘办人士向记者表示,该公司旗下视频创意产品万兴喵影/Filmora可用于各类视频的创作和剪辑,万兴录演/Demo Creator可用于演示视频的录制与编辑等。
根据天幕大模型发布会数据,2023年8月至12月,万兴喵影使用AI功能的用户数上涨243%;2022年1月至2023年1月,万兴播爆活跃用户数提升700%。
对于视频生成大模型,万兴科技董事长吴太兵此前公开表示,大模型正在从图文1.0时代进入到以音视频多媒体为载体的2.0时代。
而对于因赛集团是否有类似Sora的产品,万兴科技董秘办人士向《科创板日报》记者表示,该公司AIGC项目团队将在三月进行文生视频功能的开发,等待时机成熟后投入公测。
关于InsightGPT的进展,因赛集团2024年1月接受投资者调研时披露,InsightGPT内测版已于近期开放视频智能剪辑功能供合作伙伴、投资机构、券商分析师等进行试用体验。
预计2024年2月底前,开放体验图生视频相关营销应用产品;预计2024年3月底前,开发实现文生视频功能,之后推出公测版正式启动商业化。
AI大模型的新一轮革命
《科创板日报》记者注意到,从最终呈现的形式看,相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,更符合人类接收、处理和表达信息的方式,也更能够成为人类智能助手。
目前谷歌已推出多模态大模型Gemini 1.5 Pro;Meta已陆续开源ImageBind、AnyMAL等多模态大模型;OpenAI近期密集剧透GPT-5,重点突破语音输入和输入、图像输出以及最终的视频输入方向,或将实现真正多模态。
华福证券研究所计算机团队分析师施晓俊2月18日发文认为,多模态是AI大模型的新一轮革命。多模态提升大模型泛化能力,多元信息环境下实现“多专多能”,在垂直领域具有广阔的应用场景和市场价值,施晓俊称。
图源:华福证券研报
《科创板日报》记者注意到,相比较文本生成,视频生成大模型以及应用由于数据、算力等多方面原因,导致目前产品数量较少。
网络上,谷歌Gemini与Sora进行对抗训练的视频,也能让人发现Sora生成的部分场景存在疑似不符基本常识的情况,效果似乎并不完美。
整体来看,多模态模型对行业会带来怎样变化暂未可知。对上述上市公司业务的后续发展,《科创板日报》记者将持续关注报道。