编辑 | 张洁
阿里终于杀入AI视频天生赛道!
9月19日云栖大会上,阿里CTO周靖人宣告通义万相全面升级。个中最大的亮点之一便是通义万相全自研AI视频天生大模型同时上线手机端和PC端,并且面向公众年夜众免费开放。
不用排队、也不用到处借号了,直接上岸通义万相官网或下载通义App即可体验。(干系链接已同步至文末)
颇有诚意的是,比较其他模型发布“先占位后迭代”的思路,阿里这次还一次性放出了两个创作入口:文生视频和图生视频。
看来是憋了个大的。
据官方先容,通义万相AI目前能够一键天生最长5秒、每秒30帧、720P分辨率的音画同步视频,并且在核心架构Diffusion+Transformer的加持下,支持繁芜与大幅度运动天生,对中式元素针对性优化了观点理解和天生能力,被第一波实测的网友和媒体誉为“更懂中国风”的大模型。
提示词:古风女孩,穿着古代衣饰,头发在空中轻灵的摆动
官方演示Demo
据“AI新榜”不雅观察,与以往发布的AI视频运用比较,通义万相是少见的能够同时天生视频和音频的运用。同赛道上别的产品每每单次只能天生视觉信息,须要通过后续的一套事情流添加配音或音效,才能制作出真正声画并茂的视频。
而这次,通义万相再次拉低了AI视频制作的门槛:天生的视频都自带声音,直接省去单独制作音效的环节。
更懂中式元素、利用更大略的通义万相在天生效果上表现如何?在竞争激烈的AI视频天生赛道上,通义万相的上风又在哪儿?“AI新榜”第一次韶光进行了一番实测。
一键直出音画同步视频,AI视频天生结束默片时期
通义万相PC端目前每天上岸送50个灵感值,支持约10条视频天生。而手机端App则开放了逐日不限次利用,量大管饱,因此我们这次实测选择在手机端App上进行。
测试分为文生视频和图生视频两个部分,紧张从人物运动、音效天生、模型善于风格、繁芜语义理解等方面动手进行评测。
1.文生视频
风景与动物运动类
提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。
提示词:由巨大绿树组成的神秘森林,树枝像无尽的藤蔓向四周蔓延,森林中的光芒从缝隙中洒落。
提示词:白色狼群在冰川峡谷中穿行,北风呼啸声,镜头跟随。
首轮我们就给通义万相上了上强度,投喂了一首以意境取胜流传千古的古诗给它,没想到末了天生的视频还真有两下子:诗中的紧张视觉要素一个不落,整体风格也相称有“中国味”,自动配上的音效也都符合画面哀求。
同首古诗让早前同样被认为善于国风元素的可灵天生的画面效果是这样的:
在这里我们利用的是仍支持一定数量免费天生的可灵1.0
此外,通义万相在处理写实类风景和动物腿部方面表现出色,音效天生也与画面高度契合。
要知道,AI视频天生在处理动物运动时,尤其是腿部动作方面非常随意马虎出错。虽然放在大屏幕上看,狼群移动还是存在残影等画面瑕疵,但在手机上不雅观看,效果已经足够令人惊喜。
国风人物
通义万相在天生古风人物上的表现可谓是惊艳。人物走路和转身的动作都十分流畅,画面风格也是满满江湖武侠气息,随视频天生的音效也很不错,仔细听彷佛还能听到人物的脚步声。不过提示词中的“一把长剑”直到视频末端才展现出来,这位“江湖侠客”末了的眼神也没能够聚焦在“镜头”上。
提示词:一个年轻洒脱的江湖侠客,身着传统的劲装,背负一把长剑,脸庞洒脱洒脱。背景是茂密的山林和古朴的酒肆,身旁放着一个酒葫芦,增长了自由和冒险的气氛。
另一个视频天生的效果也很不错,能够理解提示词中诸如“云鬓轻挽”等古风词汇,唯一不敷之处便是画面中人物拿的那把折扇“走着走着就散了”。
提示词:身着洒脱长裙的女子,云鬓轻挽,手持折扇,在古色古喷鼻香的园林中悠然溜达,眼神中透露出一丝淡淡的忧伤。
2.图生视频
任何一个新的AI视频工具都逃不过这张经典表情包测试:
但通义万相却“谢绝”了我们的“玩梗”约请,想着大概是图片人数过多,我们测试了几个有名的“单人”表情包。
盖茨比举杯但溘然瞬移到草地:
火车卧铺陶喆秒变草地陶喆:
黑人思考变草地闲步:
从视频天生的效果来看,除了存在人物不一致、动作奇怪等AI视频工具通病问题,通义万相的脑洞还是不错的,便是最终生成的结果彷佛是跟“草地”过不去了,同视频一起天生的声音也存在“高度同等性”——伴随着草地画面涌现的一阵鸟叫声。
为相识脱“草地困扰”,我们给这些图片加了一些大略的提示词。
提示词:人物吃薯条
提示词:人物将杯中酒一饮而尽
视频最终生成的效果有点“惨不忍睹”:我们想让陶喆老师吃点薯条,结果吃了块蛋糕,陶喆老师的面部表情也是天生得有点抽象;小李子这边轻微好一点,除了在“饮酒”这个动作时面部稍有变形,整体的面部同等程度还可以。
加了提示词之后视频的音效总算不是“鸟语花香”了,虽然仍有些突兀,但总体来看还是符合视频画面的。
阿里正式入局,新一轮大厂AI视频争夺赛打响
从综合表现来看,阿里通义万相在中式元素、繁芜语义理解等方面展现了其差异化上风,但也存在和其他模型一样的通病:天生的人物/动物运动不符合物理规则,须要多轮抽卡。
但好在的是,在AI视频抽卡率普遍较高确当下,在手机端利用通义万相AI视频模型还是免费管饱的,以是目前可以放心大胆进行测试和体验。
此外,或许由于功能刚上线,目前通义万相天生视频的速率还很慢。实测下来,每支视频天生韶光为10分30秒,系统最多许可同时提交3个视频在后台排队逐一进行天生。
音效天生方面虽同质化比较严重,但总体而言表现尚可。不过如果提示词包含的画面元素过多、或视频设定环境繁芜就随意马虎涌现视频内容与音频完备不干系的情形,乃至部分测试视频天生的音效可以说是“噪声”不为过。
经向官方证明,通义万相AI视频功能目前是自动天生声音的,无法通过干系操作关掉或是通过提示词取消音效。
可以说,音效天生的加入在特定类型上(尤其对视频质量哀求不高的用户来说)能简化视频制作流程,但一旦音频天生效果不佳则多少有些“多此一举”了。
从产品层面上来看,在手机端上和AI生视频在同一入口的是早前在海内引爆C端创作热潮的“全民舞王”(如今已整合为“全民舞台”)。
无论是“全民舞王”还是AI生视频功能,可以看到通义都致力于在产品层面上降落普通用户的利用门槛。
进入通义AI生视频功能界面,“热门创意”许可用户轻松一键丝滑做同款,“灵感扩写”则用于优化提示词,为普通用户供应利用灵感。
海内已有多家大厂在AI视频天生领域有所布局并推出了干系产品。除了早前海内外破圈的快手AI视频模型可灵已“产品化”落地运用外,还有字节跳动的即梦、百度的AI成片工具、腾讯的云端视频创作平台“腾讯智影”。
阿里早前凭借通义App里的“全民舞王”功能引爆了一波谈论,但仅单点的图生视频玩法并不敷以持续保持热度。
如今在可灵已经进化到1.5版本,各项功能如“去水印”“视频分辨率提升”“镜头掌握”已逐渐补齐,阿里通义才发布自研AI视频天生模型,看起来姗姗来迟,但在AI视频天生底层技能仍待进化的情形下,国产AI视频天生的头把交椅会鹿去世谁手还真不好说。