近期,AI作图技术突飞猛进,前有谷歌Nano-Banana,后有即梦4.0,看上去AI内容生产欣欣向荣,实际落地却差强人意。
这不,上周末我有个朋友来找我,说想用AI做个MTV案例,看看有哪些数字人工具?
帮他找了一些,一起捯饬了几天,heygen,硅基智能、即创、VEO3、即梦、可灵、纳米AI、飞影、硅语、蝉镜、剪映、Dreamface、魔镜…
产品一大串,实测狗发现,做MTV场景下,好用的却不多
功能受限、生成视频时间短、嘴型对不上,动作别扭、输出分辨率低…问题多多
一些大神做的MTV看上去不错,和他们私下交流,他们透露了心声,成功的作品。现阶段背后往往是无数次的“抽卡”尝试和长时间的后期处理;还有号称AI制作的头部数字人视频号,几十个视频看下来,全是取巧,一头一尾用数字人对嘴型,合计不到10秒,中间全是传统视频,名不副实
不过现在好的地方是流程跑通了,下一步就是工具优化了
接下来,我将带大家用AI工具链尝试制作一个数字人唱歌的MTV。
核心工具链条其实很简单:
谷歌 imagen4 负责形象设计和生图
可灵完成默声视频
Mureka 克隆音乐
可灵、即梦、dreamface 实现音乐对口型视频
第一步,形象设计
先用AI生图。你可以自己写绘图提示词,也可以让 AI 代劳
在《AI 做美女 DJ》,利用 gemini /kimi 反推图片,得到了美女 DJ 提示词
我们把它发送给 GPT5 或任何 AI,提示“改为录音棚正在录歌的女歌手,其他不变”
GPT5 立马给出一段极具画面感的描述提示词:
“A recording studio scene featuring a young Asian female singer deeply engrossed in singing. She wears professional studio headphones, with her eyes closed, conveying emotion as she records into a high-quality microphone. She is dressed in a dazzling rainbow low V-neck dress, accentuating her stage presence. The background includes a modern recording booth setup, with acoustic foam panels and strategically placed audio equipment, capturing the essence of a professional studio environment.”
“一幅录音棚场景的画面,展示一位年轻的亚洲女歌手深情投入地唱歌。她戴着专业录音棚耳机,闭着眼睛表达情感,对着高品质麦克风录音。她身穿耀眼的彩虹低 V 领连衣裙,突显她的舞台气质。背景是现代化录音棚设置,有吸音泡沫板和策略性摆放的音频设备,展现了专业的录音环境。”
还给出了样稿
不过我不太喜欢 GPT 自带 DALLE 的风格
还是请出地表最强 AI 绘图软件,谷歌Nano-Banana。国产的可灵即梦生图也还行,但是效果略微差一点点
nano banana调用,将这段提示词输入谷歌 Nano-Banana,几秒钟后就获得了令人惊艳的靓女照片,做个拼图,大家觉得应该选哪个?
我选了 12 点方向的小姐姐。本文开头的小姐姐是可灵生成的。
不过事实证明应该选 11 点的小姐姐,因为 12 点的小姐姐有个手部动作,图生视频时,一次最多 10 秒,要做 1 分钟的视频,手部不太好处理,不过Nano-Banana生成的图精度不高,我到火山引擎,调用4.0,把图变为4K。
上传图片,输入提示词:CREATIVELY UPSCALE TO 16K RESOLUTION
得到高清大图
第二步:视频制作
为什么用可灵?试过了即梦,效果不如可灵
进入 klingai.kuaishou.com
与即梦不同,可灵不支持“一张图对嘴型”仅支持视频对嘴型,但支持上传第三方视频对嘴型
在可灵中,要先图生视频,然后在它生成的视频中,启用“对嘴型”功能
选择 2.1大师版,上传小姐姐图片,输入提示词:“一个女歌手,全神贯注在录音棚录制歌曲,跟着音乐唱歌,身体轻轻的随着音乐摇摆”
下面显示要200积分,TMD贵了,大师版模型用起来心里真的在滴血(视频2.1标准版模型也试了,效果不佳)还好我是搞活动时候买的会员
第三步:AI写歌
AI写歌可以用Suno,也可以用昆仑万维发布全球首款音乐推理大模型Mureka O1,与Mureka V6模型结合,助力音乐创作。
-🎵Mureka O1功能强大,支持一键同款、创作纯音乐、简单模式和高级模式创建歌曲等,可生成高质量音乐作品,音质接近真人。
第四步:对口型处理
1、可灵的效果
在刚才生成的视频右边点“对口型”
因为原视频只有 10 秒,所以一次性只支持 10 秒的克隆,要多次生成
因为只有10秒,所以只有 先把音乐切成 10 秒一段,分别生成视频后再整合
或者取尾帧做新的10秒,不过实测后发现,尾帧方式生成新视频的质量会下降,所以未大规模采用尾帧方式,我用的可灵1.6,2.1确实太贵了。效果也还可以
2、即梦的效果
(1)视频生视频
即梦的操作与可灵大同小异,选数字人,上传可灵的无声视频,上传音乐
不过用视频对口型,只能选基础模式;要用大师模式,只能用图片转视频
看效果,比可灵差点
(2)图生视频
如果用图生视频,人物动作非常生硬,甚至有点鬼畜
3、DreamFace 的效果
更简单的替代方案是使用 DreamFace 功能,上传图片或无声视频加上歌曲,就能快速得到成品。虽然在细节处理上可能略逊一筹,但胜在效率
嘴型略差一点,麦克风和嘴重合部分有些瑕疵,不过优点是效率高,下次注意嘴部不要有遮挡即可。
好了,今天的案例就是这样。
相关内容:
国内外最火的6款AI视频生成工具,助你做出爆款短视频
如如何制作ai数字人?手把手教你用AI做自己的专属数字人
谁是最好用的国产AI视频工具?4款AI视频生成器深度对比
即梦AI怎么制作出自己的数字人?用一张照片轻松制作数字人唱歌视频
声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。