零基础用 AI 做出自己的第一部视频:2026 年完整工作流指南


写在前面

2024 年初,OpenAI 发布 Sora,宣布"文字生成视频"从概念变成了现实。两年后的今天,情况已经彻底不同了。

现在你不需要懂代码,不需要摄影机,不需要演员,甚至不需要一台高端电脑——只需要一个想法,再加上一套工具,你可以独自完成一部几分钟的短片或动画,视觉效果足以媲美数年前需要团队制作的作品。

但工具太多,教程太零散。“先用 A 生成图,再用 B 转视频,然后用 C 配音,最后用 D 剪辑”——每一步都有选择困难症的机会,很多人还没开始就被绕晕了。

这篇文章的目标只有一个:让你看完之后能立即坐下来动手

文章会按照一部视频从零到成品的完整流程走:故事 → 图像 → 视频 → 配音 → 配乐 → 剪辑,每一步给你可用的具体工具和操作方法,中国大陆用户优先,标注哪些需要科学上网,标注免费额度和收费标准。

读完之后,你应该知道该用什么做、大概怎么做、遇到问题去哪查。


一、先搞清楚:AI 视频的完整工作流是什么

很多人以为"AI 视频"就是输入一句话等 AI 吐出一段视频。这种"一键成片"的工具存在,但出来的东西质量有限,也不是你能真正控制创意的方式。

专业一点的工作流,分七个环节:

[创意 / 剧本] → [角色 & 场景图像] → [视频生成] → [配音] → [配乐] → [剪辑合成] → [导出发布]

每个环节都有专门的 AI 工具负责。这条流水线的好处是每一步都可以反复修改,不满意某个镜头就只重做那一个镜头,不用推倒重来。

常见的两种工作模式:

模式 A:图生视频(推荐新手) 先用文生图工具生成每个镜头的关键帧(静态图),满意后再用视频生成工具让图"动起来"。这样可以精确控制每帧画面的内容,成本也更低——重新生成一张图比重新生成一段视频便宜得多。

模式 B:文生视频 直接用文字描述让 AI 生成视频片段。适合对画面要求不那么精确的场景,比如背景视频、氛围镜头。

实际创作中,这两种模式混合使用。


二、第一步:故事与脚本(AI 帮你想清楚)

很多人卡在这里:有个模糊的想法,但不知道怎么展开成可执行的脚本。

用 AI 写脚本

把你的想法扔给 DeepSeek(免费,国内直接用)、Kimi(月之暗面,免费)或 豆包(字节跳动,免费),用这样的格式提问:

我想做一个 60 秒的短片,主题是「一只城市流浪猫在夜晚的街道上寻找食物」。
请帮我写一个分镜脚本,包含:
- 5-8 个镜头
- 每个镜头的画面描述(主体、场景、摄像机运动)
- 每个镜头的时长
- 是否需要配音/字幕
- 整体情绪走向

你会得到一份结构完整的分镜脚本。这不是最终版,把它当成起点,按自己的想法修改。

分镜脚本的格式

好的分镜脚本每个镜头至少包含四个要素:

要素例子
主体一只橘色成年公猫,瘦削,左耳有道缺口
场景夜晚的上海弄堂,湿地面反光,远处霓虹灯
镜头类型低角度近景,从右往左缓慢平移
时长约 4 秒

这四个要素后面直接用来写 AI 视频的提示词(Prompt),所以越具体越好。

篇幅建议

新手从短做起。60 秒短片大约需要 8-12 个镜头,每个镜头 4-8 秒。先完成一个 60 秒的作品,比规划一个 5 分钟的鸿篇巨制然后烂尾强得多。


三、第二步:角色与场景设计(文生图)

有了分镜,下一步是确定视觉风格:你的视频想呈现什么感觉?写实?动漫?赛博朋克?水彩插画?

工具选择

国内推荐(无需科学上网):

① 即梦 AI(jimeng.jianying.com) 字节跳动出品,免费用户每天 60-100 积分,够生成约 10 张图。界面简洁,中文提示词效果好,和剪映无缝衔接。适合快速出图验证想法。

② 通义万相(tongyi.aliyun.com/wanxiang) 阿里出品,每天免费 50 张图(灵感值)。在写实风格和中国风格上表现稳定,支持参考图生图。

③ Dreamina(dreamina.capcut.com,即梦国际版) 功能与即梦基本相同,部分地区可直接访问。

④ 触手 AI(6pen.art / tcsai.com) 面向插画师和漫画师,风格多样,支持模型训练,对二次元和插画风格的还原度高。

需要科学上网的进阶工具:

⑤ Midjourney(midjourney.com) 目前商业项目中用得最多的文生图工具,画面质量高,风格控制精准。基础套餐 $10/月(约 73 元),每月可生成约 200 张图。需要 Discord 账号。

⑥ Nano Banana / Gemini Image(gemini.google.com,需科学上网) Google DeepMind 出品的官方图像生成模型,产品名叫 Nano Banana,底层是 Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 系列。角色一致性是它目前全球最强之一:单次可维持最多 5 个角色、14 个物体的跨图一致性,直接在对话框里上传参考图并连续多轮编辑,角色特征不会漂移。

访问方式:在 Gemini 应用内选"创建图像"工具,或通过 Google AI Studio(aistudio.google.com)调用 API。Gemini Pro 订阅($20/月)内含基础图像生成额度,Gemini Ultra($249.99/月)额度更高。第三方平台如 Leonardo.ai 也已接入 Nano Banana 模型,部分有免费额度。

⑦ Ideogram / Flux Pro(ideogram.ai) 在文字生成(图中有文字)和精确构图方面表现突出。有免费额度,生成的图片文字可读性强于 Midjourney。

角色一致性:最难但最关键的问题

做 AI 视频最大的挑战不是生成一张好图,而是让同一个角色在 20 个镜头里看起来都是同一个人。

几个实用方法:

方法 1:参考图固定(最推荐) 生成一张你满意的"角色设定图",之后每次生成时都上传这张图作为参考(图生图模式),并加上参数 --cref [图片URL](Midjourney)或"参考图"上传功能(即梦/通义万相)。

方法 2:LoRA 训练(进阶) 用 5-10 张角色图训练一个专属的小模型(LoRA),之后生成的图都会保持角色一致。即梦 AI 支持"灵感角色"功能,可以一键基于几张图生成一致的角色。需要额外积分。

方法 3:风格锁定 整部视频用同一套关键词组合,比如固定"吉卜力风格,手绘,暖色调,细线"——风格统一后,即使角色细节略有变化,视觉上仍然连贯。

实操建议

每个主要角色先生成一张"角色卡"(包含正面、侧面、表情特写),放到一个文件夹里。之后每次生成场景图时,用这张角色卡作为参考。主要场景(室内/室外/特定地点)也同样处理,先生成"场景参考图"。


四、第三步:AI 视频生成(核心环节)

国内工具(优先推荐)

可灵 AI(klingai.com)

快手自研,目前国内综合能力最强的视频生成工具,也是全球视频生成领域的一线产品。

主要特点:

  • 支持文生视频和图生视频
  • 单次生成时长:标准模式 5 秒,专业模式最长 10-15 秒;通过"续写"功能叠加延长,每次续写追加约 4.5 秒,累计可制作长视频
  • 支持"动作笔刷"——手动画出画面中物体的运动轨迹
  • 支持"首尾帧控制"——上传开始帧和结束帧,AI 生成中间过渡
  • 2026 年 1 月推出可灵 3.0,支持多模态一体输入

价格:

  • 免费额度:每天少量灵感值(约 3-5 条视频)
  • 黄金会员:¥58/月,660 灵感值/月(首月 ¥19)
  • 铂金会员:¥234/月,3000 灵感值/月(首月 ¥79)

**适合场景:**写实风格、大幅度运动场景、需要精确控制镜头的叙事视频


即梦 AI(jimeng.jianying.com)

字节跳动 / 剪映团队出品,与剪映剪辑工具深度整合,是抖音内容创作者的首选链路。

主要特点:

  • 文生图 + 文生视频 + 图生视频一站式
  • “故事模式”:输入梗概自动生成分镜 + 视频(适合快速原型)
  • Seedance 2.0(2026 年 2 月)支持图像/视频/音频/文本四模态输入
  • 数字人 + 口型驱动:上传人物照片,输入文字自动生成配合口型的讲解视频
  • 和剪映自动衔接,生成的素材可直接导入剪辑

价格:

  • 免费:每天 60-100 积分
  • 基础会员:¥79/月
  • 标准会员:¥239/月
  • 高级会员:¥649/月

**适合场景:**短视频内容、抖音生态创作者、需要数字人的知识分享视频


海螺 AI(hailuoai.com)

MiniMax 出品,主打"情绪渲染"和人物表情细节。

主要特点:

  • 支持文生视频和图生视频(主体参考生成)
  • 15 种运镜方式可自由组合(推、拉、摇、移等)
  • 在人物微表情、情感渲染上表现最突出
  • Hailuo 2.3 在肢体动作和风格化方面有明显提升

价格(2025-2026):

  • 免费:视频最长 6 秒,768p,带水印,每次最多 3 个任务
  • 基础会员:¥68/月,1080p
  • 标准会员:¥245/月,支持 10 秒视频
  • 至臻会员:¥899/月,无限使用

**适合场景:**有人物情感表达的叙事视频、需要精细表情的短片


Vidu(vidu.studio)

生数科技联合清华大学开发。物理模拟能力强,动漫/插画风格表现最佳,性价比高(单秒视频成本约 4 分钱)。适合做动漫或艺术风格视频。


通义万相 Wan(tongyi.aliyun.com/wanxiang/wanxvideo)

阿里出品,已开源(Wan2.1 登顶 VBench 基准榜单)。

特点:

  • 文生视频,支持中文提示词
  • 开源版可本地部署(最低 6GB 显存)
  • 全球视频生成基准测试 VBench 第一
  • 有免费在线使用额度

适合:

  • 想要免费体验高质量视频的用户
  • 有一定技术背景、想本地部署的用户(需要 6GB+ 显存的 NVIDIA 显卡)

国际工具(需要科学上网)

Runway Gen-4(runwayml.com)

好莱坞和专业影视从业者的首选,目前商业项目质量最稳定的视频生成工具。

  • 专业控制选项最多(摄像机运动、风格参考、人物一致性)
  • 价格:基础套餐 $15/月(约 109 元),专业套餐 $35/月
  • 30 秒可生成一段 10 秒高清视频

Pika 2.0(pika.art)

最适合新手上手,界面最友好,生成速度快。有免费额度(每月约 250 积分)。

Sora 2(OpenAI ChatGPT Plus 内置)

擅长长镜头叙事,跨镜头角色一致性强,已集成音频生成。需要 ChatGPT Plus 订阅($20/月,约 146 元)。

Google Veo 系列(Veo 2 / Veo 3 / Veo 3.1,需科学上网)

Google DeepMind 出品,当前国际市场评测中综合得分最高的视频生成模型之一。

Veo 3(2025 年 5 月发布)最重要的特性:视频与音频同时生成——不只是画面,连人物对话、音效、环境音都能在一次生成中一并产出,目前其他主流工具还不具备这个能力。输出规格:1080p,4-8 秒/次。

Veo 3.1 在此基础上增加了"参考图生视频"(Ingredients to Video),可上传多张参考图,指定角色和场景风格生成连贯镜头。

访问方式:

  • 通过 Gemini 应用(app.gemini.google.com)订阅 Google AI Ultra($249.99/月,约 ¥1800),Ultra 版包含 Veo 3 使用额度
  • 通过 Google Flow(flow.google.com,影视创作者专用平台)使用
  • API 调用:通过 Vertex AI,标准版约 $0.40/秒视频,Veo 3 Fast 版约 $0.15/秒

价格说明: Veo 3 目前 Pro 订阅($20/月)每天仅限 3 条视频,Ultra 订阅才有充足额度。对多数个人创作者来说,Veo 3 主要是"拿来生成特定高难度镜头"的补充工具,而不是主力工作流。


怎么选:一张决策表

你的情况推荐工具
完全免费,零预算通义万相 + 即梦 AI 免费额度轮换
愿意付 ¥60-80/月,国内操作可灵 AI 黄金会员
抖音创作者,常用剪映即梦 AI
注重人物表情/情绪海螺 AI
做动漫/插画风格Vidu
有海外账号,要最高品质Runway Gen-4
需要视频原生带音效/对白Google Veo 3
有技术背景,想自己部署本地 ComfyUI + Wan2.1

五、第四步:写好提示词(这是最值得花时间的地方)

同样的工具,提示词写得好坏,出来的视频质量天差地别。

基础公式

[主体描述] + [场景描述] + [运动描述] + [镜头语言] + [光线/氛围] + [风格关键词]

反例(坏):

一只猫在街上走

正例(好):

一只瘦削的橘色流浪猫,左耳有缺口,正在雨后湿润的上海弄堂缓慢踱步,镜头从低角度跟随它向前平移,地面积水反射出远处霓虹灯的红绿光,夜晚氛围,电影感,浅景深

镜头语言关键词速查

景别:

  • 特写(close-up)— 突出细节和情绪
  • 中景(medium shot)— 人物上半身,日常对话场景
  • 全景(full shot)— 整个人物,展现肢体语言
  • 远景(wide shot)— 交代环境,展示宏大场景
  • 航拍视角(aerial shot)— 从上往下,宏观地图感

运镜:

  • 镜头缓慢推进(slow push in)— 增加紧张感
  • 镜头从左向右平移(pan left to right)
  • 镜头跟随主体移动(tracking shot)
  • 手持镜头,轻微抖动(handheld, slight shake)— 纪实感
  • 环绕主体旋转(orbit around subject)— 360° 展示
  • 上升镜头(crane up)— 从特写上升到全景

光线:

  • 黄金时刻光线(golden hour)— 夕阳温暖橙光
  • 蓝调时刻(blue hour)— 日落后冷蓝光
  • 侧光(side lighting)— 戏剧性阴影
  • 背光(backlighting)— 剪影效果
  • 霓虹灯反射(neon reflections)— 赛博朋克
  • 自然漫射光(soft natural light)— 清新、温柔

风格:

  • 电影级画质(cinematic)
  • 4K,超高清
  • 浅景深(shallow depth of field)
  • 吉卜力风格(Ghibli style)— 日系动画
  • 赛博朋克(cyberpunk aesthetic)
  • 水彩画风(watercolor illustration)
  • 真实感,超写实(photorealistic,hyperrealistic)

提示词模板示例

场景:夜晚城市独行人物

一个穿着黑色风衣的年轻女性,背对镜头,独自行走在下雨的东京街道,镜头缓慢跟随她向前,路面倒映着五颜六色的霓虹广告牌,雨滴打在雨伞上,前景有少量虚化的人流,夜晚,赛博朋克美学,电影级画质,16:9

场景:自然风景延时

壮观的峡谷日出,橙红色光线从右侧照射进峡谷,镜头缓慢从下往上推移,晨雾在岩石间流动,无人机航拍角度,超写实,4K,《权力的游戏》风格摄影

场景:产品展示

一瓶高端香水放在深蓝色大理石台面上,水滴从瓶身滑落,镜头缓慢从侧面环绕,冷调光线,高光反射,商业广告风格,奢华感,浅景深

几条经验

1. 写中文还是英文? 国内工具(可灵、即梦、通义万相)中英文都支持,但一些工具对英文提示词的响应更稳定。可以先用中文写清楚,再用 DeepSeek 翻译成英文提示词来比较效果。

2. 镜头运动放在后半段 先写清楚"画面里有什么",再描述"镜头怎么动"。镜头描述太复杂会干扰 AI 对主体的理解。

3. 控制运动幅度 大幅度运动(奔跑、飞翔、爆炸)在当前 AI 视频生成中容易出现形变。新手阶段优先做低运动幅度的镜头(静坐、站立、缓步走)。

4. 用"首尾帧"控制故事转折 可灵 AI 支持上传开始帧和结束帧,AI 生成中间过渡。这是制作叙事转折镜头最可控的方法。比如:开始帧是阳光明媚的花园,结束帧是暴风雨的残垣断壁——中间的过渡 AI 会自动填充。


六、第五步:配音制作

视频有了,接下来解决声音的问题。配音包括两类:人声(旁白/对白)音效

人声配音工具

剪映 AI 配音(capcut.cn)

最简单的选择,剪映已经内置了 50+ 种中文音色(电竞解说风、新闻播报、温柔女声、磁性男声等),输入文字即可一键生成语音。还支持"音色克隆"——上传自己 5 分钟录音,克隆出自己的声音。

完全免费,无需另外注册,与剪映的剪辑工作流无缝衔接。新手首选。

Fish Audio(fish.audio)

专业 AI 配音平台,音色数量多,情感细腻,在多语言支持上强过剪映。免费版可生成少量语音,付费版约 $9/月 起。支持声音克隆(上传参考音频即可)。

国内可直接访问,效果比剪映更自然,适合对配音品质有更高要求的项目。

ElevenLabs(elevenlabs.io)

目前全球最好的 AI 配音工具,支持 29 种语言(含中文),情感层次最丰富。免费版每月约 10,000 字符(够 5-10 分钟配音)。需要科学上网。

MiniMax Audio TTS(minimax.io/audio)

海螺 AI 背后公司出品,提供免费的中文文字转语音 API,音质自然,支持情感控制。开发者友好。

配音实操建议

  1. 写好文案再配音:把旁白文字写完整,检查节奏(可以大声念一遍,确认没有别扭的句子)
  2. 控制语速:AI 配音默认语速偏快,生成后在剪辑软件里手动调整速度
  3. 留白:镜头切换、情绪转折处,配音里留 0.5-1 秒的停顿,会让视频呼吸感更好

七、第六步:配乐制作

背景音乐(BGM)和音效是视频情绪的一半。

AI 生成音乐

海绵音乐(字节跳动)

字节跳动出品,完全免费,中文处理最好,直接在网页生成。用法:输入歌曲风格、情绪、时长,点击生成。适合生成无人声的纯背景音乐,也支持生成带歌词的完整歌曲。

Suno(suno.ai / suno.cn 中文站)

全球最流行的 AI 音乐生成工具,免费版每天可生成约 10 首歌(50 积分)。输入风格描述或直接写歌词,几十秒内生成完整歌曲。免费版不支持商用,需要商用请升级付费版($10/月起)。需要科学上网访问官网,或通过 suno.cn 中文站使用。

天工音乐(AI 天工,昆仑万维)

国内免费平台,支持输入文字生成 BGM,无需科学上网。

谱乐 AI / YourMusic(yourmusic.fun)

同时支持 Suno 和 Udio 两个模型的中文平台,对中文歌词优化较好,适合想用中文歌词制作 BGM 的创作者。

免版权音乐素材(不想生成、直接找现成的)

  • 爱给网(aigei.com):国内最大的免费音效 / 音乐素材库,分类细致,支持按情绪、乐器、BPM 检索,部分素材需注册
  • Pixabay Music(pixabay.com/music):免费,CC0 协议,全商用,直接下载
  • Free Music Archive(freemusicarchive.org):Creative Commons 音乐,按风格分类
  • Mixkit(mixkit.co):免费音效 + 背景音乐,视频用途可直接商用

配乐建议

  • BGM 音量通常应比人声低 15-20dB,人声是主角
  • 剪辑时让音乐和视频的节奏点对齐(剪映有"踩点"功能,自动标记音乐节拍)
  • 不要在一个 60 秒视频里用超过 2 段不同风格的音乐,容易显得凌乱

八、第七步:剪辑与后期

有了所有素材(视频片段 + 配音 + 配乐),最后一步是剪辑合成。

工具选择

剪映(capcut.cn)——强烈推荐新手

国内使用率最高的剪辑工具,有网页版和桌面版,AI 功能深度整合:

  • 自动字幕:上传视频,一键生成字幕,支持翻译成 15+ 种语言
  • AI 配音:在剪辑里直接生成人声
  • 一键踩点:自动把视频切点对齐到音乐节拍
  • 转场效果:预置数十种转场,拖拽即用
  • 智能裁剪:自动识别画面重心,裁剪成不同比例(9:16/16:9/1:1)

完全免费(部分高级功能需会员,但基础剪辑够用)。

DaVinci Resolve(blackmagicdesign.com)——免费专业级

好莱坞专业调色和剪辑标准软件,个人版永久免费。学习曲线比剪映陡一些,但能做到影视级调色、更复杂的多轨道剪辑。如果你对画面质感有较高要求,值得学。

CapCut(capcut.com)——剪映国际版

功能与剪映几乎相同,面向海外市场,部分 AI 功能与剪映略有差异。

剪辑基本流程

  1. 新建项目,设置分辨率(1080p 或 4K)和帧率(24fps 电影感,30fps 通用)
  2. 导入所有素材(视频片段 + 配音 + 配乐)
  3. 粗剪:把镜头按照分镜顺序排列,先连起来看整体节奏
  4. 精剪:调整每个镜头的起止点,让切点自然(有对白时在句子结束后剪,无对白时在动作完成后剪)
  5. 加字幕:用自动字幕功能,生成后逐条检查,修正错别字
  6. 加转场:短视频中最常用的转场是"淡入淡出"(fade)和"直切"(hard cut),不要滥用花哨转场
  7. 调色:可以用剪映的"滤镜"或 DaVinci 的调色轮统一视频的整体色调
  8. 混音:调整 BGM、配音、音效三轨音量平衡,最终导出前用耳机检查一遍

九、免费素材资源大全

在 AI 生成的镜头之间,有时候需要补充一些实拍素材、音效、字体。以下是经过验证的免费资源:

视频素材

网站特点
Pexels(pexels.com)免费,无需注册,个人商用均可,有中文搜索
Pixabay(pixabay.com)CC0 协议,免费全商用,视频/图片/音乐一站式
Mixkit(mixkit.co)免费,直接商用,有 Premiere 模板
爱给网(aigei.com)国内最全,部分免费,分类细

音效素材

网站特点
Freesound(freesound.org)最大的免费音效库,需注册,注意 CC 协议
Pixabay Sound同 Pixabay,音效板块,CC0 协议
爱给网音效国内,种类全,部分免费
Mixkit Sound Effects免费,商用,直接下载

图片素材

网站特点
Unsplash(unsplash.com)高质量摄影,免费商用
Pexels 图片同域名,免费商用
PICKFREE(pickfree.cn)国内导航,整合了多个免版权素材站

字体

资源特点
阿里巴巴普惠体完全免费,可商用,覆盖常规字重
思源黑体 / 思源宋体Adobe + Google 联合出品,开源商用
站酷系列字体站酷网出品,免费商用,风格多样
字体天下(ziticq.com)国内字体导航,标注授权情况

十、实战案例:从零到成片,完整走一遍

我们用一个具体项目把上面所有步骤串起来。

项目目标: 制作一个 60 秒的短片,主题是"深夜城市一个独行者的故事",赛博朋克风格,无对白,有旁白字幕,配 AI 生成的电子 BGM。


Step 1:脚本(20 分钟)

打开 DeepSeek,输入:

我想做一个 60 秒的赛博朋克风格短片,主角是一个深夜在霓虹街道独行的年轻人,没有对白,用旁白字幕代替,情绪走向是:开始孤独,过程是迷失,结尾是某种和解。请给我 8 个分镜,每个描述画面、镜头类型、时长,最后给出整体旁白文案。

得到 8 个分镜描述 + 一段旁白文案。根据自己喜好调整细节。


Step 2:图像生成(30-60 分钟)

打开即梦 AI,把每个分镜的画面描述翻译成提示词,各生成 3-5 张,挑最好的一张。

例如分镜 2 的提示词:

年轻男性背影,穿黑色连帽衫,站在东京风格的夜晚十字路口,等红灯,周围有其他行人的虚化剪影,霓虹广告牌倒映在湿润路面,摄像机低角度从正面拍背影,赛博朋克风格,电影感,浅景深

生成满意后下载(8 张主要镜头关键帧)。


Step 3:视频生成(1-2 小时)

把 8 张关键帧图片上传到可灵 AI(图生视频模式),逐一生成对应镜头。每个镜头的提示词在原有画面描述基础上加入运镜指令:

镜头从低角度缓慢向上升,背景虚化的人群轻微流动,5 秒

等待生成,每条大约 2-5 分钟。对不满意的镜头重新生成(通常需要 2-3 次尝试)。


Step 4:配音(15 分钟)

把旁白文案粘贴到剪映的 AI 配音里,选一个"平静低沉男声"音色,生成语音。

试听后,在剪映里把语速调慢到 0.85x(AI 配音普遍偏快),导出音频文件。


Step 5:配乐(10 分钟)

打开海绵音乐,输入:

赛博朋克,电子音乐,沉浸感,孤独,夜晚城市,无人声,BPM 约 90,时长 70 秒

生成 3 条,选最合适的一条下载。


Step 6:剪辑(45-90 分钟)

打开剪映,新建 1080p/24fps 项目:

  1. 导入 8 段视频 + 配音 + BGM
  2. 按分镜顺序排列,粗剪
  3. 调整每段视频起止点,总时长控制在 58-62 秒
  4. 加入旁白字幕(直接拖音频到字幕轨道,使用自动字幕功能)
  5. 添加"淡入淡出"转场
  6. 加 BGM,音量调到 -18dB,配音调到 -6dB
  7. 加一个偏青绿色调的滤镜(强化赛博朋克感)
  8. 导出 1080p,H.264 格式

总耗时:约 3-4 小时(熟练后可压缩到 2 小时以内)


十一、常见问题

Q:AI 生成的视频有水印怎么办? A:大多数工具在免费版会加水印。去水印要么升级付费版,要么用 DaVinci Resolve 的"Magic Mask"功能遮住水印区域(适合水印在角落的情况),或者在剪辑时把视频稍微裁剪掉有水印的边缘。

Q:生成的人物脸部一直在变,怎么保持一致? A:这是 AI 视频目前最大的技术限制。推荐:① 整部视频主要用背影、侧影、远景(避免脸部特写);② 用同一张角色卡作为"图生视频"的参考图;③ 在脚本设计阶段就规避大量脸部特写镜头。

Q:生成的视频里人物手脚变形怎么办? A:当前 AI 视频在手部(尤其是手指)和脚部运动上容易出现形变,是技术通病。解决方式:① 避免手部特写;② 降低运动幅度;③ 通过重新生成多尝试几次选最好的。

Q:视频生成总是生出跟我描述不一样的东西? A:提示词要更具体,越具体 AI 越能遵从。另外,先生成参考图(文生图),再用图生视频,比纯文生视频更容易控制画面内容。

Q:AI 生成视频可以商用吗? A:各平台政策不同。可灵 AI 付费用户生成的内容可商用(需遵守平台协议);免费版通常仅限个人非商业用途。使用前务必读一遍对应平台的"服务条款 / 版权声明"。


十二、进阶方向:接下来可以学什么

当你完成了第一部作品,如果想进一步提升,有几条清晰的路径:

路径 1:精进提示词工程 专门研究镜头语言(景别/运镜/布光),会让你的提示词质量直接跃升一级。推荐阅读:《认识电影》(路易斯贾内梯)或 B 站上的"镜头语言"系列视频。

路径 2:学 ComfyUI(本地部署工作流) ComfyUI 是一个开源的 AI 图像 / 视频生成节点编辑器,可以把文生图、图生视频、音频生成等环节串成自动化流水线,并且完全本地运行(不花 token 钱)。需要一块 8GB+ NVIDIA 显卡。学习资源:RunningHub(runninghub.cn,有中文教程和现成工作流)。

路径 3:学 DaVinci Resolve 调色 大多数 AI 视频在色彩上偏平,学会调色可以大幅提升最终画面质感。DaVinci Resolve 有免费官方教程,1 个月可以掌握基础调色。

路径 4:做系列内容 真正建立创作能力的方式不是做一部精品,而是持续产出。定一个固定主题(比如"每周一个 60 秒赛博朋克短片"),用同一套工具和风格持续做,每次解决一个新问题,3 个月后你的能力和工具熟练度会完全不同。


最后

AI 视频最大的门槛,不是技术,而是开始

很多人收藏了大量教程,下载了所有工具,设置了完美的文件夹,就是没出过一帧画面。

工具会一直迭代,今天最好的工具明天就可能被新工具取代。但一旦你走完了一遍完整的流程,你会发现:换工具只是换了界面,整条逻辑和工作流还是同一套。

找一个你真的想做的故事,用免费额度,先做完它。


(本文工具信息截至 2026 年 4 月,AI 工具迭代快,具体功能和价格以各平台官网为准)