零基础用 AI 做出自己的第一部视频:2026 年完整工作流指南
写在前面
2024 年初,OpenAI 发布 Sora,宣布"文字生成视频"从概念变成了现实。两年后的今天,情况已经彻底不同了。
现在你不需要懂代码,不需要摄影机,不需要演员,甚至不需要一台高端电脑——只需要一个想法,再加上一套工具,你可以独自完成一部几分钟的短片或动画,视觉效果足以媲美数年前需要团队制作的作品。
但工具太多,教程太零散。“先用 A 生成图,再用 B 转视频,然后用 C 配音,最后用 D 剪辑”——每一步都有选择困难症的机会,很多人还没开始就被绕晕了。
这篇文章的目标只有一个:让你看完之后能立即坐下来动手。
文章会按照一部视频从零到成品的完整流程走:故事 → 图像 → 视频 → 配音 → 配乐 → 剪辑,每一步给你可用的具体工具和操作方法,中国大陆用户优先,标注哪些需要科学上网,标注免费额度和收费标准。
读完之后,你应该知道该用什么做、大概怎么做、遇到问题去哪查。
一、先搞清楚:AI 视频的完整工作流是什么
很多人以为"AI 视频"就是输入一句话等 AI 吐出一段视频。这种"一键成片"的工具存在,但出来的东西质量有限,也不是你能真正控制创意的方式。
专业一点的工作流,分七个环节:
[创意 / 剧本] → [角色 & 场景图像] → [视频生成] → [配音] → [配乐] → [剪辑合成] → [导出发布]
每个环节都有专门的 AI 工具负责。这条流水线的好处是每一步都可以反复修改,不满意某个镜头就只重做那一个镜头,不用推倒重来。
常见的两种工作模式:
模式 A:图生视频(推荐新手) 先用文生图工具生成每个镜头的关键帧(静态图),满意后再用视频生成工具让图"动起来"。这样可以精确控制每帧画面的内容,成本也更低——重新生成一张图比重新生成一段视频便宜得多。
模式 B:文生视频 直接用文字描述让 AI 生成视频片段。适合对画面要求不那么精确的场景,比如背景视频、氛围镜头。
实际创作中,这两种模式混合使用。
二、第一步:故事与脚本(AI 帮你想清楚)
很多人卡在这里:有个模糊的想法,但不知道怎么展开成可执行的脚本。
用 AI 写脚本
把你的想法扔给 DeepSeek(免费,国内直接用)、Kimi(月之暗面,免费)或 豆包(字节跳动,免费),用这样的格式提问:
我想做一个 60 秒的短片,主题是「一只城市流浪猫在夜晚的街道上寻找食物」。
请帮我写一个分镜脚本,包含:
- 5-8 个镜头
- 每个镜头的画面描述(主体、场景、摄像机运动)
- 每个镜头的时长
- 是否需要配音/字幕
- 整体情绪走向
你会得到一份结构完整的分镜脚本。这不是最终版,把它当成起点,按自己的想法修改。
分镜脚本的格式
好的分镜脚本每个镜头至少包含四个要素:
| 要素 | 例子 |
|---|---|
| 主体 | 一只橘色成年公猫,瘦削,左耳有道缺口 |
| 场景 | 夜晚的上海弄堂,湿地面反光,远处霓虹灯 |
| 镜头类型 | 低角度近景,从右往左缓慢平移 |
| 时长 | 约 4 秒 |
这四个要素后面直接用来写 AI 视频的提示词(Prompt),所以越具体越好。
篇幅建议
新手从短做起。60 秒短片大约需要 8-12 个镜头,每个镜头 4-8 秒。先完成一个 60 秒的作品,比规划一个 5 分钟的鸿篇巨制然后烂尾强得多。
三、第二步:角色与场景设计(文生图)
有了分镜,下一步是确定视觉风格:你的视频想呈现什么感觉?写实?动漫?赛博朋克?水彩插画?
工具选择
国内推荐(无需科学上网):
① 即梦 AI(jimeng.jianying.com) 字节跳动出品,免费用户每天 60-100 积分,够生成约 10 张图。界面简洁,中文提示词效果好,和剪映无缝衔接。适合快速出图验证想法。
② 通义万相(tongyi.aliyun.com/wanxiang) 阿里出品,每天免费 50 张图(灵感值)。在写实风格和中国风格上表现稳定,支持参考图生图。
③ Dreamina(dreamina.capcut.com,即梦国际版) 功能与即梦基本相同,部分地区可直接访问。
④ 触手 AI(6pen.art / tcsai.com) 面向插画师和漫画师,风格多样,支持模型训练,对二次元和插画风格的还原度高。
需要科学上网的进阶工具:
⑤ Midjourney(midjourney.com) 目前商业项目中用得最多的文生图工具,画面质量高,风格控制精准。基础套餐 $10/月(约 73 元),每月可生成约 200 张图。需要 Discord 账号。
⑥ Nano Banana / Gemini Image(gemini.google.com,需科学上网) Google DeepMind 出品的官方图像生成模型,产品名叫 Nano Banana,底层是 Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 系列。角色一致性是它目前全球最强之一:单次可维持最多 5 个角色、14 个物体的跨图一致性,直接在对话框里上传参考图并连续多轮编辑,角色特征不会漂移。
访问方式:在 Gemini 应用内选"创建图像"工具,或通过 Google AI Studio(aistudio.google.com)调用 API。Gemini Pro 订阅($20/月)内含基础图像生成额度,Gemini Ultra($249.99/月)额度更高。第三方平台如 Leonardo.ai 也已接入 Nano Banana 模型,部分有免费额度。
⑦ Ideogram / Flux Pro(ideogram.ai) 在文字生成(图中有文字)和精确构图方面表现突出。有免费额度,生成的图片文字可读性强于 Midjourney。
角色一致性:最难但最关键的问题
做 AI 视频最大的挑战不是生成一张好图,而是让同一个角色在 20 个镜头里看起来都是同一个人。
几个实用方法:
方法 1:参考图固定(最推荐)
生成一张你满意的"角色设定图",之后每次生成时都上传这张图作为参考(图生图模式),并加上参数 --cref [图片URL](Midjourney)或"参考图"上传功能(即梦/通义万相)。
方法 2:LoRA 训练(进阶) 用 5-10 张角色图训练一个专属的小模型(LoRA),之后生成的图都会保持角色一致。即梦 AI 支持"灵感角色"功能,可以一键基于几张图生成一致的角色。需要额外积分。
方法 3:风格锁定 整部视频用同一套关键词组合,比如固定"吉卜力风格,手绘,暖色调,细线"——风格统一后,即使角色细节略有变化,视觉上仍然连贯。
实操建议
每个主要角色先生成一张"角色卡"(包含正面、侧面、表情特写),放到一个文件夹里。之后每次生成场景图时,用这张角色卡作为参考。主要场景(室内/室外/特定地点)也同样处理,先生成"场景参考图"。
四、第三步:AI 视频生成(核心环节)
国内工具(优先推荐)
可灵 AI(klingai.com)
快手自研,目前国内综合能力最强的视频生成工具,也是全球视频生成领域的一线产品。
主要特点:
- 支持文生视频和图生视频
- 单次生成时长:标准模式 5 秒,专业模式最长 10-15 秒;通过"续写"功能叠加延长,每次续写追加约 4.5 秒,累计可制作长视频
- 支持"动作笔刷"——手动画出画面中物体的运动轨迹
- 支持"首尾帧控制"——上传开始帧和结束帧,AI 生成中间过渡
- 2026 年 1 月推出可灵 3.0,支持多模态一体输入
价格:
- 免费额度:每天少量灵感值(约 3-5 条视频)
- 黄金会员:¥58/月,660 灵感值/月(首月 ¥19)
- 铂金会员:¥234/月,3000 灵感值/月(首月 ¥79)
**适合场景:**写实风格、大幅度运动场景、需要精确控制镜头的叙事视频
即梦 AI(jimeng.jianying.com)
字节跳动 / 剪映团队出品,与剪映剪辑工具深度整合,是抖音内容创作者的首选链路。
主要特点:
- 文生图 + 文生视频 + 图生视频一站式
- “故事模式”:输入梗概自动生成分镜 + 视频(适合快速原型)
- Seedance 2.0(2026 年 2 月)支持图像/视频/音频/文本四模态输入
- 数字人 + 口型驱动:上传人物照片,输入文字自动生成配合口型的讲解视频
- 和剪映自动衔接,生成的素材可直接导入剪辑
价格:
- 免费:每天 60-100 积分
- 基础会员:¥79/月
- 标准会员:¥239/月
- 高级会员:¥649/月
**适合场景:**短视频内容、抖音生态创作者、需要数字人的知识分享视频
海螺 AI(hailuoai.com)
MiniMax 出品,主打"情绪渲染"和人物表情细节。
主要特点:
- 支持文生视频和图生视频(主体参考生成)
- 15 种运镜方式可自由组合(推、拉、摇、移等)
- 在人物微表情、情感渲染上表现最突出
- Hailuo 2.3 在肢体动作和风格化方面有明显提升
价格(2025-2026):
- 免费:视频最长 6 秒,768p,带水印,每次最多 3 个任务
- 基础会员:¥68/月,1080p
- 标准会员:¥245/月,支持 10 秒视频
- 至臻会员:¥899/月,无限使用
**适合场景:**有人物情感表达的叙事视频、需要精细表情的短片
Vidu(vidu.studio)
生数科技联合清华大学开发。物理模拟能力强,动漫/插画风格表现最佳,性价比高(单秒视频成本约 4 分钱)。适合做动漫或艺术风格视频。
通义万相 Wan(tongyi.aliyun.com/wanxiang/wanxvideo)
阿里出品,已开源(Wan2.1 登顶 VBench 基准榜单)。
特点:
- 文生视频,支持中文提示词
- 开源版可本地部署(最低 6GB 显存)
- 全球视频生成基准测试 VBench 第一
- 有免费在线使用额度
适合:
- 想要免费体验高质量视频的用户
- 有一定技术背景、想本地部署的用户(需要 6GB+ 显存的 NVIDIA 显卡)
国际工具(需要科学上网)
Runway Gen-4(runwayml.com)
好莱坞和专业影视从业者的首选,目前商业项目质量最稳定的视频生成工具。
- 专业控制选项最多(摄像机运动、风格参考、人物一致性)
- 价格:基础套餐 $15/月(约 109 元),专业套餐 $35/月
- 30 秒可生成一段 10 秒高清视频
Pika 2.0(pika.art)
最适合新手上手,界面最友好,生成速度快。有免费额度(每月约 250 积分)。
Sora 2(OpenAI ChatGPT Plus 内置)
擅长长镜头叙事,跨镜头角色一致性强,已集成音频生成。需要 ChatGPT Plus 订阅($20/月,约 146 元)。
Google Veo 系列(Veo 2 / Veo 3 / Veo 3.1,需科学上网)
Google DeepMind 出品,当前国际市场评测中综合得分最高的视频生成模型之一。
Veo 3(2025 年 5 月发布)最重要的特性:视频与音频同时生成——不只是画面,连人物对话、音效、环境音都能在一次生成中一并产出,目前其他主流工具还不具备这个能力。输出规格:1080p,4-8 秒/次。
Veo 3.1 在此基础上增加了"参考图生视频"(Ingredients to Video),可上传多张参考图,指定角色和场景风格生成连贯镜头。
访问方式:
- 通过 Gemini 应用(app.gemini.google.com)订阅 Google AI Ultra($249.99/月,约 ¥1800),Ultra 版包含 Veo 3 使用额度
- 通过 Google Flow(flow.google.com,影视创作者专用平台)使用
- API 调用:通过 Vertex AI,标准版约 $0.40/秒视频,Veo 3 Fast 版约 $0.15/秒
价格说明: Veo 3 目前 Pro 订阅($20/月)每天仅限 3 条视频,Ultra 订阅才有充足额度。对多数个人创作者来说,Veo 3 主要是"拿来生成特定高难度镜头"的补充工具,而不是主力工作流。
怎么选:一张决策表
| 你的情况 | 推荐工具 |
|---|---|
| 完全免费,零预算 | 通义万相 + 即梦 AI 免费额度轮换 |
| 愿意付 ¥60-80/月,国内操作 | 可灵 AI 黄金会员 |
| 抖音创作者,常用剪映 | 即梦 AI |
| 注重人物表情/情绪 | 海螺 AI |
| 做动漫/插画风格 | Vidu |
| 有海外账号,要最高品质 | Runway Gen-4 |
| 需要视频原生带音效/对白 | Google Veo 3 |
| 有技术背景,想自己部署 | 本地 ComfyUI + Wan2.1 |
五、第四步:写好提示词(这是最值得花时间的地方)
同样的工具,提示词写得好坏,出来的视频质量天差地别。
基础公式
[主体描述] + [场景描述] + [运动描述] + [镜头语言] + [光线/氛围] + [风格关键词]
反例(坏):
一只猫在街上走
正例(好):
一只瘦削的橘色流浪猫,左耳有缺口,正在雨后湿润的上海弄堂缓慢踱步,镜头从低角度跟随它向前平移,地面积水反射出远处霓虹灯的红绿光,夜晚氛围,电影感,浅景深
镜头语言关键词速查
景别:
特写(close-up)— 突出细节和情绪中景(medium shot)— 人物上半身,日常对话场景全景(full shot)— 整个人物,展现肢体语言远景(wide shot)— 交代环境,展示宏大场景航拍视角(aerial shot)— 从上往下,宏观地图感
运镜:
镜头缓慢推进(slow push in)— 增加紧张感镜头从左向右平移(pan left to right)镜头跟随主体移动(tracking shot)手持镜头,轻微抖动(handheld, slight shake)— 纪实感环绕主体旋转(orbit around subject)— 360° 展示上升镜头(crane up)— 从特写上升到全景
光线:
黄金时刻光线(golden hour)— 夕阳温暖橙光蓝调时刻(blue hour)— 日落后冷蓝光侧光(side lighting)— 戏剧性阴影背光(backlighting)— 剪影效果霓虹灯反射(neon reflections)— 赛博朋克自然漫射光(soft natural light)— 清新、温柔
风格:
电影级画质(cinematic)4K,超高清浅景深(shallow depth of field)吉卜力风格(Ghibli style)— 日系动画赛博朋克(cyberpunk aesthetic)水彩画风(watercolor illustration)真实感,超写实(photorealistic,hyperrealistic)
提示词模板示例
场景:夜晚城市独行人物
一个穿着黑色风衣的年轻女性,背对镜头,独自行走在下雨的东京街道,镜头缓慢跟随她向前,路面倒映着五颜六色的霓虹广告牌,雨滴打在雨伞上,前景有少量虚化的人流,夜晚,赛博朋克美学,电影级画质,16:9
场景:自然风景延时
壮观的峡谷日出,橙红色光线从右侧照射进峡谷,镜头缓慢从下往上推移,晨雾在岩石间流动,无人机航拍角度,超写实,4K,《权力的游戏》风格摄影
场景:产品展示
一瓶高端香水放在深蓝色大理石台面上,水滴从瓶身滑落,镜头缓慢从侧面环绕,冷调光线,高光反射,商业广告风格,奢华感,浅景深
几条经验
1. 写中文还是英文? 国内工具(可灵、即梦、通义万相)中英文都支持,但一些工具对英文提示词的响应更稳定。可以先用中文写清楚,再用 DeepSeek 翻译成英文提示词来比较效果。
2. 镜头运动放在后半段 先写清楚"画面里有什么",再描述"镜头怎么动"。镜头描述太复杂会干扰 AI 对主体的理解。
3. 控制运动幅度 大幅度运动(奔跑、飞翔、爆炸)在当前 AI 视频生成中容易出现形变。新手阶段优先做低运动幅度的镜头(静坐、站立、缓步走)。
4. 用"首尾帧"控制故事转折 可灵 AI 支持上传开始帧和结束帧,AI 生成中间过渡。这是制作叙事转折镜头最可控的方法。比如:开始帧是阳光明媚的花园,结束帧是暴风雨的残垣断壁——中间的过渡 AI 会自动填充。
六、第五步:配音制作
视频有了,接下来解决声音的问题。配音包括两类:人声(旁白/对白) 和 音效。
人声配音工具
剪映 AI 配音(capcut.cn)
最简单的选择,剪映已经内置了 50+ 种中文音色(电竞解说风、新闻播报、温柔女声、磁性男声等),输入文字即可一键生成语音。还支持"音色克隆"——上传自己 5 分钟录音,克隆出自己的声音。
完全免费,无需另外注册,与剪映的剪辑工作流无缝衔接。新手首选。
Fish Audio(fish.audio)
专业 AI 配音平台,音色数量多,情感细腻,在多语言支持上强过剪映。免费版可生成少量语音,付费版约 $9/月 起。支持声音克隆(上传参考音频即可)。
国内可直接访问,效果比剪映更自然,适合对配音品质有更高要求的项目。
ElevenLabs(elevenlabs.io)
目前全球最好的 AI 配音工具,支持 29 种语言(含中文),情感层次最丰富。免费版每月约 10,000 字符(够 5-10 分钟配音)。需要科学上网。
MiniMax Audio TTS(minimax.io/audio)
海螺 AI 背后公司出品,提供免费的中文文字转语音 API,音质自然,支持情感控制。开发者友好。
配音实操建议
- 写好文案再配音:把旁白文字写完整,检查节奏(可以大声念一遍,确认没有别扭的句子)
- 控制语速:AI 配音默认语速偏快,生成后在剪辑软件里手动调整速度
- 留白:镜头切换、情绪转折处,配音里留 0.5-1 秒的停顿,会让视频呼吸感更好
七、第六步:配乐制作
背景音乐(BGM)和音效是视频情绪的一半。
AI 生成音乐
海绵音乐(字节跳动)
字节跳动出品,完全免费,中文处理最好,直接在网页生成。用法:输入歌曲风格、情绪、时长,点击生成。适合生成无人声的纯背景音乐,也支持生成带歌词的完整歌曲。
Suno(suno.ai / suno.cn 中文站)
全球最流行的 AI 音乐生成工具,免费版每天可生成约 10 首歌(50 积分)。输入风格描述或直接写歌词,几十秒内生成完整歌曲。免费版不支持商用,需要商用请升级付费版($10/月起)。需要科学上网访问官网,或通过 suno.cn 中文站使用。
天工音乐(AI 天工,昆仑万维)
国内免费平台,支持输入文字生成 BGM,无需科学上网。
谱乐 AI / YourMusic(yourmusic.fun)
同时支持 Suno 和 Udio 两个模型的中文平台,对中文歌词优化较好,适合想用中文歌词制作 BGM 的创作者。
免版权音乐素材(不想生成、直接找现成的)
- 爱给网(aigei.com):国内最大的免费音效 / 音乐素材库,分类细致,支持按情绪、乐器、BPM 检索,部分素材需注册
- Pixabay Music(pixabay.com/music):免费,CC0 协议,全商用,直接下载
- Free Music Archive(freemusicarchive.org):Creative Commons 音乐,按风格分类
- Mixkit(mixkit.co):免费音效 + 背景音乐,视频用途可直接商用
配乐建议
- BGM 音量通常应比人声低 15-20dB,人声是主角
- 剪辑时让音乐和视频的节奏点对齐(剪映有"踩点"功能,自动标记音乐节拍)
- 不要在一个 60 秒视频里用超过 2 段不同风格的音乐,容易显得凌乱
八、第七步:剪辑与后期
有了所有素材(视频片段 + 配音 + 配乐),最后一步是剪辑合成。
工具选择
剪映(capcut.cn)——强烈推荐新手
国内使用率最高的剪辑工具,有网页版和桌面版,AI 功能深度整合:
- 自动字幕:上传视频,一键生成字幕,支持翻译成 15+ 种语言
- AI 配音:在剪辑里直接生成人声
- 一键踩点:自动把视频切点对齐到音乐节拍
- 转场效果:预置数十种转场,拖拽即用
- 智能裁剪:自动识别画面重心,裁剪成不同比例(9:16/16:9/1:1)
完全免费(部分高级功能需会员,但基础剪辑够用)。
DaVinci Resolve(blackmagicdesign.com)——免费专业级
好莱坞专业调色和剪辑标准软件,个人版永久免费。学习曲线比剪映陡一些,但能做到影视级调色、更复杂的多轨道剪辑。如果你对画面质感有较高要求,值得学。
CapCut(capcut.com)——剪映国际版
功能与剪映几乎相同,面向海外市场,部分 AI 功能与剪映略有差异。
剪辑基本流程
- 新建项目,设置分辨率(1080p 或 4K)和帧率(24fps 电影感,30fps 通用)
- 导入所有素材(视频片段 + 配音 + 配乐)
- 粗剪:把镜头按照分镜顺序排列,先连起来看整体节奏
- 精剪:调整每个镜头的起止点,让切点自然(有对白时在句子结束后剪,无对白时在动作完成后剪)
- 加字幕:用自动字幕功能,生成后逐条检查,修正错别字
- 加转场:短视频中最常用的转场是"淡入淡出"(fade)和"直切"(hard cut),不要滥用花哨转场
- 调色:可以用剪映的"滤镜"或 DaVinci 的调色轮统一视频的整体色调
- 混音:调整 BGM、配音、音效三轨音量平衡,最终导出前用耳机检查一遍
九、免费素材资源大全
在 AI 生成的镜头之间,有时候需要补充一些实拍素材、音效、字体。以下是经过验证的免费资源:
视频素材
| 网站 | 特点 |
|---|---|
| Pexels(pexels.com) | 免费,无需注册,个人商用均可,有中文搜索 |
| Pixabay(pixabay.com) | CC0 协议,免费全商用,视频/图片/音乐一站式 |
| Mixkit(mixkit.co) | 免费,直接商用,有 Premiere 模板 |
| 爱给网(aigei.com) | 国内最全,部分免费,分类细 |
音效素材
| 网站 | 特点 |
|---|---|
| Freesound(freesound.org) | 最大的免费音效库,需注册,注意 CC 协议 |
| Pixabay Sound | 同 Pixabay,音效板块,CC0 协议 |
| 爱给网音效 | 国内,种类全,部分免费 |
| Mixkit Sound Effects | 免费,商用,直接下载 |
图片素材
| 网站 | 特点 |
|---|---|
| Unsplash(unsplash.com) | 高质量摄影,免费商用 |
| Pexels 图片 | 同域名,免费商用 |
| PICKFREE(pickfree.cn) | 国内导航,整合了多个免版权素材站 |
字体
| 资源 | 特点 |
|---|---|
| 阿里巴巴普惠体 | 完全免费,可商用,覆盖常规字重 |
| 思源黑体 / 思源宋体 | Adobe + Google 联合出品,开源商用 |
| 站酷系列字体 | 站酷网出品,免费商用,风格多样 |
| 字体天下(ziticq.com) | 国内字体导航,标注授权情况 |
十、实战案例:从零到成片,完整走一遍
我们用一个具体项目把上面所有步骤串起来。
项目目标: 制作一个 60 秒的短片,主题是"深夜城市一个独行者的故事",赛博朋克风格,无对白,有旁白字幕,配 AI 生成的电子 BGM。
Step 1:脚本(20 分钟)
打开 DeepSeek,输入:
我想做一个 60 秒的赛博朋克风格短片,主角是一个深夜在霓虹街道独行的年轻人,没有对白,用旁白字幕代替,情绪走向是:开始孤独,过程是迷失,结尾是某种和解。请给我 8 个分镜,每个描述画面、镜头类型、时长,最后给出整体旁白文案。
得到 8 个分镜描述 + 一段旁白文案。根据自己喜好调整细节。
Step 2:图像生成(30-60 分钟)
打开即梦 AI,把每个分镜的画面描述翻译成提示词,各生成 3-5 张,挑最好的一张。
例如分镜 2 的提示词:
年轻男性背影,穿黑色连帽衫,站在东京风格的夜晚十字路口,等红灯,周围有其他行人的虚化剪影,霓虹广告牌倒映在湿润路面,摄像机低角度从正面拍背影,赛博朋克风格,电影感,浅景深
生成满意后下载(8 张主要镜头关键帧)。
Step 3:视频生成(1-2 小时)
把 8 张关键帧图片上传到可灵 AI(图生视频模式),逐一生成对应镜头。每个镜头的提示词在原有画面描述基础上加入运镜指令:
镜头从低角度缓慢向上升,背景虚化的人群轻微流动,5 秒
等待生成,每条大约 2-5 分钟。对不满意的镜头重新生成(通常需要 2-3 次尝试)。
Step 4:配音(15 分钟)
把旁白文案粘贴到剪映的 AI 配音里,选一个"平静低沉男声"音色,生成语音。
试听后,在剪映里把语速调慢到 0.85x(AI 配音普遍偏快),导出音频文件。
Step 5:配乐(10 分钟)
打开海绵音乐,输入:
赛博朋克,电子音乐,沉浸感,孤独,夜晚城市,无人声,BPM 约 90,时长 70 秒
生成 3 条,选最合适的一条下载。
Step 6:剪辑(45-90 分钟)
打开剪映,新建 1080p/24fps 项目:
- 导入 8 段视频 + 配音 + BGM
- 按分镜顺序排列,粗剪
- 调整每段视频起止点,总时长控制在 58-62 秒
- 加入旁白字幕(直接拖音频到字幕轨道,使用自动字幕功能)
- 添加"淡入淡出"转场
- 加 BGM,音量调到 -18dB,配音调到 -6dB
- 加一个偏青绿色调的滤镜(强化赛博朋克感)
- 导出 1080p,H.264 格式
总耗时:约 3-4 小时(熟练后可压缩到 2 小时以内)
十一、常见问题
Q:AI 生成的视频有水印怎么办? A:大多数工具在免费版会加水印。去水印要么升级付费版,要么用 DaVinci Resolve 的"Magic Mask"功能遮住水印区域(适合水印在角落的情况),或者在剪辑时把视频稍微裁剪掉有水印的边缘。
Q:生成的人物脸部一直在变,怎么保持一致? A:这是 AI 视频目前最大的技术限制。推荐:① 整部视频主要用背影、侧影、远景(避免脸部特写);② 用同一张角色卡作为"图生视频"的参考图;③ 在脚本设计阶段就规避大量脸部特写镜头。
Q:生成的视频里人物手脚变形怎么办? A:当前 AI 视频在手部(尤其是手指)和脚部运动上容易出现形变,是技术通病。解决方式:① 避免手部特写;② 降低运动幅度;③ 通过重新生成多尝试几次选最好的。
Q:视频生成总是生出跟我描述不一样的东西? A:提示词要更具体,越具体 AI 越能遵从。另外,先生成参考图(文生图),再用图生视频,比纯文生视频更容易控制画面内容。
Q:AI 生成视频可以商用吗? A:各平台政策不同。可灵 AI 付费用户生成的内容可商用(需遵守平台协议);免费版通常仅限个人非商业用途。使用前务必读一遍对应平台的"服务条款 / 版权声明"。
十二、进阶方向:接下来可以学什么
当你完成了第一部作品,如果想进一步提升,有几条清晰的路径:
路径 1:精进提示词工程 专门研究镜头语言(景别/运镜/布光),会让你的提示词质量直接跃升一级。推荐阅读:《认识电影》(路易斯贾内梯)或 B 站上的"镜头语言"系列视频。
路径 2:学 ComfyUI(本地部署工作流) ComfyUI 是一个开源的 AI 图像 / 视频生成节点编辑器,可以把文生图、图生视频、音频生成等环节串成自动化流水线,并且完全本地运行(不花 token 钱)。需要一块 8GB+ NVIDIA 显卡。学习资源:RunningHub(runninghub.cn,有中文教程和现成工作流)。
路径 3:学 DaVinci Resolve 调色 大多数 AI 视频在色彩上偏平,学会调色可以大幅提升最终画面质感。DaVinci Resolve 有免费官方教程,1 个月可以掌握基础调色。
路径 4:做系列内容 真正建立创作能力的方式不是做一部精品,而是持续产出。定一个固定主题(比如"每周一个 60 秒赛博朋克短片"),用同一套工具和风格持续做,每次解决一个新问题,3 个月后你的能力和工具熟练度会完全不同。
最后
AI 视频最大的门槛,不是技术,而是开始。
很多人收藏了大量教程,下载了所有工具,设置了完美的文件夹,就是没出过一帧画面。
工具会一直迭代,今天最好的工具明天就可能被新工具取代。但一旦你走完了一遍完整的流程,你会发现:换工具只是换了界面,整条逻辑和工作流还是同一套。
找一个你真的想做的故事,用免费额度,先做完它。
(本文工具信息截至 2026 年 4 月,AI 工具迭代快,具体功能和价格以各平台官网为准)