零基础用 AI 做出自己的第一部视频：2026 年完整工作流指南

写在前面

2024 年初，OpenAI 发布 Sora，宣布"文字生成视频"从概念变成了现实。两年后的今天，情况已经彻底不同了。

现在你不需要懂代码，不需要摄影机，不需要演员，甚至不需要一台高端电脑——只需要一个想法，再加上一套工具，你可以独自完成一部几分钟的短片或动画，视觉效果足以媲美数年前需要团队制作的作品。

但工具太多，教程太零散。“先用 A 生成图，再用 B 转视频，然后用 C 配音，最后用 D 剪辑”——每一步都有选择困难症的机会，很多人还没开始就被绕晕了。

这篇文章的目标只有一个：让你看完之后能立即坐下来动手。

文章会按照一部视频从零到成品的完整流程走：故事 → 图像 → 视频 → 配音 → 配乐 → 剪辑，每一步给你可用的具体工具和操作方法，中国大陆用户优先，标注哪些需要科学上网，标注免费额度和收费标准。

读完之后，你应该知道该用什么做、大概怎么做、遇到问题去哪查。

一、先搞清楚：AI 视频的完整工作流是什么

很多人以为"AI 视频"就是输入一句话等 AI 吐出一段视频。这种"一键成片"的工具存在，但出来的东西质量有限，也不是你能真正控制创意的方式。

专业一点的工作流，分七个环节：

[创意 / 剧本] → [角色 & 场景图像] → [视频生成] → [配音] → [配乐] → [剪辑合成] → [导出发布]

每个环节都有专门的 AI 工具负责。这条流水线的好处是每一步都可以反复修改，不满意某个镜头就只重做那一个镜头，不用推倒重来。

常见的两种工作模式：

模式 A：图生视频（推荐新手） 先用文生图工具生成每个镜头的关键帧（静态图），满意后再用视频生成工具让图"动起来"。这样可以精确控制每帧画面的内容，成本也更低——重新生成一张图比重新生成一段视频便宜得多。

模式 B：文生视频 直接用文字描述让 AI 生成视频片段。适合对画面要求不那么精确的场景，比如背景视频、氛围镜头。

实际创作中，这两种模式混合使用。

二、第一步：故事与脚本（AI 帮你想清楚）

很多人卡在这里：有个模糊的想法，但不知道怎么展开成可执行的脚本。

用 AI 写脚本

把你的想法扔给 DeepSeek（免费，国内直接用）、Kimi（月之暗面，免费）或豆包（字节跳动，免费），用这样的格式提问：

我想做一个 60 秒的短片，主题是「一只城市流浪猫在夜晚的街道上寻找食物」。
请帮我写一个分镜脚本，包含：
- 5-8 个镜头
- 每个镜头的画面描述（主体、场景、摄像机运动）
- 每个镜头的时长
- 是否需要配音/字幕
- 整体情绪走向

你会得到一份结构完整的分镜脚本。这不是最终版，把它当成起点，按自己的想法修改。

分镜脚本的格式

好的分镜脚本每个镜头至少包含四个要素：

要素	例子
主体	一只橘色成年公猫，瘦削，左耳有道缺口
场景	夜晚的上海弄堂，湿地面反光，远处霓虹灯
镜头类型	低角度近景，从右往左缓慢平移
时长	约 4 秒

这四个要素后面直接用来写 AI 视频的提示词（Prompt），所以越具体越好。

篇幅建议

新手从短做起。60 秒短片大约需要 8-12 个镜头，每个镜头 4-8 秒。先完成一个 60 秒的作品，比规划一个 5 分钟的鸿篇巨制然后烂尾强得多。

三、第二步：角色与场景设计（文生图）

有了分镜，下一步是确定视觉风格：你的视频想呈现什么感觉？写实？动漫？赛博朋克？水彩插画？

工具选择

国内推荐（无需科学上网）：

① 即梦 AI（jimeng.jianying.com）字节跳动出品，免费用户每天 60-100 积分，够生成约 10 张图。界面简洁，中文提示词效果好，和剪映无缝衔接。适合快速出图验证想法。

② 通义万相（tongyi.aliyun.com/wanxiang）阿里出品，每天免费 50 张图（灵感值）。在写实风格和中国风格上表现稳定，支持参考图生图。

③ Dreamina（dreamina.capcut.com，即梦国际版）功能与即梦基本相同，部分地区可直接访问。

④ 触手 AI（6pen.art / tcsai.com）面向插画师和漫画师，风格多样，支持模型训练，对二次元和插画风格的还原度高。

需要科学上网的进阶工具：

⑤ Midjourney（midjourney.com）目前商业项目中用得最多的文生图工具，画面质量高，风格控制精准。基础套餐 $10/月（约 73 元），每月可生成约 200 张图。需要 Discord 账号。

⑥ Nano Banana / Gemini Image（gemini.google.com，需科学上网） Google DeepMind 出品的官方图像生成模型，产品名叫 Nano Banana，底层是 Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 系列。角色一致性是它目前全球最强之一：单次可维持最多 5 个角色、14 个物体的跨图一致性，直接在对话框里上传参考图并连续多轮编辑，角色特征不会漂移。

访问方式：在 Gemini 应用内选"创建图像"工具，或通过 Google AI Studio（aistudio.google.com）调用 API。Gemini Pro 订阅（$20/月）内含基础图像生成额度，Gemini Ultra（$249.99/月）额度更高。第三方平台如 Leonardo.ai 也已接入 Nano Banana 模型，部分有免费额度。

⑦ Ideogram / Flux Pro（ideogram.ai）在文字生成（图中有文字）和精确构图方面表现突出。有免费额度，生成的图片文字可读性强于 Midjourney。

角色一致性：最难但最关键的问题

做 AI 视频最大的挑战不是生成一张好图，而是让同一个角色在 20 个镜头里看起来都是同一个人。

几个实用方法：

方法 1：参考图固定（最推荐） 生成一张你满意的"角色设定图"，之后每次生成时都上传这张图作为参考（图生图模式），并加上参数 --cref [图片URL]（Midjourney）或"参考图"上传功能（即梦/通义万相）。

方法 2：LoRA 训练（进阶） 用 5-10 张角色图训练一个专属的小模型（LoRA），之后生成的图都会保持角色一致。即梦 AI 支持"灵感角色"功能，可以一键基于几张图生成一致的角色。需要额外积分。

方法 3：风格锁定 整部视频用同一套关键词组合，比如固定"吉卜力风格，手绘，暖色调，细线"——风格统一后，即使角色细节略有变化，视觉上仍然连贯。

实操建议

每个主要角色先生成一张"角色卡"（包含正面、侧面、表情特写），放到一个文件夹里。之后每次生成场景图时，用这张角色卡作为参考。主要场景（室内/室外/特定地点）也同样处理，先生成"场景参考图"。

四、第三步：AI 视频生成（核心环节）

国内工具（优先推荐）

可灵 AI（klingai.com）

快手自研，目前国内综合能力最强的视频生成工具，也是全球视频生成领域的一线产品。

主要特点：

支持文生视频和图生视频
单次生成时长：标准模式 5 秒，专业模式最长 10-15 秒；通过"续写"功能叠加延长，每次续写追加约 4.5 秒，累计可制作长视频
支持"动作笔刷"——手动画出画面中物体的运动轨迹
支持"首尾帧控制"——上传开始帧和结束帧，AI 生成中间过渡
2026 年 1 月推出可灵 3.0，支持多模态一体输入

价格：

免费额度：每天少量灵感值（约 3-5 条视频）
黄金会员：¥58/月，660 灵感值/月（首月 ¥19）
铂金会员：¥234/月，3000 灵感值/月（首月 ¥79）

**适合场景：**写实风格、大幅度运动场景、需要精确控制镜头的叙事视频

即梦 AI（jimeng.jianying.com）

字节跳动 / 剪映团队出品，与剪映剪辑工具深度整合，是抖音内容创作者的首选链路。

主要特点：

文生图 + 文生视频 + 图生视频一站式
“故事模式”：输入梗概自动生成分镜 + 视频（适合快速原型）
Seedance 2.0（2026 年 2 月）支持图像/视频/音频/文本四模态输入
数字人 + 口型驱动：上传人物照片，输入文字自动生成配合口型的讲解视频
和剪映自动衔接，生成的素材可直接导入剪辑

价格：

免费：每天 60-100 积分
基础会员：¥79/月
标准会员：¥239/月
高级会员：¥649/月

**适合场景：**短视频内容、抖音生态创作者、需要数字人的知识分享视频

海螺 AI（hailuoai.com）

MiniMax 出品，主打"情绪渲染"和人物表情细节。

主要特点：

支持文生视频和图生视频（主体参考生成）
15 种运镜方式可自由组合（推、拉、摇、移等）
在人物微表情、情感渲染上表现最突出
Hailuo 2.3 在肢体动作和风格化方面有明显提升

价格（2025-2026）：

免费：视频最长 6 秒，768p，带水印，每次最多 3 个任务
基础会员：¥68/月，1080p
标准会员：¥245/月，支持 10 秒视频
至臻会员：¥899/月，无限使用

**适合场景：**有人物情感表达的叙事视频、需要精细表情的短片

Vidu（vidu.studio）

生数科技联合清华大学开发。物理模拟能力强，动漫/插画风格表现最佳，性价比高（单秒视频成本约 4 分钱）。适合做动漫或艺术风格视频。

通义万相 Wan（tongyi.aliyun.com/wanxiang/wanxvideo）

阿里出品，已开源（Wan2.1 登顶 VBench 基准榜单）。

特点：

文生视频，支持中文提示词
开源版可本地部署（最低 6GB 显存）
全球视频生成基准测试 VBench 第一
有免费在线使用额度

适合：

想要免费体验高质量视频的用户
有一定技术背景、想本地部署的用户（需要 6GB+ 显存的 NVIDIA 显卡）

国际工具（需要科学上网）

Runway Gen-4（runwayml.com）

好莱坞和专业影视从业者的首选，目前商业项目质量最稳定的视频生成工具。

专业控制选项最多（摄像机运动、风格参考、人物一致性）
价格：基础套餐 $15/月（约 109 元），专业套餐 $35/月
30 秒可生成一段 10 秒高清视频

Pika 2.0（pika.art）

最适合新手上手，界面最友好，生成速度快。有免费额度（每月约 250 积分）。

Sora 2（OpenAI ChatGPT Plus 内置）

擅长长镜头叙事，跨镜头角色一致性强，已集成音频生成。需要 ChatGPT Plus 订阅（$20/月，约 146 元）。

Google Veo 系列（Veo 2 / Veo 3 / Veo 3.1，需科学上网）

Google DeepMind 出品，当前国际市场评测中综合得分最高的视频生成模型之一。

Veo 3（2025 年 5 月发布）最重要的特性：视频与音频同时生成——不只是画面，连人物对话、音效、环境音都能在一次生成中一并产出，目前其他主流工具还不具备这个能力。输出规格：1080p，4-8 秒/次。

Veo 3.1 在此基础上增加了"参考图生视频"（Ingredients to Video），可上传多张参考图，指定角色和场景风格生成连贯镜头。

访问方式：

通过 Gemini 应用（app.gemini.google.com）订阅 Google AI Ultra（$249.99/月，约 ¥1800），Ultra 版包含 Veo 3 使用额度
通过 Google Flow（flow.google.com，影视创作者专用平台）使用
API 调用：通过 Vertex AI，标准版约 $0.40/秒视频，Veo 3 Fast 版约 $0.15/秒

价格说明： Veo 3 目前 Pro 订阅（$20/月）每天仅限 3 条视频，Ultra 订阅才有充足额度。对多数个人创作者来说，Veo 3 主要是"拿来生成特定高难度镜头"的补充工具，而不是主力工作流。

怎么选：一张决策表

你的情况	推荐工具
完全免费，零预算	通义万相 + 即梦 AI 免费额度轮换
愿意付 ¥60-80/月，国内操作	可灵 AI 黄金会员
抖音创作者，常用剪映	即梦 AI
注重人物表情/情绪	海螺 AI
做动漫/插画风格	Vidu
有海外账号，要最高品质	Runway Gen-4
需要视频原生带音效/对白	Google Veo 3
有技术背景，想自己部署	本地 ComfyUI + Wan2.1

五、第四步：写好提示词（这是最值得花时间的地方）

同样的工具，提示词写得好坏，出来的视频质量天差地别。

基础公式

[主体描述] + [场景描述] + [运动描述] + [镜头语言] + [光线/氛围] + [风格关键词]

反例（坏）：

一只猫在街上走

正例（好）：

一只瘦削的橘色流浪猫，左耳有缺口，正在雨后湿润的上海弄堂缓慢踱步，镜头从低角度跟随它向前平移，地面积水反射出远处霓虹灯的红绿光，夜晚氛围，电影感，浅景深

镜头语言关键词速查

景别：

特写（close-up）— 突出细节和情绪
中景（medium shot）— 人物上半身，日常对话场景
全景（full shot）— 整个人物，展现肢体语言
远景（wide shot）— 交代环境，展示宏大场景
航拍视角（aerial shot）— 从上往下，宏观地图感

运镜：

镜头缓慢推进（slow push in）— 增加紧张感
镜头从左向右平移（pan left to right）
镜头跟随主体移动（tracking shot）
手持镜头，轻微抖动（handheld, slight shake）— 纪实感
环绕主体旋转（orbit around subject）— 360° 展示
上升镜头（crane up）— 从特写上升到全景

光线：

黄金时刻光线（golden hour）— 夕阳温暖橙光
蓝调时刻（blue hour）— 日落后冷蓝光
侧光（side lighting）— 戏剧性阴影
背光（backlighting）— 剪影效果
霓虹灯反射（neon reflections）— 赛博朋克
自然漫射光（soft natural light）— 清新、温柔

风格：

电影级画质（cinematic）
4K，超高清
浅景深（shallow depth of field）
吉卜力风格（Ghibli style）— 日系动画
赛博朋克（cyberpunk aesthetic）
水彩画风（watercolor illustration）
真实感，超写实（photorealistic，hyperrealistic）

提示词模板示例

场景：夜晚城市独行人物

一个穿着黑色风衣的年轻女性，背对镜头，独自行走在下雨的东京街道，镜头缓慢跟随她向前，路面倒映着五颜六色的霓虹广告牌，雨滴打在雨伞上，前景有少量虚化的人流，夜晚，赛博朋克美学，电影级画质，16:9

场景：自然风景延时

壮观的峡谷日出，橙红色光线从右侧照射进峡谷，镜头缓慢从下往上推移，晨雾在岩石间流动，无人机航拍角度，超写实，4K，《权力的游戏》风格摄影

场景：产品展示

一瓶高端香水放在深蓝色大理石台面上，水滴从瓶身滑落，镜头缓慢从侧面环绕，冷调光线，高光反射，商业广告风格，奢华感，浅景深

几条经验

1. 写中文还是英文？ 国内工具（可灵、即梦、通义万相）中英文都支持，但一些工具对英文提示词的响应更稳定。可以先用中文写清楚，再用 DeepSeek 翻译成英文提示词来比较效果。

2. 镜头运动放在后半段 先写清楚"画面里有什么"，再描述"镜头怎么动"。镜头描述太复杂会干扰 AI 对主体的理解。

3. 控制运动幅度 大幅度运动（奔跑、飞翔、爆炸）在当前 AI 视频生成中容易出现形变。新手阶段优先做低运动幅度的镜头（静坐、站立、缓步走）。

4. 用"首尾帧"控制故事转折 可灵 AI 支持上传开始帧和结束帧，AI 生成中间过渡。这是制作叙事转折镜头最可控的方法。比如：开始帧是阳光明媚的花园，结束帧是暴风雨的残垣断壁——中间的过渡 AI 会自动填充。

六、第五步：配音制作

视频有了，接下来解决声音的问题。配音包括两类：人声（旁白/对白） 和音效。

人声配音工具

剪映 AI 配音（capcut.cn）

最简单的选择，剪映已经内置了 50+ 种中文音色（电竞解说风、新闻播报、温柔女声、磁性男声等），输入文字即可一键生成语音。还支持"音色克隆"——上传自己 5 分钟录音，克隆出自己的声音。

完全免费，无需另外注册，与剪映的剪辑工作流无缝衔接。新手首选。

Fish Audio（fish.audio）

专业 AI 配音平台，音色数量多，情感细腻，在多语言支持上强过剪映。免费版可生成少量语音，付费版约 $9/月起。支持声音克隆（上传参考音频即可）。

国内可直接访问，效果比剪映更自然，适合对配音品质有更高要求的项目。

ElevenLabs（elevenlabs.io）

目前全球最好的 AI 配音工具，支持 29 种语言（含中文），情感层次最丰富。免费版每月约 10,000 字符（够 5-10 分钟配音）。需要科学上网。

MiniMax Audio TTS（minimax.io/audio）

海螺 AI 背后公司出品，提供免费的中文文字转语音 API，音质自然，支持情感控制。开发者友好。

配音实操建议

写好文案再配音：把旁白文字写完整，检查节奏（可以大声念一遍，确认没有别扭的句子）
控制语速：AI 配音默认语速偏快，生成后在剪辑软件里手动调整速度
留白：镜头切换、情绪转折处，配音里留 0.5-1 秒的停顿，会让视频呼吸感更好

七、第六步：配乐制作

背景音乐（BGM）和音效是视频情绪的一半。

AI 生成音乐

海绵音乐（字节跳动）

字节跳动出品，完全免费，中文处理最好，直接在网页生成。用法：输入歌曲风格、情绪、时长，点击生成。适合生成无人声的纯背景音乐，也支持生成带歌词的完整歌曲。

Suno（suno.ai / suno.cn 中文站）

全球最流行的 AI 音乐生成工具，免费版每天可生成约 10 首歌（50 积分）。输入风格描述或直接写歌词，几十秒内生成完整歌曲。免费版不支持商用，需要商用请升级付费版（$10/月起）。需要科学上网访问官网，或通过 suno.cn 中文站使用。

天工音乐（AI 天工，昆仑万维）

国内免费平台，支持输入文字生成 BGM，无需科学上网。

谱乐 AI / YourMusic（yourmusic.fun）

同时支持 Suno 和 Udio 两个模型的中文平台，对中文歌词优化较好，适合想用中文歌词制作 BGM 的创作者。

免版权音乐素材（不想生成、直接找现成的）

爱给网（aigei.com）：国内最大的免费音效 / 音乐素材库，分类细致，支持按情绪、乐器、BPM 检索，部分素材需注册
Pixabay Music（pixabay.com/music）：免费，CC0 协议，全商用，直接下载
Free Music Archive（freemusicarchive.org）：Creative Commons 音乐，按风格分类
Mixkit（mixkit.co）：免费音效 + 背景音乐，视频用途可直接商用

配乐建议

BGM 音量通常应比人声低 15-20dB，人声是主角
剪辑时让音乐和视频的节奏点对齐（剪映有"踩点"功能，自动标记音乐节拍）
不要在一个 60 秒视频里用超过 2 段不同风格的音乐，容易显得凌乱

八、第七步：剪辑与后期

有了所有素材（视频片段 + 配音 + 配乐），最后一步是剪辑合成。

工具选择

剪映（capcut.cn）——强烈推荐新手

国内使用率最高的剪辑工具，有网页版和桌面版，AI 功能深度整合：

自动字幕：上传视频，一键生成字幕，支持翻译成 15+ 种语言
AI 配音：在剪辑里直接生成人声
一键踩点：自动把视频切点对齐到音乐节拍
转场效果：预置数十种转场，拖拽即用
智能裁剪：自动识别画面重心，裁剪成不同比例（9:16/16:9/1:1）

完全免费（部分高级功能需会员，但基础剪辑够用）。

DaVinci Resolve（blackmagicdesign.com）——免费专业级

好莱坞专业调色和剪辑标准软件，个人版永久免费。学习曲线比剪映陡一些，但能做到影视级调色、更复杂的多轨道剪辑。如果你对画面质感有较高要求，值得学。

CapCut（capcut.com）——剪映国际版

功能与剪映几乎相同，面向海外市场，部分 AI 功能与剪映略有差异。

剪辑基本流程

新建项目，设置分辨率（1080p 或 4K）和帧率（24fps 电影感，30fps 通用）
导入所有素材（视频片段 + 配音 + 配乐）
粗剪：把镜头按照分镜顺序排列，先连起来看整体节奏
精剪：调整每个镜头的起止点，让切点自然（有对白时在句子结束后剪，无对白时在动作完成后剪）
加字幕：用自动字幕功能，生成后逐条检查，修正错别字
加转场：短视频中最常用的转场是"淡入淡出"（fade）和"直切"（hard cut），不要滥用花哨转场
调色：可以用剪映的"滤镜"或 DaVinci 的调色轮统一视频的整体色调
混音：调整 BGM、配音、音效三轨音量平衡，最终导出前用耳机检查一遍

九、免费素材资源大全

在 AI 生成的镜头之间，有时候需要补充一些实拍素材、音效、字体。以下是经过验证的免费资源：

视频素材

网站	特点
Pexels（pexels.com）	免费，无需注册，个人商用均可，有中文搜索
Pixabay（pixabay.com）	CC0 协议，免费全商用，视频/图片/音乐一站式
Mixkit（mixkit.co）	免费，直接商用，有 Premiere 模板
爱给网（aigei.com）	国内最全，部分免费，分类细

音效素材

网站	特点
Freesound（freesound.org）	最大的免费音效库，需注册，注意 CC 协议
Pixabay Sound	同 Pixabay，音效板块，CC0 协议
爱给网音效	国内，种类全，部分免费
Mixkit Sound Effects	免费，商用，直接下载

图片素材

网站	特点
Unsplash（unsplash.com）	高质量摄影，免费商用
Pexels 图片	同域名，免费商用
PICKFREE（pickfree.cn）	国内导航，整合了多个免版权素材站

字体

资源	特点
阿里巴巴普惠体	完全免费，可商用，覆盖常规字重
思源黑体 / 思源宋体	Adobe + Google 联合出品，开源商用
站酷系列字体	站酷网出品，免费商用，风格多样
字体天下（ziticq.com）	国内字体导航，标注授权情况

十、实战案例：从零到成片，完整走一遍

我们用一个具体项目把上面所有步骤串起来。

项目目标： 制作一个 60 秒的短片，主题是"深夜城市一个独行者的故事"，赛博朋克风格，无对白，有旁白字幕，配 AI 生成的电子 BGM。

Step 1：脚本（20 分钟）

打开 DeepSeek，输入：

我想做一个 60 秒的赛博朋克风格短片，主角是一个深夜在霓虹街道独行的年轻人，没有对白，用旁白字幕代替，情绪走向是：开始孤独，过程是迷失，结尾是某种和解。请给我 8 个分镜，每个描述画面、镜头类型、时长，最后给出整体旁白文案。

得到 8 个分镜描述 + 一段旁白文案。根据自己喜好调整细节。

Step 2：图像生成（30-60 分钟）

打开即梦 AI，把每个分镜的画面描述翻译成提示词，各生成 3-5 张，挑最好的一张。

例如分镜 2 的提示词：

年轻男性背影，穿黑色连帽衫，站在东京风格的夜晚十字路口，等红灯，周围有其他行人的虚化剪影，霓虹广告牌倒映在湿润路面，摄像机低角度从正面拍背影，赛博朋克风格，电影感，浅景深

生成满意后下载（8 张主要镜头关键帧）。

Step 3：视频生成（1-2 小时）

把 8 张关键帧图片上传到可灵 AI（图生视频模式），逐一生成对应镜头。每个镜头的提示词在原有画面描述基础上加入运镜指令：

镜头从低角度缓慢向上升，背景虚化的人群轻微流动，5 秒

等待生成，每条大约 2-5 分钟。对不满意的镜头重新生成（通常需要 2-3 次尝试）。

Step 4：配音（15 分钟）

把旁白文案粘贴到剪映的 AI 配音里，选一个"平静低沉男声"音色，生成语音。

试听后，在剪映里把语速调慢到 0.85x（AI 配音普遍偏快），导出音频文件。

Step 5：配乐（10 分钟）

打开海绵音乐，输入：

赛博朋克，电子音乐，沉浸感，孤独，夜晚城市，无人声，BPM 约 90，时长 70 秒

生成 3 条，选最合适的一条下载。

Step 6：剪辑（45-90 分钟）

打开剪映，新建 1080p/24fps 项目：

导入 8 段视频 + 配音 + BGM
按分镜顺序排列，粗剪
调整每段视频起止点，总时长控制在 58-62 秒
加入旁白字幕（直接拖音频到字幕轨道，使用自动字幕功能）
添加"淡入淡出"转场
加 BGM，音量调到 -18dB，配音调到 -6dB
加一个偏青绿色调的滤镜（强化赛博朋克感）
导出 1080p，H.264 格式

总耗时：约 3-4 小时（熟练后可压缩到 2 小时以内）

十一、常见问题

Q：AI 生成的视频有水印怎么办？ A：大多数工具在免费版会加水印。去水印要么升级付费版，要么用 DaVinci Resolve 的"Magic Mask"功能遮住水印区域（适合水印在角落的情况），或者在剪辑时把视频稍微裁剪掉有水印的边缘。

Q：生成的人物脸部一直在变，怎么保持一致？ A：这是 AI 视频目前最大的技术限制。推荐：① 整部视频主要用背影、侧影、远景（避免脸部特写）；② 用同一张角色卡作为"图生视频"的参考图；③ 在脚本设计阶段就规避大量脸部特写镜头。

Q：生成的视频里人物手脚变形怎么办？ A：当前 AI 视频在手部（尤其是手指）和脚部运动上容易出现形变，是技术通病。解决方式：① 避免手部特写；② 降低运动幅度；③ 通过重新生成多尝试几次选最好的。

Q：视频生成总是生出跟我描述不一样的东西？ A：提示词要更具体，越具体 AI 越能遵从。另外，先生成参考图（文生图），再用图生视频，比纯文生视频更容易控制画面内容。

十二、进阶方向：接下来可以学什么

当你完成了第一部作品，如果想进一步提升，有几条清晰的路径：

路径 1：精进提示词工程 专门研究镜头语言（景别/运镜/布光），会让你的提示词质量直接跃升一级。推荐阅读：《认识电影》（路易斯贾内梯）或 B 站上的"镜头语言"系列视频。

路径 2：学 ComfyUI（本地部署工作流） ComfyUI 是一个开源的 AI 图像 / 视频生成节点编辑器，可以把文生图、图生视频、音频生成等环节串成自动化流水线，并且完全本地运行（不花 token 钱）。需要一块 8GB+ NVIDIA 显卡。学习资源：RunningHub（runninghub.cn，有中文教程和现成工作流）。

路径 3：学 DaVinci Resolve 调色 大多数 AI 视频在色彩上偏平，学会调色可以大幅提升最终画面质感。DaVinci Resolve 有免费官方教程，1 个月可以掌握基础调色。

路径 4：做系列内容 真正建立创作能力的方式不是做一部精品，而是持续产出。定一个固定主题（比如"每周一个 60 秒赛博朋克短片"），用同一套工具和风格持续做，每次解决一个新问题，3 个月后你的能力和工具熟练度会完全不同。

最后

AI 视频最大的门槛，不是技术，而是开始。

很多人收藏了大量教程，下载了所有工具，设置了完美的文件夹，就是没出过一帧画面。

工具会一直迭代，今天最好的工具明天就可能被新工具取代。但一旦你走完了一遍完整的流程，你会发现：换工具只是换了界面，整条逻辑和工作流还是同一套。

找一个你真的想做的故事，用免费额度，先做完它。

（本文工具信息截至 2026 年 4 月，AI 工具迭代快，具体功能和价格以各平台官网为准）

零基础用 AI 做出自己的第一部视频：2026 年完整工作流指南#

写在前面#

一、先搞清楚：AI 视频的完整工作流是什么#

二、第一步：故事与脚本（AI 帮你想清楚）#

用 AI 写脚本#

分镜脚本的格式#

篇幅建议#

三、第二步：角色与场景设计（文生图）#

工具选择#

角色一致性：最难但最关键的问题#

实操建议#

四、第三步：AI 视频生成（核心环节）#

国内工具（优先推荐）#

可灵 AI（klingai.com）#

即梦 AI（jimeng.jianying.com）#

海螺 AI（hailuoai.com）#

Vidu（vidu.studio）#

通义万相 Wan（tongyi.aliyun.com/wanxiang/wanxvideo）#

国际工具（需要科学上网）#

Runway Gen-4（runwayml.com）#

Pika 2.0（pika.art）#

Sora 2（OpenAI ChatGPT Plus 内置）#

Google Veo 系列（Veo 2 / Veo 3 / Veo 3.1，需科学上网）#

怎么选：一张决策表#

五、第四步：写好提示词（这是最值得花时间的地方）#

基础公式#

镜头语言关键词速查#

提示词模板示例#

几条经验#

六、第五步：配音制作#

人声配音工具#

剪映 AI 配音（capcut.cn）#

Fish Audio（fish.audio）#

ElevenLabs（elevenlabs.io）#

MiniMax Audio TTS（minimax.io/audio）#

配音实操建议#

七、第六步：配乐制作#

AI 生成音乐#

海绵音乐（字节跳动）#

Suno（suno.ai / suno.cn 中文站）#

天工音乐（AI 天工，昆仑万维）#

谱乐 AI / YourMusic（yourmusic.fun）#

免版权音乐素材（不想生成、直接找现成的）#

配乐建议#

八、第七步：剪辑与后期#

工具选择#

剪映（capcut.cn）——强烈推荐新手#

DaVinci Resolve（blackmagicdesign.com）——免费专业级#

CapCut（capcut.com）——剪映国际版#

剪辑基本流程#

九、免费素材资源大全#

视频素材#

音效素材#

图片素材#

字体#

十、实战案例：从零到成片，完整走一遍#

十一、常见问题#

十二、进阶方向：接下来可以学什么#

最后#

零基础用 AI 做出自己的第一部视频：2026 年完整工作流指南

写在前面

一、先搞清楚：AI 视频的完整工作流是什么

二、第一步：故事与脚本（AI 帮你想清楚）

用 AI 写脚本

分镜脚本的格式

篇幅建议

三、第二步：角色与场景设计（文生图）

工具选择

角色一致性：最难但最关键的问题

实操建议

四、第三步：AI 视频生成（核心环节）

国内工具（优先推荐）

可灵 AI（klingai.com）

即梦 AI（jimeng.jianying.com）

海螺 AI（hailuoai.com）

Vidu（vidu.studio）

通义万相 Wan（tongyi.aliyun.com/wanxiang/wanxvideo）

国际工具（需要科学上网）

Runway Gen-4（runwayml.com）

Pika 2.0（pika.art）

Sora 2（OpenAI ChatGPT Plus 内置）

Google Veo 系列（Veo 2 / Veo 3 / Veo 3.1，需科学上网）

怎么选：一张决策表

五、第四步：写好提示词（这是最值得花时间的地方）

基础公式

镜头语言关键词速查

提示词模板示例

几条经验

六、第五步：配音制作

人声配音工具

剪映 AI 配音（capcut.cn）

Fish Audio（fish.audio）

ElevenLabs（elevenlabs.io）

MiniMax Audio TTS（minimax.io/audio）

配音实操建议

七、第六步：配乐制作

AI 生成音乐

海绵音乐（字节跳动）

Suno（suno.ai / suno.cn 中文站）

天工音乐（AI 天工，昆仑万维）

谱乐 AI / YourMusic（yourmusic.fun）

免版权音乐素材（不想生成、直接找现成的）

配乐建议

八、第七步：剪辑与后期

工具选择

剪映（capcut.cn）——强烈推荐新手

DaVinci Resolve（blackmagicdesign.com）——免费专业级

CapCut（capcut.com）——剪映国际版

剪辑基本流程

九、免费素材资源大全

视频素材

音效素材

图片素材

字体

十、实战案例：从零到成片，完整走一遍

十一、常见问题

十二、进阶方向：接下来可以学什么

最后