系统掌握 Google Veo 3.1 的能力、提示词公式与多步骤创作工作流

Veo 3.1 终极提示词指南

“一张图片胜过千言万语，一段视频胜过百万文字。”

对创作者来说，生成式视频的最大魅力在于，它能让任何故事或概念变成现实。但现实常常不如人意：你输入提示词（prompt），然后只能“祈祷”结果可用，却无法掌控角色一致性、镜头质感或叙事连贯性。

这份指南是你“导演” Veo 3.1 的使用框架。Veo 3.1 是最新的视频生成模型，相较于 Veo 3，它拥有更高的提示词理解力，并在“图转视频”时呈现更出色的画质与音效。

原文地址：Ultimate prompting guide for Veo 3.1
译者补充：Seek Journey 的 X 帖子

本指南将带你学习

了解 Veo 3.1 在 Vertex AI 上的全部能力；
掌握编写提示词公式，让角色与风格保持一致；
使用专业影视语言来导演画面与声音；
结合 Gemini 2.5 Flash Image（Nano Banana）实现更复杂的创意工作流。

一、Veo 3.1 模型能力概览

Veo 3.1 的核心提升在于 “视觉 + 音频” 一体化生成，帮助你打造更完整的场景。目前这些功能仍处于实验阶段，我们将持续改进，也期待看到你创造的内容。

核心生成能力

高清视频：支持 720p 或 1080p 输出。
画面比例：支持 16:9 或 9:16。
片段时长：可生成 4、6 或 8 秒的视频。
丰富音效与对白：能生成逼真且同步的音频，包括多人对话、精准音效等。
复杂场景理解：具备更深的叙事理解力，能更好地表现人物互动与故事节奏。

高级创作控制

图转视频优化：动画生成更贴近提示词，画质与音效更优。
素材转视频一致性控制：可输入角色、物品或风格参考图，实现多镜头风格统一。
首尾帧过渡：可输入起始图和结束图，生成自然连贯的视频与声音。
添加或删除物体：在视频中插入或去除物体，同时保留原场景构图。
数字水印：所有生成视频都带有 SynthID，标明 AI 生成。

注意：添加或删除物体功能暂使用 Veo 2 模型，不支持音频生成。

二、高效提示词公式

一个结构清晰的提示词能产出更稳定高质的视频。推荐使用以下五要素公式：

[镜头语言] + [主体] + [动作] + [环境] + [风格与氛围]

镜头语言：定义取景方式与机位（如：特写、全景、俯拍）。
主体：说明主角或主要物体是谁。
动作：描述主体的行为。
环境：交代场景背景与细节。
风格与氛围：设定整体美术风格、灯光和情绪。

示例提示词： “中景，一位疲惫的上班族，在深夜杂乱的办公室里，揉着太阳穴。桌上是一台笨重的 80 年代电脑，顶灯的冷白光和显示器的绿色光交织成复古氛围，画质略带颗粒感。”

三、关键提示技巧

掌握以下技巧，你将能精准控制生成的画面与声音。

镜头语言

镜头是传达情绪的核心。

镜头运动：推镜（dolly）、跟拍（tracking）、摇臂（crane）、航拍（aerial）、慢速横摇（slow pan）、主观镜头（POV）。示例：“摇臂镜头从登山者脚边升起，镜头向上揭示出他正立在云雾缭绕的巨大峡谷边缘，清晨光影柔和，史诗奇幻风格。”
构图方式：大全景、特写、仰拍、双人镜头等。
镜头焦距与景深：浅景深、广角、柔焦、微距、深焦等。示例：“夜晚下雨的公交车上，少女的脸被窗外霓虹照亮，浅景深下她的倒影模糊可见，冷蓝调、忧郁氛围。”

声音设计

Veo 3.1 能根据文字生成完整的配乐与音效：

对白：使用引号表示，例如：一名女子说：“我们必须立刻离开。”
音效（SFX）：明确描述声音，例如：SFX: 远处传来雷声。
环境音：交代背景音，例如：Ambient noise: 飞船驾驶舱的低频嗡鸣。

否定提示词

想让结果更纯净，可说明你不希望出现的元素。例如：用“荒无人烟的原野，没有任何建筑或道路”，而不是“不要城市”。

Gemini 增强提示词

如果你的提示词太简单，可以用 Gemini 帮你自动补全细节，生成更具画面感与电影感的描述。

四、高级创作工作流

单条提示词可以生成好视频，但多步骤的“导演式工作流”能让创作更可控。以下展示如何结合 Veo 3.1 与 Gemini 2.5 Flash Image（Nano Banana） 实现更复杂的创意。

工作流 1：首尾帧过渡（First & Last Frame）

在两张图之间创建自然的镜头移动或场景转换。

生成起始画面（Gemini）

“中景，女歌手在昏暗舞台上对着复古麦克风深情演唱，正面单光照亮她的面庞，写实风格。”
生成结束画面（Gemini）

“POV 镜头，从舞台后方看向沸腾的观众，灯光耀眼，舞台上可见歌手背影。”
在 Veo 中动画化

“镜头绕歌手 180 度旋转，从正面平滑过渡到舞台后方视角。她唱着‘When you look me in the eyes, I can see a million stars.’”

工作流 2：对话场景（Ingredients to Video）

用于生成有一致角色的多镜头对话。

生成角色和场景参考图（Gemini）：例如侦探、女人、办公室等三张图片。
在 Veo 中合成视频：

“使用提供的侦探、女人与办公室图片，生成侦探坐在桌后抬头对女人说：‘在这城市所有的办公室里，你偏偏走进了我的。’”

“镜头切换到女人，她微笑回应：‘有人说，你是这里最好的。’”

工作流 3：时间轴分镜（Timestamp Prompting）

在一个视频中用时间片段控制多个镜头的节奏。

[00:00-00:02] 背拍镜头：女探险者拨开藤蔓，发现一条隐秘小径。
[00:02-00:04] 正面镜头：她惊叹地望着远处的古老遗迹。SFX: 鸟鸣与树叶摩擦声。
[00:04-00:06] 跟拍镜头：她抚摸石墙上的雕刻，眼神充满敬畏。
[00:06-00:08] 高空摇臂镜头：俯瞰整座被丛林吞噬的庞大神庙，背景响起温柔的管弦乐。

运用上述工作流，你可以在 Veo 3.1 中建立可控、可复用的提示词资产，支持快速迭代和团队协作。