Logo极客杰尼知识库

Veo 3.1 终极提示词指南

系统掌握 Google Veo 3.1 的能力、提示词公式与多步骤创作工作流

Veo 3.1 终极提示词指南

“一张图片胜过千言万语,一段视频胜过百万文字。”

对创作者来说,生成式视频的最大魅力在于,它能让任何故事或概念变成现实。但现实常常不如人意:你输入提示词(prompt),然后只能“祈祷”结果可用,却无法掌控角色一致性、镜头质感或叙事连贯性。

这份指南是你“导演” Veo 3.1 的使用框架。Veo 3.1 是最新的视频生成模型,相较于 Veo 3,它拥有更高的提示词理解力,并在“图转视频”时呈现更出色的画质与音效。


本指南将带你学习

  • 了解 Veo 3.1 在 Vertex AI 上的全部能力;
  • 掌握编写提示词公式,让角色与风格保持一致;
  • 使用专业影视语言来导演画面与声音;
  • 结合 Gemini 2.5 Flash Image(Nano Banana)实现更复杂的创意工作流。

一、Veo 3.1 模型能力概览

Veo 3.1 的核心提升在于 “视觉 + 音频” 一体化生成,帮助你打造更完整的场景。目前这些功能仍处于实验阶段,我们将持续改进,也期待看到你创造的内容。

核心生成能力

  • 高清视频:支持 720p 或 1080p 输出。
  • 画面比例:支持 16:9 或 9:16。
  • 片段时长:可生成 4、6 或 8 秒的视频。
  • 丰富音效与对白:能生成逼真且同步的音频,包括多人对话、精准音效等。
  • 复杂场景理解:具备更深的叙事理解力,能更好地表现人物互动与故事节奏。

高级创作控制

  • 图转视频优化:动画生成更贴近提示词,画质与音效更优。
  • 素材转视频一致性控制:可输入角色、物品或风格参考图,实现多镜头风格统一。
  • 首尾帧过渡:可输入起始图和结束图,生成自然连贯的视频与声音。
  • 添加或删除物体:在视频中插入或去除物体,同时保留原场景构图。
  • 数字水印:所有生成视频都带有 SynthID,标明 AI 生成。

注意:添加或删除物体功能暂使用 Veo 2 模型,不支持音频生成。


二、高效提示词公式

一个结构清晰的提示词能产出更稳定高质的视频。推荐使用以下五要素公式:

[镜头语言] + [主体] + [动作] + [环境] + [风格与氛围]

  • 镜头语言:定义取景方式与机位(如:特写、全景、俯拍)。
  • 主体:说明主角或主要物体是谁。
  • 动作:描述主体的行为。
  • 环境:交代场景背景与细节。
  • 风格与氛围:设定整体美术风格、灯光和情绪。

示例提示词: “中景,一位疲惫的上班族,在深夜杂乱的办公室里,揉着太阳穴。桌上是一台笨重的 80 年代电脑,顶灯的冷白光和显示器的绿色光交织成复古氛围,画质略带颗粒感。”


三、关键提示技巧

掌握以下技巧,你将能精准控制生成的画面与声音。

镜头语言

镜头是传达情绪的核心。

  • 镜头运动:推镜(dolly)、跟拍(tracking)、摇臂(crane)、航拍(aerial)、慢速横摇(slow pan)、主观镜头(POV)。 示例:“摇臂镜头从登山者脚边升起,镜头向上揭示出他正立在云雾缭绕的巨大峡谷边缘,清晨光影柔和,史诗奇幻风格。”
  • 构图方式:大全景、特写、仰拍、双人镜头等。
  • 镜头焦距与景深:浅景深、广角、柔焦、微距、深焦等。 示例:“夜晚下雨的公交车上,少女的脸被窗外霓虹照亮,浅景深下她的倒影模糊可见,冷蓝调、忧郁氛围。”

声音设计

Veo 3.1 能根据文字生成完整的配乐与音效:

  • 对白:使用引号表示,例如:一名女子说:“我们必须立刻离开。”
  • 音效(SFX):明确描述声音,例如:SFX: 远处传来雷声。
  • 环境音:交代背景音,例如:Ambient noise: 飞船驾驶舱的低频嗡鸣。

否定提示词

想让结果更纯净,可说明你不希望出现的元素。例如:用“荒无人烟的原野,没有任何建筑或道路”,而不是“不要城市”。

Gemini 增强提示词

如果你的提示词太简单,可以用 Gemini 帮你自动补全细节,生成更具画面感与电影感的描述。


四、高级创作工作流

单条提示词可以生成好视频,但多步骤的“导演式工作流”能让创作更可控。以下展示如何结合 Veo 3.1Gemini 2.5 Flash Image(Nano Banana) 实现更复杂的创意。

工作流 1:首尾帧过渡(First & Last Frame)

在两张图之间创建自然的镜头移动或场景转换。

  1. 生成起始画面(Gemini)

    “中景,女歌手在昏暗舞台上对着复古麦克风深情演唱,正面单光照亮她的面庞,写实风格。”

  2. 生成结束画面(Gemini)

    “POV 镜头,从舞台后方看向沸腾的观众,灯光耀眼,舞台上可见歌手背影。”

  3. 在 Veo 中动画化

    “镜头绕歌手 180 度旋转,从正面平滑过渡到舞台后方视角。她唱着‘When you look me in the eyes, I can see a million stars.’”

工作流 2:对话场景(Ingredients to Video)

用于生成有一致角色的多镜头对话。

  1. 生成角色和场景参考图(Gemini):例如侦探、女人、办公室等三张图片。

  2. 在 Veo 中合成视频

    “使用提供的侦探、女人与办公室图片,生成侦探坐在桌后抬头对女人说:‘在这城市所有的办公室里,你偏偏走进了我的。’”

    “镜头切换到女人,她微笑回应:‘有人说,你是这里最好的。’”

工作流 3:时间轴分镜(Timestamp Prompting)

在一个视频中用时间片段控制多个镜头的节奏。

[00:00-00:02] 背拍镜头:女探险者拨开藤蔓,发现一条隐秘小径。
[00:02-00:04] 正面镜头:她惊叹地望着远处的古老遗迹。SFX: 鸟鸣与树叶摩擦声。
[00:04-00:06] 跟拍镜头:她抚摸石墙上的雕刻,眼神充满敬畏。
[00:06-00:08] 高空摇臂镜头:俯瞰整座被丛林吞噬的庞大神庙,背景响起温柔的管弦乐。

运用上述工作流,你可以在 Veo 3.1 中建立可控、可复用的提示词资产,支持快速迭代和团队协作。