谷歌 Antigravity Agent 介绍及使用教程：“规则”和“工作流”的自定义机制

谷歌 Antigravity Agent 是 Google Antigravity 平台的核心 AI 功能，它是一个强大的多步推理系统。这个 Agent 由前沿的大语言模型 (LLM) 驱动，能够深入理解你的现有代码，并利用各种工具（包括浏览器）执行复杂任务。它通过任务、Artifacts 等形式与用户进行高效沟通，将 AI 的智能集成到开发流程中。

Agent 的能力由几个核心组件共同构建。首先是它的推理模型，这是驱动 Agent 思维和决策的大脑。其次，Agent 能够使用多种工具，比如代码编辑器、终端和浏览器，来执行实际操作。

在工作过程中，它会产生各种 Artifacts，这些是 Agent 生成的中间结果或输出，例如任务计划、代码片段或研究报告。所有这些都建立在 Agent 所拥有的知识基础之上，通过这些知识它能更好地理解上下文并做出决策。

推理模型深度解析

Agent 的核心推理能力由 Google Vertex Model Garden 中的领先前沿模型提供支持。用户可以在对话提示框下方的模型选择器中根据任务需求灵活选择不同的推理模型。

当 Agent 正在运行时切换模型，它会继续使用当前已选择的模型完成该用户回合的所有步骤，除非用户取消当前执行。这种设计确保了任务的连续性和稳定性。

核心推理模型选项：

模型名称	特点	应用场景
Gemini 3 Pro (高)	高性能、高精度	复杂的推理、深度研究
Gemini 3 Pro (低)	性能与成本平衡	多数通用开发任务
Gemini 3 Flash	快速响应、高效	强调速度、实时交互
Claude Sonnet 4.5	良好平衡的性能和成本	通用开发、代码生成
Claude Sonnet 4.5 (思考)	专为深入思考和规划优化	复杂问题分解、多步骤规划
Claude Opus 4.5 (思考)	最强性能，专为深入思考优化	极限复杂问题、需要顶尖推理能力的场景
GPT-OSS	开源兼容	特定开源项目集成或兼容需求

除了上述可供选择的核心推理模型外，Antigravity Agent 还在后台集成了多种其他专用模型，这些模型通常是不可定制的，但对 Agent 的整体功能至关重要。例如：

Nano Banana Pro：专门用于生成图像，当 Agent 需要创建 UI 模型、网页或应用程序中的图像、系统或架构图，或执行其他图像生成任务时，它就会被调用。
Gemini 2.5 Pro UI Checkpoint：这是浏览器子代理背后的核心驱动力。它负责实现浏览器操作，例如点击、滚动页面或填写输入框等。
Gemini 2.5 Flash：在后台用于执行检查点操作和上下文摘要，提升 Agent 的运行效率和信息管理。
Gemini 2.5 Flash Lite：服务于代码库的语义搜索工具，帮助 Agent 更智能地理解和检索代码。

Agent 模式与全局设置

为了适应不同的工作场景和用户偏好，Antigravity Agent 提供了多种操作模式和可配置的全局设置。

对话级别模式

在开始一个新的 Agent 对话时，用户可以在两种主要模式之间进行选择，以匹配当前任务的复杂度和速度要求：

规划模式 (Planning): 这种模式下，Agent 会在执行任务前进行详细的规划。它非常适合于需要深度研究、解决复杂问题或进行协作开发的工作。Agent 会将工作分解为任务组，生成中间工件 (Artifacts)，并采取一系列步骤来彻底研究、思考和规划工作，以确保最佳质量。
快速模式 (Fast): Agent 在此模式下会直接执行任务，跳过详细的规划阶段。它更适用于可以快速完成的简单任务，例如重命名变量、执行几条 Bash 命令或处理其他局部性较小的任务。当速度是关键因素，且任务足够简单、不太可能出现质量问题时，选择此模式能够显著提升效率。

全局设置

Agent 的全局设置可以在“设置”面板的“Agent”选项卡中找到，这些设置会影响所有 Agent 对话的行为。

设置项	选项	描述
工件审核策略 (Artifact Review Policy)	始终进行 (Always Proceed)	Agent 生成实施计划后，不会向用户请求审核，直接继续执行。当您信任 Agent 的判断，或不需要手动干预规划阶段时，此选项可以加快工作流程。
	请求审核 (Request Review)	Agent 生成实施计划后，总是会暂停并向用户请求审核。Agent 会终止当前执行，等待用户审查计划并添加评论，然后才能继续。这在需要严格控制 Agent 行为、避免意外更改的场景中非常有用。
终端命令自动执行 (Terminal Command Auto Execution)	请求审核 (Request Review)	Agent 在执行任何终端命令之前，除了允许列表中的命令外，总是会提示用户确认。即使允许列表中包含某些命令，在安全模式下也会被忽略，所有命令都需要审核。
	始终进行 (Always Proceed)	Agent 会自动执行终端命令，除非该命令在拒绝列表中。允许列表和拒绝列表可以在设置的“Agent”选项卡中配置，以实现更精细的权限控制。对于 Unix Shell，匹配是基于空格分隔的令牌前缀；对于 PowerShell，则匹配连续的子序列。此设置的更改仅对新发送给 Agent 的消息生效。
Agent 非工作区文件访问 (Agent Non-Workspace File Access)	启用/禁用	默认情况下，Agent 只能访问当前工作区内的文件以及应用程序根文件夹 `~/.antigravity/` 下的文件（包含工件、知识项等 Antigravity 专用数据）。启用此选项允许 Agent 查阅和编辑工作区之外的文件。这项功能需要谨慎使用，因为它可能导致本地敏感数据暴露给 Agent。

规则与工作流：定制 Agent 行为

Agent 提供了“规则”和“工作流”两种强大的自定义机制，帮助用户根据自己的具体需求和工作习惯来引导 Agent，使其更好地融入现有开发流程。

规则 (Rules)

规则是用户为 Agent 手动定义的约束，既可以在局部层级设置，也可以作为全局设置应用于所有工作区。通过规则，用户可以根据任务、技术栈和个人风格，指导 Agent 遵循特定的行为。

开始使用规则的步骤非常直观：

打开编辑器代理（Agent）面板顶部的“...”下拉菜单，进入“自定义（Customizations）”面板。
导航至“规则”面板。
点击 + Global 可以创建适用于所有工作区的全局规则，或者点击 + Workspace 创建特定于当前工作区的规则。

规则本身是一个 Markdown 文件，用户可以在其中输入具体的约束条件。这些文件支持 12,000 字符的限制，足以容纳详细的指导信息。

全局规则：存储在 ~/.gemini/GEMINI.md，它会作用于用户的所有工作区，提供通用的行为指导。
工作区规则：存储在工作区或 Git 根目录的 .agent/rules 文件夹中，这些规则仅在当前工作区生效。

规则的激活方式多样，可以灵活控制：

规则激活方式	描述
手动 (Manual)	规则通过在 Agent 的输入框中 `@` 提及文件名来手动激活。
始终开启 (Always On)	规则总是被应用，无需额外触发。
模型决策 (Model Decision)	Agent 会根据规则的自然语言描述，自主决定是否应用该规则。
全局模式 (Glob)	根据用户定义的 glob 模式（例如 `.js`, `src/**/.ts`），规则将应用于所有匹配的文件。

在规则文件中，可以使用 @filename 引用其他文件。如果 filename 是相对路径，它会相对于规则文件本身解析；如果是绝对路径，则会被解析为真实的绝对路径；否则，会相对于仓库根目录解析。例如，@/path/to/file.md 会首先尝试解析为 /path/to/file.md，如果不存在，则解析为 workspace/path/to/file.md。

工作流 (Workflows)

工作流允许用户定义一系列结构化的步骤，以引导 Agent 完成重复性任务，例如部署服务或回复 PR 评论。这些工作流以 Markdown 文件形式保存，提供了一种简单且可重复的方式来运行关键流程。一旦保存，工作流可以通过斜杠命令（例如 /workflow-name）在 Agent 中调用。

工作流与规则不同，规则在提示级别提供持久、可重用的上下文以指导模型，而工作流则在轨迹级别提供结构化的步骤序列或提示，引导模型完成一系列相互关联的任务或动作。

创建工作流的流程与创建规则（Rules）相似：

打开编辑器代理面板顶部的“...”下拉菜单，进入“自定义”面板。
导航至“工作流”面板。
点击 + Global 可以创建可在所有工作区中访问的全局工作流，或者点击 + Workspace 创建特定于当前工作区的工作流。

工作流文件同样是 Markdown 格式，包含标题、描述和一系列带有 Agent 遵循的具体指令的步骤。每个工作流文件也限制在 12,000 字符以内。

执行工作流时，只需在 Agent 中调用 /workflow-name 命令即可。工作流甚至可以嵌套调用其他工作流，实现复杂流程的自动化。例如，一个工作流可以包含“调用 /workflow-2”和“调用 /workflow-3”等指令。Agent 在调用后会按顺序处理工作流中定义的每个步骤，执行指定的操作或生成响应。

Agent 还可以根据用户的操作历史自动生成工作流。如果用户手动完成了一系列步骤，可以要求 Agent 基于这些对话历史来创建一个工作流，这对于将临时性操作转化为可复用流程非常方便。

浏览器子代理与安全模式

Agent 在与外部环境交互时，特别是涉及网页操作和文件系统访问时，都有一套精细的机制来保证功能性和安全性。

浏览器子代理 (Browser Subagent)

当主 Agent 需要与浏览器进行交互时，它会唤起一个专门的浏览器子代理来处理这项任务。这个子代理运行一个专门的模型，例如 Gemini 2.5 Pro UI Checkpoint，与用户为主 Agent 选择的模型是独立的。

这个子代理拥有访问和控制浏览器的丰富工具集，包括点击页面元素、滚动视图、在输入框中打字、读取控制台日志等等。它还能通过 DOM 结构捕获、屏幕截图或 Markdown 解析等方式读取当前打开的网页内容，甚至能够录制视频。

当 Agent 控制页面时，页面上会出现一个带有蓝色边框的叠加层，并显示简短的操作描述。在此期间，用户无法直接与页面互动，以避免干扰 Agent 的操作。值得一提的是，浏览器子代理可以作用于非焦点的标签页，这意味着用户可以在 Agent 处理网页任务的同时，在其他标签页中自由工作而不受影响。

安全模式 (Secure Mode)

为了提供更强的安全保障，Agent 引入了安全模式。启用安全模式后，会强制执行多项安全措施，以保护您的开发环境免受潜在风险。

安全模式下的主要功能包括：

浏览器 URL 允许/拒绝列表：在此模式下，Agent 访问外部网站的能力将受到浏览器允许列表和拒绝列表的严格限制。这不仅适用于 Agent 使用“Read URL”工具访问的网址，也包括 Markdown 中引用的外部图像 URL。
终端、浏览器和工件审核策略：
终端自动执行：强制设置为“请求审核”。这意味着 Agent 在执行任何终端命令之前，总是会提示用户进行权限确认。即使是在非安全模式下配置的终端命令允许列表，在安全模式下也会被忽略，所有命令都需经过用户审批。
浏览器 Javascript 执行：强制设置为“请求审核”。Agent 在尝试执行浏览器内的 JavaScript 代码时，总是会提示用户进行确认。
工件审核：强制设置为“请求审核”。Agent 在根据工件中制定的计划采取行动之前，总是会提示用户进行确认。
文件系统访问：安全模式严格限制 Agent 对文件系统的访问，确保它只能与授权文件互动。
遵守 .gitignore：Agent 会尊重项目中的 .gitignore 文件规则，阻止它访问被忽略的文件，从而保护敏感或不必要的文件不被处理。
工作区隔离：禁用对工作区外部文件的访问。Agent 只能查看和编辑指定工作区内的文件，有效防止越界操作。

任务组：管理复杂任务

在规划模式 (Planning mode)下，Antigravity Agent 能够有效处理大型而复杂的任务，它通过任务组 (Task Groups)将这些问题分解成更小、更易于管理的单元。通常，Agent 会同时处理整体任务的多个部分，而任务组就是这些变更呈现给用户的方式。

一个任务组的顶部组件会明确指出该任务的整体目标，并总结在该工作单元内所做的所有变更。此外，还有一个专门用于显示已编辑文件的区域，方便用户快速审计变更：点击文件标签，即可查看已更改文件的当前状态。

在任务组内部，Agent 会识别并定义多个子任务，这些子任务有助于模块化必要的更改。Agent 的所有工作进展都可以在这些进度更新部分中查看。默认情况下，子任务中的详细信息不会直接暴露给用户，但如果需要，用户可以通过切换按钮展开，查看 Agent 执行的精确步骤。

有时，任务组内会包含一些待处理的步骤，例如浏览器设置或需要用户批准的终端命令。在这种情况下，Agent 不会展开所有更新细节，而是在任务组的末尾提供一个特殊区域，用户可以在其中统一审查这些待处理的步骤。

Antigravity Agent 作为一个全面的 AI 助手，通过其灵活的模型选择、可定制的模式、精细的规则与工作流，以及强大的安全保障，旨在为开发者提供一个高效、智能且可控的开发体验。

开发必备：API 全流程管理神器 Apifox

介绍完上文的内容，我想额外介绍一个对开发者同样重要的效率工具 —— Apifox。作为一个集 API 文档、API 调试、API 设计、API 测试、API Mock、自动化测试等功能于一体的 API 管理工具，Apifox 可以说是开发者提升效率的必备工具之一。

如果你正在开发项目需要进行接口调试，不妨试试 Apifox。注册过程非常简单，你可以直接在这里注册使用。

立即体验 Apifox

注册成功后可以先看看官方提供的示例项目，这些案例都是经过精心设计的，能帮助你快速了解 Apifox 的主要功能。

使用 Apifox 的一大优势是它完全兼容 Postman 和 Swagger 数据格式，如果你之前使用过这些工具，数据导入会非常方便。而且它的界面设计非常友好，即使是第一次接触的新手也能很快上手，快去试试吧！

免费使用 Apifox