Google Gemini API 文档
  1. 安全
Google Gemini API 文档
  • 获取 API 密钥
  • API 版本说明
  • 下载内容
  • 在Google Cloud上运行Gemini
  • 模型功能
    • 概览
    • 长上下文
    • 数据化输出
    • 文档理解
    • 图片理解
    • 视频理解
    • 音频理解
    • 文本生成
      • 文字输入
      • 图片输入
      • 流式输出
      • 多轮对话
      • 多轮对话(流式)
      • 配置参数
    • 图片生成
      • 使用 Gemini 生成图片
      • 使用 Gemini 编辑图片
      • 使用 Imagen 3 生成图片
    • Gemini 思考
      • 使用思维模型
      • 为思考模型设置预算
    • 函数调用
      • 使用 Gemini API 进行函数调用
  • 模型
    • 所有模型
    • 价格
    • 速率限制
    • 账单信息
  • 安全
    • 安全设置
    • 安全指导
  1. 安全

安全指导

生成式人工智能模型是强大的工具,但不是 而不受其局限性它们的通用性和适用性有时会 会导致意外输出,例如不准确、有偏见或 令人反感。后期处理和严格的人工评估是 限制此类输出造成伤害的风险。
Gemini API 提供的模型可用于 生成式 AI 和自然语言处理 (NLP) 应用。使用 函数只能通过 Gemini API 或 Google AI Studio 网页版使用 应用。使用 Gemini API 时还须遵守生成式 AI 的使用限制规定 政策和 Gemini API 服务条款。
大型语言模型 (LLM) 之所以如此实用,部分原因在于 可以处理许多不同语言任务的创意工具。很抱歉, 这也意味着大语言模型可以生成 包括文本 令人反感、麻木不仁或与事实不符的内容。更重要的是, 这些模型用途广泛, 准确地预测它们可能产生哪些类型的不良输出。虽然 Gemini API 的设计采用了 Google 的 AI 技术, 原则,开发者的责任是: 负责任地应用这些模型帮助开发者打造安全可靠 Gemini API 内置了一些内容过滤功能, 可调整的 4 种伤害维度的安全设置。请参阅 安全设置指南。
本文档旨在向您介绍在下列情况下可能出现的安全风险: 使用 LLM,推荐新兴的安全设计和开发 建议。(请注意,法律法规可能也会施加限制, 但此类注意事项不在本指南的讨论范围内。)
使用 LLM 构建应用时,建议执行以下步骤:
了解应用的安全风险
考虑进行调整以缓解安全风险
执行适合您的用例的安全测试
向用户征求反馈并监控使用情况
调整和测试阶段应反复进行,直至达到 适合您应用的性能
e0543df65300342a9656cdd07144c1d8_safety_diagram_hl=zh-cn.png

了解应用的安全风险#

在这种情况下,安全性是指 LLM 避免 对用户造成伤害,例如通过生成恶意言论或内容 宣扬刻板印象的内容。通过 Gemini API 提供的模型 设计时谨记 Google 的 AI 原则 并且您在使用时需遵守《生成式 AI 使用限制》 政策。API 提供内置的安全过滤器,以帮助解决一些常见的语言模型问题 诸如恶意言论和仇恨言论等问题,并努力实现包容性 并避免刻板印象不过,每个应用 用户面临的风险因此,作为应用所有者,您有责任 了解您的用户以及您的应用可能造成的危害 确保您的应用安全负责地使用 LLM。
在此评估中,您应考虑 并确定问题的严重性并采取缓解措施。例如, 根据事实事件生成论文的应用需要更加谨慎 这与生成虚假信息的应用相比 来满足观众的娱乐需求探索潜在安全风险的好方法 调查您的最终用户,以及可能受您影响的 请求结果具体形式多种多样,包括研究 研究你的应用领域的艺术,观察人们如何使用类似应用 或开展用户调研、问卷调查或对他们进行非正式访谈 潜在用户

考虑进行调整以缓解安全风险#

现在您已经了解了风险,接下来可以决定如何缓解 。确定应优先处理哪些风险,以及尝试采取多大措施 预防错误是一项关键决策,类似于对软件中的错误进行分类 项目。确定优先事项后,您就可以开始考虑 最合适的缓解措施。通常,简单的更改就可能 有助于改变世界并降低风险。
例如,在设计应用时,请考虑以下因素:
微调模型输出,以更好地反映 应用上下文。调整可以使模型的输出 可预测且一致,因此有助于降低某些风险。
**提供一种能让输出更安全的输入方法。**确切的输入 对 LLM 的输出质量会有影响。 对输入提示进行实验,找到对您来说最安全的提示 非常值得努力,因为这样可以提供 会为其提供便利。例如,您可以限制用户只能从 下拉列表,或使用 描述性的 。
**屏蔽不安全的输入,并在输出显示给 用户。**在简单的场景中,我们可以使用屏蔽名单 提示或回答中包含不安全的字词或短语,或者需要人工审核员 手动更改或屏蔽此类内容。
注意 :基于静态列表自动屏蔽的操作可能会产生意外的结果 例如,定位通常使用词汇的特定群体 。
**使用经过训练的分类器为每个提示添加潜在危害或 对抗性信号。**然后,可以采用不同的策略来 根据检测到的损害类型处理请求。例如,如果 明显具有攻击性或侮辱性的内容,则系统可能会屏蔽 而是输出预先编写好的响应。
采取保护措施来防范故意滥用,例如将 为每个用户提供唯一 ID,并对用户查询量施加限制 可在指定时间段内提交的所有文件另一种保护措施是 防止可能的提示注入。提示注入,与 SQL 非常相似 是恶意用户设计输入提示的一种方法, 操控模型的输出,例如,通过发送输入提示 指示模型忽略前面的所有样本。请参阅 生成式 AI 使用限制政策 。
将功能调整为本身风险较低的功能。 范围更小的任务(例如,从 或者有较强的人工监督(例如,生成简短的 会经过人工审核的内容)通常比较低风险。对于 而无需创建用于撰写电子邮件回复的应用 也可以将其限制为仅放大轮廓或建议 备选措辞

执行适合您的用例的安全测试#

测试是构建强大且安全的应用的关键一环, 范围和测试策略会有所不同。例如,纯粹的俳句诗 风险投资开发商产生的风险可能不及 供律师事务所用于总结法律文件并帮助起草合同。但是 更加广泛的用户可能会使用俳句诗生成器,这意味着 对抗性尝试,甚至是意外的有害输入, 。实施环境也很重要。例如,一个应用 包含经过人工专家审核后的输出结果 被认为产生有害输出的可能性要低于相同水平 在没有此类监督的情况下使用应用。
反复多次进行更改并进行测试是很常见的情况 再确信您已做好发布准备,即使是 风险相对较低两种测试对 AI 特别有用 应用:
安全基准测试涉及设计安全指标来反映 您的应用可能不安全的方式, 然后测试您的应用在各项指标方面的表现 评估模型。最好考虑一下 可接受的安全指标级别,以便 1) 您可以 对照这些预期评估测试结果;2) 您可以收集 根据用于评估所关注指标的测试来构建评估数据集 大部分信息。
对抗性测试涉及主动尝试破坏 应用。目标是找出不足之处, 采取适当的补救措施。对抗性测试可能需要 在您的应用方面具备专业知识的评估员花费大量时间/精力 - 但使用得越多,就越有可能发现问题 尤其是极少发生或者仅在重复运行 应用。
对抗性测试是一种系统地评估机器学习 学习模型在向模型提供参数时 恶意或无意间有害的输入:<ph type="x-smartling-placeholder">
如果输入内容明显是为了 输出不安全或有害的内容,例如询问文本 来针对某个特定应用 宗教信仰。
如果输入本身可能被意外伤害, 无害,但会产生有害的输出,例如询问文本 来描述特定种族人群的 收到种族主义输出。
对抗性测试与标准评估的区别在于 用于测试的数据的组成。对于对抗性测试,请选择 最有可能导致问题输出的测试数据, 模型。这意味着要探测模型在各类 可能的危害,包括罕见或不常见的示例以及 与安全政策相关的极端情况。它还应包含 句子不同维度的多样性,例如结构、 含义和长度。您可以参阅 Google 的 Responsible AI 做法 公平性,详细了解构建测试数据集时应考虑的事项。
注意: 众所周知,LLM 有时会为 相同的输入提示。可能需要进行多轮测试才能捕获更多 问题输出。

监控问题#

无论您进行了多少测试和缓解,都无法保证完美,因此 提前规划如何发现和处理出现的问题。普通 方法包括建立一个受监控的渠道,供用户分享反馈 (例如,点赞/不喜欢评分),并开展用户调研来主动征求用户意见 来自不同用户群体的反馈,尤其是在用户使用规律 与预期不同

后续步骤#

请参阅 安全设置指南,了解可调整的 Gemini API 提供的安全设置。
如需获取帮助,请参阅提示简介 开始编写您的第一批提示。
上一页
安全设置
Built with