微调模型输出,以更好地反映 应用上下文。调整可以使模型的输出 可预测且一致,因此有助于降低某些风险。
**提供一种能让输出更安全 的输入方法。**确切的输入 对 LLM 的输出质量会有影响。 对输入提示进行实验,找到对您来说最安全的提示 非常值得努力,因为这样可以提供 会为其提供便利。例如,您可以限制用户只能从 下拉列表,或使用 描述性的 。
**屏蔽不安全的输入,并在输出显示给 用户。**在简单的场景中,我们可以使用屏蔽名单 提示或回答中包含不安全的字词或短语,或者需要人工审核员 手动更改或屏蔽此类内容。注意 :基于静态列表自动屏蔽的操作可能会产生意外的结果 例如,定位通常使用词汇的特定群体 。
**使用经过训练的分类器为每个提示添加潜在危害或 对抗性信号。**然后,可以采用不同的策略来 根据检测到的损害类型处理请求。例如,如果 明显具有攻击性或侮辱性的内容,则系统可能会屏蔽 而是输出预先编写好的响应。
采取保护措施来防范故意滥用,例如将 为每个用户提供唯一 ID,并对用户查询量施加限制 可在指定时间段内提交的所有文件另一种 保护措施是 防止可能的提示注入。提示注入,与 SQL 非常相似 是恶意用户设计输入提示的一种方法, 操控模型的输出,例如,通过发送输入提示 指示模型忽略前面的所有样本。请参阅 生成式 AI 使用限制政策 。 将功能调整为本身风险较低的功能。 范围更小的任务(例如,从 或者有较强的人工监督(例如,生成简短的 会经过人工审核的内容)通常比较低风险。对于 而无需创建用于撰写电子邮件回复的应用 也可以将其限制为仅放大轮廓或建议 备选措辞