Google Gemini API 文档
  1. 模型功能
Google Gemini API 文档
  • 获取 API 密钥
  • API 版本说明
  • 下载内容
  • 在Google Cloud上运行Gemini
  • 模型功能
    • 概览
    • 长上下文
    • 数据化输出
    • 文档理解
    • 图片理解
    • 视频理解
    • 音频理解
    • 文本生成
      • 文字输入
      • 图片输入
      • 流式输出
      • 多轮对话
      • 多轮对话(流式)
      • 配置参数
    • 图片生成
      • 使用 Gemini 生成图片
      • 使用 Gemini 编辑图片
      • 使用 Imagen 3 生成图片
    • Gemini 思考
      • 使用思维模型
      • 为思考模型设置预算
    • 函数调用
      • 使用 Gemini API 进行函数调用
  • 模型
    • 所有模型
    • 价格
    • 速率限制
    • 账单信息
  • 安全
    • 安全设置
    • 安全指导
  1. 模型功能

概览

借助 Gemini API,您可以使用 Google 提供的最新生成模型。熟悉了该 API 提供的一般功能后,请尝试根据所选语言快速入门,开始进行开发。
注意 :如果您刚开始接触生成式 AI 模型,请访问概念指南,或开始在 Google AI Studio 中对提示进行原型设计。

模型#

Gemini 是 Google 开发的一系列多模态生成式 AI 模型。Gemini 模型可以接受提示中的文本和图片(具体取决于您选择的模型变体),并输出文本响应。旧版 PaLM 模型接受纯文本和输出文本响应。
如需获取更详细的模型信息,请参阅模型页面。您还可以使用 list_models 方法列出所有可用的模型,然后使用 get_model 方法获取特定模型的元数据。

提示数据和设计#

特定的 Gemini 模型同时接受图片和文本数据作为输入。此功能为生成内容、分析数据和解决问题提供了许多其他的可能性。您需要考虑一些限制和要求,包括您所用模型的一般输入令牌限制。如需了解特定模型的令牌限制,请参阅 Gemini 模型。

提示的图片要求#

使用图片数据的提示受到以下限制和要求的约束:
图片必须采用以下任一图片数据
MIME 类型 :
PNG - 图片/png
JPEG - image/jpeg
WEBP - image/webp
HEIC - 图片/heic
HEIF - image/heif
最多 16 张图片
整个提示(包括图片和文本)不得超过 4MB
对图像中的像素数没有具体限制;但是,较大的图像会缩小以适应最大分辨率 (3072 x 3072),同时保持其原始宽高比。
在提示中使用图片时,请遵循以下建议以获得最佳效果:
包含一张图片的提示往往能产生更好的结果。

提示设计和文本输入#

创建有效的提示(即提示工程)是艺术与科学的结合。如需了解有关如何提示的指导,请参阅提示指南;如需了解不同的提示方法,请参阅提示 101 指南。

生成内容#

借助 Gemini API,您可以使用文本和图片数据进行提示,具体取决于您使用的模型变体。例如,您可以通过 gemini-pro 模型使用文本提示生成文本,并使用文本和图片数据向 gemini-pro-vision 模型发出提示。本部分给出了每种方法的简单代码示例。 如需查看涵盖所有参数的详细示例,请参阅 generateGenerate API 参考文档。

Embeddings#

Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。生成的嵌入随后可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。请参阅嵌入指南,了解什么是嵌入以及嵌入服务的一些关键用例,以帮助您入门。

后续步骤#

参阅 Google AI Studio 快速入门,开始使用 Google AI Studio 界面。
查看 Python、Go 或 Node.js 快速入门,试用 Gemini API 的服务器端访问方式。
参考 Web 快速入门,开始构建 Web 应用。
按照 Swift 快速入门或 Android 快速入门开始构建移动应用。
如果您已是 Google Cloud 用户(或者希望在 Vertex 上使用 Gemini 以利用强大的 Google Cloud 生态系统),请参阅 Vertex AI 上的生成式 AI 了解详情。
上一页
在Google Cloud上运行Gemini
下一页
长上下文
Built with