Google Gemini API 文档
模型功能
复制页面
Google Gemini API 文档
获取 API 密钥
API 版本说明
下载内容
在Google Cloud上运行Gemini
模型功能
概览
长上下文
数据化输出
文档理解
图片理解
视频理解
音频理解
文本生成
文字输入
图片输入
流式输出
多轮对话
多轮对话(流式)
配置参数
图片生成
使用 Gemini 生成图片
使用 Gemini 编辑图片
使用 Imagen 3 生成图片
Gemini 思考
使用思维模型
为思考模型设置预算
函数调用
使用 Gemini API 进行函数调用
模型
所有模型
价格
速率限制
账单信息
安全
安全设置
安全指导
模型功能
复制页面
概览
借助 Gemini API,您可以使用 Google 提供的最新生成模型。熟悉了该 API 提供的一般功能后,请尝试根据所选语言快速入门,开始进行开发。
注意
:如果您刚开始接触生成式 AI 模型,请访问
概念指南
,或开始在
Google AI Studio
中对提示进行原型设计。
模型
#
Gemini 是 Google 开发的一系列多模态生成式 AI 模型。Gemini 模型可以接受提示中的文本和图片(具体取决于您选择的模型变体),并输出文本响应。旧版 PaLM 模型接受纯文本和输出文本响应。
如需获取更详细的模型信息,请参阅
模型
页面。您还可以使用
list_models
方法列出所有可用的模型,然后使用
get_model
方法获取特定模型的元数据。
提示数据和设计
#
特定的 Gemini 模型同时接受图片和文本数据作为输入。此功能为生成内容、分析数据和解决问题提供了许多其他的可能性。您需要考虑一些限制和要求,包括您所用模型的一般输入令牌限制。如需了解特定模型的令牌限制,请参阅
Gemini 模型
。
提示的图片要求
#
使用图片数据的提示受到以下限制和要求的约束:
图片必须采用以下任一图片数据
MIME 类型 :
PNG - 图片/png
JPEG - image/jpeg
WEBP - image/webp
HEIC - 图片/heic
HEIF - image/heif
最多 16 张图片
整个提示(包括图片和文本)不得超过 4MB
对图像中的像素数没有具体限制;但是,较大的图像会缩小以适应最大分辨率 (3072 x 3072),同时保持其原始宽高比。
在提示中使用图片时,请遵循以下建议以获得最佳效果:
包含一张图片的提示往往能产生更好的结果。
提示设计和文本输入
#
创建有效的提示(即提示工程)是艺术与科学的结合。如需了解有关如何提示的指导,请参阅
提示指南
;如需了解不同的提示方法,请参阅
提示 101
指南。
生成内容
#
借助 Gemini API,您可以使用文本和图片数据进行提示,具体取决于您使用的模型变体。例如,您可以通过
gemini-pro
模型使用文本提示生成文本,并使用文本和图片数据向
gemini-pro-vision
模型发出提示。本部分给出了每种方法的简单代码示例。 如需查看涵盖所有参数的详细示例,请参阅
generateGenerate
API 参考文档。
Embeddings
#
Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。生成的嵌入随后可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。请参阅
嵌入指南
,了解什么是嵌入以及嵌入服务的一些关键用例,以帮助您入门。
后续步骤
#
参阅
Google AI Studio 快速入门
,开始使用 Google AI Studio 界面。
查看
Python
、
Go
或
Node.js
快速入门,试用 Gemini API 的服务器端访问方式。
参考
Web 快速入门
,开始构建 Web 应用。
按照
Swift 快速入门
或
Android 快速入门
开始构建移动应用。
如果您已是 Google Cloud 用户(或者希望在 Vertex 上使用 Gemini 以利用强大的 Google Cloud 生态系统),请参阅
Vertex AI 上的生成式 AI
了解详情。
修改于
2023-12-25 06:20:13
上一页
在Google Cloud上运行Gemini
下一页
长上下文