文心一言-千帆大模型平台
数据处理
复制页面
文心一言-千帆大模型平台
体验中心
常见问题
大模型技术测试服务协议
账号与权限管理
账号创建与权限分配
通过子账户隔离实现账单隔离
产品简介
什么是百度智能云千帆大模型平台
百度智能云千帆大模型平台产品优势
百度智能云千帆大模型平台常用概念
新手指南
SFT调优快速手册
SFT最佳实践
平台使用快速开始
导入并部署第三方模型
快速导入并部署第三方模型
SQLCoder自定义模型导入·详细操作
模型广场
查看与管理预置模型
预置调用免费模型列表
我的模型
创建我的模型
查看与管理我的模型
Prompt 工程
什么 Prompt 工程
Prompt 模板
Prompt 优化
Prompt 工程使用技巧
Prompt 的使用技巧
基础的 Basic Prompt Framework
丰富的 CRISPE Prompt Framework
轻量化的 Few-shot Prompt
模型服务
应用接入
在线服务
调用统计
模型调优
模型精调
Post-pretrain
什么是 Post-pretrain
创建 Post-pretrain 任务
查看与管理 Post-pretrain
SFT
创建 SFT 任务
查看与管理 SFT 运行
RLHF
什么是 RLHF 训练
创建奖励模型训练任务
查看与管理奖励模型训练运行
创建强化学习训练任务
查看与管理强化学习训练运行
模型评估
创建模型评估任务
查看与管理模型评估任务
模型压缩
创建模型压缩任务
查看模型压缩任务
数据管理
数据回流
数据集对应关系说明
数据集管理
创建数据集
数据分析
导入文本对话数据
导入泛文本无标注数据
导入 query 问题集数据
导入文生图数据
管理数据集版本
导出数据
数据集的其他操作
数据标注
在线标注
众测标注
数据处理
数据清洗
数据增强
知识库
什么是千帆大模型知识库
知识库管理
命中测试
系统配置
计算资源
计费管理
插件编排
什么是插件应用
插件编排使用说明
应用创建
对话场景类应用
生成场景类应用
插件
插件列表
自定义插件
插件开发者文档
API 鉴权及调用
API 介绍
API 列表
API 调用指南
API 调用流程
错误码
API 在线调试
鉴权认证
鉴权介绍
使用网页调试工具获取 access_token
获取 access_token
对话 Chat
Llama-2
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
ERNIE-Bot 4.0
ERNIE-Bot
ERNIE-Bot-turbo
BLOOMZ-7B
Qianfan-BLOOMZ-7B-compressed
Mistral-7B-Instruct
Qianfan-Chinese-Llama-2-7B
Qianfan-Chinese-Llama-2-13B
Linly-Chinese-LLaMA-2-7B
Linly-Chinese-LLaMA-2-13B
ChatGLM2-6B
ChatGLM2-6B-32K
ChatGLM2-6B-INT4
Baichuan2-13B-Chat
XVERSE-13B-Chat
Falcon-7B
Falcon-40B-Instruct
AquilaChat-7B
RWKV-4-World
RWKV-4-pile-14B
RWKV-Raven-14B
OpenLLaMA-7B
Dolly-12B
MPT-7B-Instruct
MPT-30B-instruct
OA-Pythia-12B-SFT-4
Falcon-180B-Chat
RWKV-5-World
Flan-UL2
续写 Completions
SQLCoder-7B
CodeLlama-7b-Instruct
AquilaCode-multi
Cerebras-GPT-13B
Pythia-12B
GPT-J-6B
GPT-NeoX-20B
GPT4All-J
StarCoder
StableLM-Alpha -7B
Pythia-6.9B
Cerebras-GPT-6.7B
向量 Embeddings
Embedding-V1
bge-large-zh
bge-large-en
图像 Images
Stable-Diffusion-XL
自定义模型调用 API
自定义模型调用 API
续写模式
模型服务
创建服务
查询服务详情
模型管理
获取模型版本详情
获取模型详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
Prompt 工程
Prompt 模板
插件应用
知识库
智慧图问
天气
SDK 参考
千帆 SDK 介绍
SDK 安装及使用流程
对话 Chat
续写 Completions
向量 Embeddings
模型服务
创建服务
查询服务详情
模型管理
获取模型详情
获取模型版本详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导 入错误详情
插件应用
知识库
智能图问
天气
价格说明
千帆大模型平台价格文档
数据处理
复制页面
数据增强
什么是数据增强
#
平台支持对文本数据集进行数据增强。
当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。
注意文本数据增强功能仅支持增强未发布的非空数据集
。
依赖模型的自监督式数据增强
#
登录到
千帆大模型操作台
,在左侧功能列数据处理中选择数据增强,选择
数据增强
,进入数据增强的主任务界面。
创建数据增强任务
#
在数据处理-数据增强页面中,选择“创建任务”。
1)
基本信息填写
:
处理前数据集:存放增强前的源数据,至少存在10条标注数据。
处理后数据集:存放增强后的数据。
注意
:泛文本无标注数据
不支持
增强操作。
2)
增强配置填写
:
选择服务:当前支持选择预置的
ERNIE-Bot
服务和
ERNIE-Bot-turbo
服务,并且将根据此服务进行计费;
选择应用:选择包含服务的应用,在应用的框架下进行增强操作;
参数配置:如上图,支持指令生成的依赖样本库数、生成样本数和过滤相似度阈值调整等操作。
以上配置
完成后,点击“确定”即可开启自监督式的增强任务。相关费用计算逻辑可查看
价格文档
。
查看数据增强任务
#
您可以返回
任务列表
页,查看已经创建的数据增强任务,如果任务在“进行中”,可查看进度或手动“停止任务”;对于已中止的任务也可以“重新启动”。
当任务状态为“已完成”时,则表示数据增强任务已运行完毕,数据集发布后可用于
SFT
。
详情
选择操作列的“详情”按钮,即可查看创建任务的详细信息和增强配置。
质量过滤
选择操作列的“质量过滤”按钮,即可指定或批量进行文本过滤。
其中,增强质量指标如下:
一般(0~25)、良好(25~50)、优质(50~75)、最佳(75~100),你可按照此指标自定义查看或过滤增强后的数据,数据过滤之后将无法找回。
删除
进行中的增强任务不可删除,任务一旦删除将不可恢复。
上一页
数据清洗
下一页
什么是千帆大模型知识库