创建模型压缩任务
创建模型压缩任务


压缩策略 | 策略类型 | 适用基础模型 | 描述 |
---|---|---|---|
量化压缩 | INT8 | BLOOMZ-7B、Llama-2-7b-chat、ERNIE-Bot-turbo-0725 | 同等QPS目标下,降低推理显存占用,INT8代表将模型参数压缩至8位字节 |
INT4 | BLOOMZ-7B、Llama-2-7b-chat | 同等QPS目标下,降低推理显存占用,INT4代表将模型参数压缩至4位字节 | |
稀疏化 | 比例50% | BLOOMZ-7B、Llama-2-7b-chat | 在同等算力资源下,降低单Token时延、提升QPS |


任务计费说明
模型压缩支持范围
模型家族 | 模型压缩支持 |
---|---|
ERNIE-Bot | x |
ERNIE-Bot-turbo-0725 | ✓ |
BLOOMZ-7B | ✓ |
Llama-2-7b-chat | ✓ |
量化压缩是一种将模拟量转换为离散量的方法,它可以模型参数的存储字节数压缩。INT8代表将模型参数压缩至8位字节。