cann/pypto量化MX函数文档-创锋一号

pypto.quant_mx

【免费下载链接】pyptoPyPTO（发音: pai p-t-o）：Parallel Tensor/Tile Operation编程范式。项目地址: https://gitcode.com/cann/pypto

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√

功能说明

将 1-4 维 ND 格式的高精度浮点 Tensor 量化为 MX（Microscaling）格式，返回量化结果和共享指数 scale。

输入 Tensor 支持 DT_FP16、DT_BF16、DT_FP32。
输出量化 Tensor 当前仅支持 DT_FP8E4M3。
scale Tensor 的数据类型固定为 DT_FP8E8M0。
当前仅支持对尾轴进行量化，且仅支持 ROUND_DOWN 模式。

若输入 shape 记为 $[d_0, d_1, ..., d_{n-1}]$，则：

量化结果quantized的 shape 与input相同。
scale 的 shape 为 $[d_0, d_1, ..., d_{n-2}, \lceil d_{n-1} / 64 \rceil, 2]$。

函数原型

quant_mx( input: Tensor, quant_dtype: DataType = DataType.DT_FP8E4M3, mode: DequantScaleRoundingMode = DequantScaleRoundingMode.ROUND_DOWN, axis: int = -1, performance_mode: bool = False, ) -> Tuple[Tensor, Tensor]

参数说明

参数名	输入/输出	说明
input	输入	源操作数。支持的类型为：Tensor。 Tensor 支持的数据类型为：DT_FP16、DT_BF16、DT_FP32。仅支持 TILEOP_ND 格式；Shape 仅支持 1-4 维。当前仅支持最后一维参与量化，且最后一维按字节数需满足 256 字节对齐。对于 DT_FP32，通常要求最后一维长度是 64 的倍数；对于 DT_FP16/DT_BF16，通常要求最后一维长度是 128 的倍数。
quant_dtype	输入	量化后输出 Tensor 的数据类型。当前仅支持：DT_FP8E4M3。
mode	输入	量化时共享指数的舍入模式。当前仅支持：ROUND_DOWN。
axis	输入	指定量化轴。当前仅支持最后一维，即`-1`或`input.shape.size() - 1`。
performance_mode	输入	是否启用性能模式。默认值为`True`。启用后可获得更好的性能，但仅改变内部 TQuant 的中间布局，不改变返回的公共`scale`shape。启用该模式时，不支持尾块场景，即运行时实际 shape 需要整除 view shape。除此之外，view shape 与 TileShape 的尾轴长度必须相同，且该尾轴长度需要与输入最后一维保持一致。当前只支持性能模式

返回值说明

返回一个二元组(quantized, scale)：

quantized：量化后的 Tensor，数据类型由quant_dtype指定，Shape 与input相同。
scale：共享指数 Tensor，数据类型固定为 DT_FP8E8M0，Shape 为[*input.shape[:-1], ceil(input.shape[-1] / 64), 2]。

调用示例

TileShape 设置示例

说明：调用该 operation 接口前，应通过set_vec_tile_shapes设置 TileShape。

TileShape 维度应和输入一致，且最后一维需要满足 256 字节对齐。若performance_mode=True，则不支持尾块场景，运行时实际 shape 需要整除 view shape；同时 view shape 与 TileShape 的尾轴形状必须相同，且 TileShape 的最后一维应与输入最后一维相同。

示例 1：输入inputshape 为[m, n]，输出quantizedshape 为[m, n]，scaleshape 为[m, ceil(n / 64), 2]，TileShape 可设置为[m1, n1]，其中n1需满足对齐约束。

pypto.set_vec_tile_shapes(4, 64)

接口调用示例

x = pypto.tensor([8, 64], pypto.DT_FP32) # 默认配置：DT_FP8E4M3 + ROUND_DOWN + 最后一维量化 quantized, scale = pypto.quant_mx(x) # 显式指定参数 quantized_perf, scale_perf = pypto.quant_mx( x, pypto.DT_FP8E4M3, pypto.ROUND_DOWN, -1, True, )

结果示例如下：

Input x.shape: [8, 64] Input x.dtype: DT_FP32 Output quantized.shape: [8, 64] Output quantized.dtype: DT_FP8E4M3 Output scale.shape: [8, 1, 2] Output scale.dtype: DT_FP8E8M0

【免费下载链接】pyptoPyPTO（发音: pai p-t-o）：Parallel Tensor/Tile Operation编程范式。项目地址: https://gitcode.com/cann/pypto

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

pypto.quant_mx

产品支持情况

功能说明

函数原型

参数说明

返回值说明

调用示例

TileShape 设置示例

接口调用示例

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

pypto.quant_mx

产品支持情况

功能说明

函数原型

参数说明

返回值说明

调用示例

TileShape 设置示例

接口调用示例

热门文章

文章分类

标签云

相关文章

Codex客户端左侧侧边栏变黑的解决方法（Windows）

爬虫工程师的“七宗罪”：那些让你深夜崩溃的技术痛点

CANN/cann-learning-hub：vLLM-Ascend推理优化

需要专业的网站建设服务？