CANN/asc-devkit Add算子API文档-创锋一号

Add

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C++标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品 / Atlas A3 推理系列产品	√
Atlas A2 训练系列产品 / Atlas A2 推理系列产品	√
Kirin X90	√
Kirin 9030	√

功能说明

按元素求和，计算公式如下：

函数原型

整个tensor参与计算
```
dst = src0 + src1;
```

tensor前n个数据计算

template <typename T> __aicore__ inline void Add(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, const int32_t& count)

tensor高维切分计算

mask逐bit模式

template <typename T, bool isSetMask = true> __aicore__ inline void Add(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask[], const uint8_t repeatTime, const BinaryRepeatParams& repeatParams)

mask连续模式

template <typename T, bool isSetMask = true> __aicore__ inline void Add(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask, const uint8_t repeatTime, const BinaryRepeatParams& repeatParams)

参数说明

表 1模板参数说明

参数名	描述
T	操作数数据类型。 Ascend 950PR/Ascend 950DT，支持的数据类型为：int8_t、uint8_t、int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float、complex32、int64_t、uint64_t、complex64。 Atlas A3 训练系列产品 / Atlas A3 推理系列产品，支持的数据类型为：half、int16_t、int32_t、float。 Atlas A2 训练系列产品 / Atlas A2 推理系列产品，支持的数据类型为：half、int16_t、int32_t、float。 Kirin X90，支持的数据类型为：half、int16_t、int32_t、float。 Kirin 9030，支持的数据类型为：half、int16_t、int32_t、float。
isSetMask	是否在接口内部设置mask。 true，表示在接口内部设置mask。 false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。

参数名

描述

操作数数据类型。

Ascend 950PR/Ascend 950DT，支持的数据类型为：int8_t、uint8_t、int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float、complex32、int64_t、uint64_t、complex64。

Atlas A3 训练系列产品 / Atlas A3 推理系列产品，支持的数据类型为：half、int16_t、int32_t、float。

Atlas A2 训练系列产品 / Atlas A2 推理系列产品，支持的数据类型为：half、int16_t、int32_t、float。

Kirin X90，支持的数据类型为：half、int16_t、int32_t、float。

Kirin 9030，支持的数据类型为：half、int16_t、int32_t、float。

isSetMask

是否在接口内部设置mask。

true，表示在接口内部设置mask。
false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。

表 2参数说明

参数名	输入/输出	描述
dst	输出	目的操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。
src0、src1	输入	源操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。两个源操作数的数据类型需要与目的操作数保持一致。
count	输入	参与计算的元素个数。
mask[]/mask	输入	mask用于控制每次迭代内参与计算的元素。逐bit模式：可以按位控制哪些元素参与计算，bit位的值为1表示参与计算，0表示不参与。 mask为数组形式，数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时，数组长度为2，mask[0]、mask[1]∈[0, 2 64-1]并且不同时为0；当操作数为32位时，数组长度为1，mask[0]∈(0, 2 64-1]；当操作数为64位时，数组长度为1，mask[0]∈(0, 2 32-1]。例如，mask=[8, 0]，8=0b1000，表示仅第4个元素参与计算。连续模式：表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关，数据类型不同，每次迭代内能够处理的元素个数最大值不同。当操作数为16位时，mask∈[1, 128]；当操作数为32位时，mask∈[1, 64]；当操作数为64位时，mask∈[1, 32]。
repeatTime	输入	重复迭代次数。矢量计算单元，每次读取连续的256Bytes数据进行计算，为完成对输入数据的处理，必须通过多次迭代（repeat）才能完成所有数据的读取与计算。repeatTime表示迭代的次数。
repeatParams	输入	控制操作数地址步长的参数。BinaryRepeatParams类型，包含操作数相邻迭代间相同datablock的地址步长，操作数同一迭代内不同datablock的地址步长等参数。

返回值说明

无

约束说明

操作数地址对齐要求请参见通用地址对齐约束。
操作数地址重叠约束请参考通用地址重叠约束。
使用整个tensor参与计算接口进行符号重载时，运算量为目的LocalTensor的长度。
针对Ascend 950PR/Ascend 950DT，uint8_t/int8_t/uint64_t/int64_t/complex32/complex64数据类型仅支持tensor前n个数据计算接口和整个tensor参与计算的运算符重载。

调用示例

更多样例可参考LINK。

tensor高维切分计算样例-mask连续模式

uint64_t mask = 128; // repeatTime = 4，一次迭代计算128个数，共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride = 1，单次迭代内数据连续读取和写入 // dstRepStride, src0RepStride, src1RepStride = 8，相邻迭代间数据连续读取和写入 AscendC::Add(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });

tensor高维切分计算样例-mask逐bit模式

uint64_t mask[2] = { UINT64_MAX, UINT64_MAX }; // repeatTime = 4，一次迭代计算128个数，共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride = 1，单次迭代内数据连续读取和写入 // dstRepStride, src0RepStride, src1RepStride = 8，相邻迭代间数据连续读取和写入 AscendC::Add(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });

tensor前n个数据计算样例

AscendC::Add(dstLocal, src0Local, src1Local, 512);

整个tensor参与计算样例
```
dstLocal = src0Local + src1Local;
```

结果示例如下：

输入数据src0Local: [1 2 3 ... 512] 输入数据src1Local: [513 514 515 ... 1024] 输出数据dstLocal: [514 516 518 ... 1536]

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

Add

产品支持情况

功能说明

函数原型

参数说明

返回值说明

约束说明

调用示例

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Add

产品支持情况

功能说明

函数原型

参数说明

返回值说明

约束说明

调用示例

热门文章

文章分类

标签云

相关文章

因果推断赋能可解释AI：从SCM、反事实到贝叶斯网络的实践路径

智慧水务新篇章：数字孪生技术赋能污水处理厂全流程3D智能管控

使用Python快速接入Taotoken调用多款大模型API的简明教程

需要专业的网站建设服务？