CANN MoE门控TopKV2算子

📅 2026/7/4 6:59:29

aclnnMoeGatingTopKV2【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×功能说明接口功能MoE计算中对输入x做Sigmoid、SoftMax或者SqrtSoftplus计算对计算结果分组进行排序最后根据分组排序的结果选取前k个专家。支持两种模式TopK模式对normValue进行TopK排序选择专家Hash模式根据inputIds从tid2eid映射表中获取预计算的专家索引跳过排序步骤直接输出aclnnMoeGatingTopKV2新增支持计算公式TopK模式Step 1: 归一化根据normType对输入x做归一化$$ normOut \begin{cases} \text{SoftMax}(x), normType 0 \ \text{Sigmoid}(x), normType 1 \ \sqrt{\text{Softplus}(x)}, normType 2\quad \text{(仅Ascend 950PR/Ascend 950DT支持)} \end{cases} $$Step 2: 加偏置若bias不为空加偏置得到用于选择的值$$ normValue normOut bias $$否则 $normValue normOut$。Step 3: 分组筛选仅groupCount 1 时执行将normValue按groupCount分组根据groupSelectMode计算每组得分$$ groupedValue Reshape(normValue,\ [batch,\ groupCount,\ -1]) $$$$ groupScore \begin{cases} ReduceMax(groupedValue,\ dim-1), groupSelectMode 0 \ ReduceSum(TopK(groupedValue,\ k2,\ dim-1),\ dim-1), groupSelectMode 1 \end{cases} $$选取得分最高的kGroup个组将未选中组的对应位置置为 $-\infty$$$ groupIdx TopK(groupScore,\ kkGroup).indices $$$$ normValue Mask(groupedValue,\ groupIdx,\ fillValue-\infty) $$Step 4: Top-K专家选择对normValue取Top-K得到专家索引这里只需要expertIdxOut$$ y, expertIdxOut TopK(normValue[groupIdx, :],\ kk) $$Step 5: Renorm与缩放根据expertIdxOut从normOut中取出对应的k个专家得分$$ gathered normOut[\text{expertIdxOut}] $$normType1 or normType2 时做归一化normType0 时renorm参数生效renorm1 时做renorm$$ if\ (normType 1\ or\ normType 2)\ or\ (normType 0\ and\ renorm 1): $$$$ \quad yOut \frac{gathered}{ReduceSum(normOut,\ dim-1) eps} $$否则 $yOut gathered$最终输出$$ yOut yOut \times routedScalingFactor $$Step 6: 可选输出若outFlag为True第三个输出为normOut否则为空。Hash模式当提供inputIds和tid2eid时启用Hash模式Step 1: 归一化根据normType对输入x做归一化与TopK模式相同$$ normOut \begin{cases} SoftMax(x), normType 0 \ Sigmoid(x), normType 1 \ \sqrt{Softplus(x)}, normType 2\ (仅 Ascend 950PR/Ascend 950DT 支持) \end{cases} $$Step 2: Hash索引查找根据inputIds从tid2eid映射表获取专家索引$$ expertIdxOut tid2eid[inputIds, :] $$其中tid2eid的shape为[numKeys, k]inputIds的shape为[batch]每个inputIds值对应一行k个专家索引。Step 3: Gather与缩放根据expertIdxOut从normOut中取出对应的k个专家得分$$ gathered normOut[expertIdxOut] $$normType1 or normType2 时做归一化normType0 时renorm参数生效renorm1 时做renorm$$ if\ (normType 1\ or\ normType 2)\ or\ (normType 0\ and\ renorm 1): $$$$ \quad yOut \frac{gathered}{ReduceSum(gathered) eps} $$否则 $yOut gathered$最终输出$$ yOut yOut \times routedScalingFactor $$函数原型每个算子分为两段式接口必须先调用aclnnMoeGatingTopKV2GetWorkspaceSizeV2接口获取计算所需workspace大小以及包含了算子计算流程的执行器再调用aclnnMoeGatingTopKV2接口执行计算。aclnnStatus aclnnMoeGatingTopKV2GetWorkspaceSize( const aclTensor *x, const aclTensor *biasOptional, const aclTensor *inputIdsOptional, const aclTensor *tid2eidOptional, int64_t k, int64_t kGroup, int64_t groupCount, int64_t groupSelectMode, int64_t renorm, int64_t normType, bool outFlag, double routedScalingFactor, double eps, const aclTensor *yOut, const aclTensor *expertIdxOut, const aclTensor *outOut, uint64_t *workspaceSize, aclOpExecutor **executor)aclnnStatus aclnnMoeGatingTopKV2( void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)aclnnMoeGatingTopKV2GetWorkspaceSize参数说明参数名输入/输出描述使用说明数据类型数据格式维度(shape)非连续Tensorx输入待计算入参对应公式中的x。无FLOAT16、BFLOAT16、FLOAT32ND2√biasOptional输入与输入x进行计算的bias值对应公式中的bias。shape值与x最后一维相等。FLOAT16、BFLOAT16、FLOAT32ND1√inputIdsOptional输入Hash模式的输入索引用于从tid2eid中查找专家索引。对应公式中的inputIds。shape为[batch]与x的第一维相等。仅在Hash模式时需要。INT32、INT64ND1√tid2eidOptional输入Hash映射表存储预计算的专家索引。对应公式中的tid2eid。shape为[numKeys, k]其中numKeys为映射表行数k与参数k相等。仅在Hash模式时需要。INT32、INT64ND2√k输入topk的k值对应公式中的k。无INT64---kGroup输入分组排序后取的group个数对应公式中的kGroup。无INT64---groupCount输入分组的总个数对应公式中的groupCount无INT64---groupSelectMode输入分组排序方式。无INT64---renorm输入renorm标记。无INT64---normType输入norm函数类型。无INT64---outFlag输入表示是否输出norm操作结果。无BOOL---routedScalingFactor输入计算yOut使用的routedScalingFactor系数对应公式中的routedScalingFactor。无DOUBLE---eps输入用于计算yOut使用的eps系数对应公式中的eps。无DOUBLE---yOut输出对x做norm、分组排序topk后计算的结果对应公式中的yOut。数据类型与x需要保持一致。FLOAT16、BFLOAT16、FLOAT32ND2-expertIdxOut输出对x做norm、分组排序topk后的索引对应公式中的expertIdxOut。shape要求与yOut一致。INT32ND2-outOut输出norm计算的输出结果对应公式中的normOut。shape要求与x保持一致。FLOAT32ND2-workspaceSize输出返回需要在Device侧申请的workspace大小。-----executor输出返回op执行器包含了算子计算流程。-----返回值aclnnStatus返回状态码具体参见aclnn返回码。第一段接口完成入参校验出现以下场景时报错返回值错误码描述ACLNN_ERR_PARAM_NULLPTR161001计算输入和计算输出是空指针。ACLNN_ERR_PARAM_NULLPTR161002输入和输出的数据类型不在支持的范围内。ACLNN_ERR_INNER_TILING_ERROR561002x的shape不满足要求。x和biasOptional的shape不匹配。k的大小不在1到x_shape[-1] / groupCount * kGroup之间。kGroup的大小不在1到groupCount之间。每个group的专家数按32对齐之后计算输入参数的值不满足要求。Hash模式下k超过64。Hash模式下tid2eid的shape不匹配。Hash模式下inputIds的shape不匹配。Hash模式下不支持非简化路径。aclnnMoeGatingTopKV2参数说明参数名输入/输出描述workspace输入在Device侧申请的workspace内存地址。workspaceSize输入在Device侧申请的workspace大小由第一段接口aclnnMoeGatingTopKV2GetWorkspaceSizeV2获取。executor输入op执行器包含了算子计算流程。stream输入指定执行任务的Stream。返回值返回aclnnStatus状态码具体参见aclnn返回码。约束说明确定性计算aclnnMoeGatingTopKV2默认确定性实现。输入shape限制x最后一维即专家数要求不大于2048。输入值域限制要求1 k x_shape[-1] / groupCount * kGroup。要求1 kGroup groupCount并且kGroup * x_shape[-1] / groupCount的值要大于等于k。要求groupCount 0x_shape[-1]能够被groupCount整除且整除后的结果大于groupSelectMode并且整除的结果按照32个数对齐后乘groupCount的结果不大于2048。其他限制groupSelectMode取值0和10表示使用最大值对group进行排序, 1表示使用topk2的sum值对group进行排序。normType取值0、1和2仅 Ascend 950PR/Ascend 950DT 支持0表示使用Softmax函数1表示使用Sigmoid函数2表示使用SqrtSoftplus函数。normType取值为1或2时renorm参数无效normType取值为0时renorm参数生效renorm取值为0和10表示不做renorm1表示做renorm。outFlag取值true和falsetrue表示输出false表示不输出。Hash模式限制Hash模式需同时提供inputIdsOptional和tid2eidOptional否则为TopK模式。Hash模式仅支持简化路径kGroup groupCount或groupCount expertCount。Hash模式下k要求不大于64。tid2eid的shape必须为[numKeys, k]其中numKeys为映射表总行数k与参数k相等。inputIds的shape必须为[batch]与x的第一维相等。inputIds中的每个值应在[0, numKeys-1]范围内。inputIdsOptional和tid2eidOptional的数据类型支持INT32和INT64的组合。调用示例示例代码如下仅供参考具体编译和执行过程请参考编译与运行样例。#include acl/acl.h #include aclnnop/aclnn_moe_gating_top_k_v2.h #include iostream #include vector #include random #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shape_size 1; for (auto i : shape) { shape_size * i; } return shape_size; } std::vectorfloat GenerateRandomFloats(int64_t count) { std::random_device rd; std::mt19937 gen(rd()); std::uniform_real_distributionfloat dist(0.0f, 10.0f); std::vectorfloat result(count); for (auto num : result) { num dist(gen); } return result; } int Init(int32_t deviceId, aclrtStream* stream) { // 固定写法资源初始化 auto ret aclInit(nullptr); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据拷贝到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { // 1.固定写法device/stream初始化,参考AscendCL对外接口列表 // 根据自己的实际device填写deviceId int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); // check根据自己的需要处理 CHECK_RET(ret 0, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 2. 构造输入与输出需要根据API的接口自定义构造 std::vectorint64_t inputShape {3, 256}; std::vectorint64_t biasShape {256}; std::vectorint64_t inputIdsShape {3}; std::vectorint64_t tid2eidShape {3, 2}; std::vectorint64_t outShape {3, 2}; std::vectorint64_t expertIdOutShape {3, 2}; std::vectorint64_t normOutShape {3, 256}; void* inputAddr nullptr; void* biasAddr nullptr; void* inputIdsAddr nullptr; void* tid2eidAddr nullptr; void* outAddr nullptr; void* expertIdOutAddr nullptr; void* normOutAddr nullptr; aclTensor* input nullptr; aclTensor* bias nullptr; aclTensor* inputIds nullptr; aclTensor* tid2eid nullptr; aclTensor* out nullptr; aclTensor* expertIdOut nullptr; aclTensor* normOut nullptr; std::vectorfloat inputHostData GenerateRandomFloats(GetShapeSize(inputShape)); std::vectorfloat biasHostData GenerateRandomFloats(GetShapeSize(biasShape)); std::vectorint32_t inputIdsHostData {0, 2, 1}; std::vectorint32_t tid2eidHostData { 10, 42, 33, 127, 5, 88 }; std::vectorfloat outHostData(GetShapeSize(outShape)); std::vectorint32_t expertIdOutHostData(GetShapeSize(expertIdOutShape)); std::vectorfloat normOutHostData(GetShapeSize(normOutShape)); // 创建input aclTensor ret CreateAclTensor(inputHostData, inputShape, inputAddr, aclDataType::ACL_FLOAT, input); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建bias aclTensor ret CreateAclTensor(biasHostData, biasShape, biasAddr, aclDataType::ACL_FLOAT, bias); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建inputIds aclTensor ret CreateAclTensor(inputIdsHostData, inputIdsShape, inputIdsAddr, aclDataType::ACL_INT32, inputIds); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建tid2eid aclTensor ret CreateAclTensor(tid2eidHostData, tid2eidShape, tid2eidAddr, aclDataType::ACL_INT32, tid2eid); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建out aclTensor ret CreateAclTensor(outHostData, outShape, outAddr, aclDataType::ACL_FLOAT, out); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建expertIdOut aclTensor ret CreateAclTensor(expertIdOutHostData, expertIdOutShape, expertIdOutAddr, aclDataType::ACL_INT32, expertIdOut); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建normOut aclTensor ret CreateAclTensor(normOutHostData, normOutShape, normOutAddr, aclDataType::ACL_FLOAT, normOut); CHECK_RET(ret ACL_SUCCESS, return ret); // 3.调用CANN算子库API需要修改为具体的算子接口 uint64_t workspaceSize 0; aclOpExecutor* executor; // 调用aclnnMoeGatingTopKV2第一段接口 ret aclnnMoeGatingTopKV2GetWorkspaceSize(input, bias, inputIds, tid2eid, 2, 1, 1, 1, 0, 1, false, 1.0, 1e-20, out, expertIdOut, normOut, workspaceSize, executor); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnMoeGatingTopKV2GetWorkspaceSize failed. ERROR: %d\n, ret); return ret); // 根据第一段接口计算出的workspaceSize申请device内存 void* workspaceAddr nullptr; if (workspaceSize 0) { ret aclrtMalloc(workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret;); } // 调用aclnnMoeGatingTopKV2第二段接口 ret aclnnMoeGatingTopKV2(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnMoeGatingTopKV2 failed. ERROR: %d\n, ret); return ret); // 4.固定写法同步等待任务执行结束 ret aclrtSynchronizeStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); // 5. 获取输出的值将device侧内存上的结果拷贝至Host侧需要根据具体API的接口定义修改 auto size GetShapeSize(outShape); std::vectorfloat resultData(size, 0.0f); ret aclrtMemcpy(resultData.data(), resultData.size() * sizeof(resultData[0]), outAddr, size * sizeof(float), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy result from device to host failed. ERROR: %d\n, ret); return ret); for (int64_t i 0; i size; i) { LOG_PRINT(result[%ld] is: %f\n, i, resultData[i]); } // 6. 释放aclTensor和aclScalar需要根据具体API的接口定义修改 aclDestroyTensor(input); aclDestroyTensor(bias); aclDestroyTensor(inputIds); aclDestroyTensor(tid2eid); aclDestroyTensor(out); aclDestroyTensor(expertIdOut); aclDestroyTensor(normOut); // 7. 释放device资源需要根据具体API的接口定义修改 aclrtFree(inputAddr); aclrtFree(biasAddr); aclrtFree(inputIdsAddr); aclrtFree(tid2eidAddr); aclrtFree(outAddr); aclrtFree(normOutAddr); aclrtFree(expertIdOutAddr); if (workspaceSize 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

新闻详情

相关阅读

InVesalius多平台部署指南：在Linux、Windows和MacOS上高效运行医学影像软件

GhostDB监控与运维：打造零故障的分布式缓存系统

四大主流大模型实战评测：长文本、多模态与中文语义深度对比

如何高效使用Stable Video Diffusion 1.1：让静态图片“活“起来的终极指南

OWASP Mutillidae II高级实战：CSRF Token绕过与命令注入过滤突破

Blazingly-fast AI聊天新纪元：开源免费应用chat0全面解析

Agent Skills技能性能监控：如何跟踪技能使用率与效果指标

归藏提示词库进阶教程：如何定制专属的AI生成提示词模板

ReScript genType 源码解析：深入了解类型转换器的实现原理

洞态IAST自定义规则实战：从原理到配置，打造精准漏洞检测

无需登录本地部署Codex代理，实现DeepSeek大模型免认证调用

Playwright自动化测试实战：从零搭建现代Web测试框架

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！