豆包专业版收费之后,端侧AI的商业化账本该怎么算

📅 2026/6/26 7:42:25
豆包专业版收费之后,端侧AI的商业化账本该怎么算
豆包专业版开始收费了。字节跳动在豆包这条产品线上投入不小从基础版到专业版功能层级拉开了定价体系也搭起来了。专业版里有一个方向引起了不少讨论——端侧推理能力的强化。字节把端侧推理作为专业版的一个差异化能力来推说明他们判断这个方向有商业价值用户愿意为更快、更私密、更本地化的体验付费。这件事对整个端侧AI赛道是个正向信号。大厂用真金白银验证了端侧推理的商业可行性比任何行业报告都有说服力。不过端侧推理从技术上能跑到商业上能赚钱中间隔着的工程问题和商业问题比外界想象的多。我们做Mano-P端侧GUI Agent这两年在这条路上踩了不少东西借豆包专业版这个话题把一些观察摊开来说。端侧推理的成本结构和云端完全不一样这是最根本的差异。云端可以把算力摊到海量请求上单次调用的边际成本趋近于零。端侧的算力是用户设备自己出的厂商这边出了模型和推理框架中间的推理执行环节没有直接成本发生。这个结构决定了端侧AI的定价逻辑跟云端API按token收费那套完全对不上。怎么收费呢。按功能模块收端侧推理是底层能力不是一个独立功能你没法把本地推理单独拎出来标价。按使用次数收本地推理没有服务器成本支撑用户会质疑收费依据。订阅制包月用户会问跟云端模型有什么区别。我们内部讨论过好几轮这几种方案每种都有逻辑上绕不过去的地方。这个问题目前行业里也没有成熟参照大家都在摸索。豆包专业版把端侧能力整合进会员体系是一种务实的处理方式先让用户体验到价值再说定价的事。模型更新是端侧推理另一个绕不开的工程问题。云端模型发现问题可以热更新改完代码部署上去一小时后所有用户都在跑新版本。端侧模型需要用户主动下载整个模型包。我们Mano-P的完整部署包体大概6.4GB网络条件不好的用户可能直接跳过这次更新。我们碰到过用户来反馈说模型不好用排查下来发现他跑的还是好几个月前的旧版本中间我们修了好几个影响稳定性的bug发了好几个迭代他一个都没更新到。这个问题在端侧场景下几乎不可避免没办法像云端那样静默推送。更新频率也是个平衡问题太频繁用户烦太少用户用着旧版本的bug和性能问题体验差。Cider是我们做的推理加速SDK最近在Apple Neural Engine深度适配上花了不少精力。ANE的INT8计算吞吐比GPU高但支持的算子类型有限有些Transformer层走不了ANE通道只能回退到GPU回退一多性能收益就打折。在M5 Pro上测到的数据是Cider W8A8 prefill比MLX的W8A16基线快约1.8倍整体比MLX W4A16快1.4到2.2倍。这个数字从开始做适配到稳定跑出来中间反复调了好几轮。Cider支持W8A8和W4A8两种量化模式。W8A8是INT8对称权重加INT8 per-token激活量化W4A8是INT4 packed权重加INT8激活。两种模式的精度损失不一样速度收益也不一样。还有条件编译的问题M5以上芯片走全功能路径M4及以下只能跑纯Python回退性能差了一截。这些工程细节是端侧推理加速的真实门槛不是写几行量化代码就能搞定的。说到端侧模型的实际表现我们有一组Mano-CUA-2.0-4B在MacBook Pro M5 16GB上跑的100个真实macOS GUI任务测试数据可以拿出来看看端侧4B模型目前能做到什么程度。整体pass rate 56%平均每步7.9秒。作为对比云端通用VL模型Qwen3-VL-Plus跑同样的任务是39%通过率、每步10.2秒。4B本地模型在GUI操作任务上打赢了云端通用大模型GUI专项微调的价值在这里体现得很明显。云端Mano-CUA跑到了83%、每步9.3秒端侧和云端的差距还在但方向是对的。分难度看A级难度25个任务4B跑到了88%跟云端92%很接近。B级45个任务53%C级30个任务33%。简单任务端侧和云端几乎没差别高难度任务差距拉大。按应用分类WeCom/飞书/钉钉场景4B跑到83%云端100%。浏览器操作68%云端90%。WPS/Office 40%跨应用20%。跨应用和Office深度操作是目前端侧模型最弱的方向。加上Bash工具之后Mano-CUA 1.1的通过率推到了90%。有些任务纯GUI做不了调音量用osascript旋转图片用sips命令设置鼠标指针大小用defaults write系统命令补上了GUI操作的盲区。GUI加Shell的混合策略比纯GUI的上限高不少这个思路在端侧同样适用。端侧推理加速这个方向的玩家目前不算多。Apple的MLX框架偏底层工具链面向开发者但不直接做应用层模型适配。llama.cpp社区在做通用CPU和GPU推理对Apple Silicon ANE利用率还有优化空间。Cider补的是MLX原生缺失的W8A8和W4A8激活量化原语不限于Mano-P任何MLX模型都能用。OSWorld专项模型排名上Mano-CUA 1.1拿到58.2%排第一比第二名opencua-72b的45.0%高了13.2个百分点。WebRetriever Protocol I上41.7 NavEval超过Gemini 2.5 Pro Computer Use的40.9和Claude 4.5 Computer Use的31.3。这些benchmark是在云端模型上跑的跟端侧4B不在同一个参数量级但方向一致——GUI专项微调在操作任务上确实比通用VL模型表现好。硬件每迭代一次端侧能做的事情就多一层。M5的NPU规格比M4宽了不少下一代大概率进一步放宽端侧模型的参数上限。软件适配永远滞后于硬件模型量化和推理优化的工程投入是持续性的。豆包专业版在这个时间点推出收费端侧能力对整个赛道是好事。大厂验证商业可行性开源项目提供底层技术积累两种角色互补。我们把Mano-P和Cider都做了开源Mano-CUA Skills面向Agent爱好者本地模型和SDK面向高安全需求开发者训练方法论和量化裁剪技术面向有模型训练需求的开发者三个阶段对应三类人群。Mano-P 开源项目https://github.com/Mininglamp-AI/Mano-P 感兴趣的可以看看哦