Anthropic份额首超OpenAI,但企业花钱的逻辑跟跑分已经没关系了 📅 2026/6/30 12:12:56 Anthropic反超了但企业花的钱和买的东西对不上刷到Ramp那份AI Index报告的时候我愣了一下。Anthropic在美国企业AI支出里占比41%超过OpenAI的39.5%。你问我第一反应是什么不是Anthropic真牛而是困惑——明明前一天还看到Fable 5在真实工作场景里翻车怎么企业还越买越多了带着这个困惑我把几份数据拆开了看。越拆越觉得企业花钱的逻辑跟哪个产品最好已经没关系了。Ramp的AI Index是实打实的交易数据。7万多家美国企业的信用卡和账单记录看谁在按月给哪家AI厂商付费。Anthropic 41%对OpenAI 39.5%2026年5月的数据。但单看一个点没意义。我把Anthropic的占比拉长月份AnthropicOpenAIGooglexAIDeepSeek2024年12月10.6%33.0%———2025年6月14.2%39.4%———2025年12月18.4%41.2%———2026年2月27.5%41.2%———2026年3月34.1%40.3%———2026年4月38.6%39.6%———2026年5月41.0%39.5%6.1%3.1%0.3%数据来源Ramp AI Index2026年6月9日发布。份额允许重叠因为企业同时购买多家产品。一年半从10.6%到41%。OpenAI同期从33%到39.5%几乎原地踏步。 Anthropic往上爬的速度比OpenAI往下掉的速度快得多。但这个增速是怎么来的不是IT部门理性评估后统一采购的。Anthropic的Claude Code、Claude Cowork这类工具在开发者圈子里传得很快一个人先偷偷用团队其他人被迫跟上最后IT部门只能走正式采购流程。Ramp的数据正好捕捉了这种自下而上的传播。它快但它跟产品更好没有必然关系。还有个更耐人寻味的细节。企业AI支出分化极大前1%企业人均月支出约$7,449前10%是$611但中位数只有$11.38——大概一个ChatGPT或Claude的座位费。绝大多数企业根本没把AI用深就是在买几个座位试试看。这种阶段选型逻辑跟产品能力的关系很弱跟谁先接触到团队的关系更强。另一个数据唱反调IDC在2026年3月做的企业调查结论跟Ramp完全不同。约42%的企业组织在使用OpenAIGoogle约38%。Anthropic只有19%被广泛使用25%还在评估中。两个数字都对但数的不是同一个东西。Ramp看的是谁在给钱——信用卡和账单上的实际支出。IDC看的是谁在组织层面使用——顶层标准化采购和合同关系。 Anthropic在团队偷偷花钱这条路上跑得快但IT部门统一签大合同这条腿还没追上。说实话对于这种谁是第一的 headline我更信任Ramp的信用卡数据。不会撒谎。但IDC的提醒也重要企业AI采购有两条腿跑成两条轨道了。Anthropic只占了一条。Fable 5跑分95%真实任务只过了3%6月9日Anthropic发布了Fable 5Mythos级旗舰SWE-bench Verified 95%。各大 headline 都在吹。但紧接着两份数据直接把气氛反转了。第一份Artificial Analysis的AA-Briefcase benchmark。不是做选择题是给模型多周知识工作项目——把Slack对话、邮件、会议纪要、数据导出串起来让它在真实信息碎片里找答案。91项任务Fable 5只通过了3%的评判标准。31项任务里没有任何模型达到50%的及格线。全挂。第二份开发者Ali Khallad的私有benchmark。用他自己项目里的真实bug建了4个用例React和TypeScript。Fable 5过了3个最难的一个翻了车——kanban board有两处独立的视觉bugFable 5只修了一处然后宣布所有症状已解释。它没去找第二处bug因为第一处已经给了它一个完美的理论不需要继续验证了。两份数据合在一起跑分高不代表真实场景里好用。Fable 5标准benchmark上95%交叉验证碎片信息的任务里3%。真实debug里一个漂亮的解释就能让它停下来。其实31项全挂的任务里所有模型都没过。这不是Anthropic一家的问题。但Fable 5作为目前的最强模型落差最刺眼——跑分最高实际通过率也最低3%。成本上更离谱。AA-Briefcase里DeepSeek V4 Flash单任务约$0.04Fable 5超$31差800倍。花$31做一件事没修好$0.04就能做的事。这个三角——跑分高、成本高、实际通过率低——对企业决策的影响比任何benchmark数字都更直接。企业到底在买什么Fable 5翻车成这样企业支出还往Anthropic倾斜。原因不在产品本身在传播机制。Anthropic在6月底发布了一份自研调研约9700名用户参与。Artifacts功能使用率营销文案撰写80%、博客创作81%、数据库查询82%。这组数据至少说明Claude在工作流里被高频使用但Artifacts对应的是写文档、查数据这些可拆解的环节。调研自己也留了话“完整的工作不只是零散任务的叠加任务间的知识传递尤为关键。“跨环节的知识传递AI还没搞定。所以约半数用户觉得AI能接管一半工作”——这个一半”只是工作里可外包的部分。另外自研数据有偏向性。愿意参与调研的本身就是活跃用户沉默的大多数可能没这么乐观。参考可以别过度解读。Ramp的中位数$11.38暴露了一个更底层的问题企业在买的不是最好的AI产品是便宜座位。Claude Code在开发者圈子里的渗透率高一个人偷偷用团队被迫跟上IT部门只能买单。这是传播机制在驱动不是产品优劣在评选。选型逻辑不是哪个模型能帮我省几百万是哪个工具我的团队已经用上了。注意——是已经用上不是最好用。Fable 5翻车那次没搞破坏所有行为保护检查都通过了。没修好但也没弄坏。这个相对优势的代价是花了$31做了一个$0.04就能做的事结果还没修好。企业不追究这种性价比说明决策链条里缺一个较真的人。或者说决策链条压根不在乎性价比因为花的是$11.38的座位费不是$7,449的深度部署预算。Ramp留了三个风险Ramp的首席经济学家Ara Kharazian在报告里明确说别把1.5个百分点领先当成锁定胜局。他列了三个风险第一激励不对齐。Anthropic的收入跟token消耗挂钩企业用得越多它赚得越多。机制天然倾向于推更贵的模型即使便宜的已经够用。预算收紧时这个矛盾会浮出来。第二可靠性投诉。2026年春季有用户报告中断和速率限制。Anthropic 4月调整了用量限制还跟SpaceX签了数据中心合作。但基础设施问题不是签个协议就能解决的。第三模型变更的成本压力。模型更新频繁每次更新可能改变token消耗模式。企业用习惯了某个输出风格突然升级后成本变了管理成本很高。三个风险里第一个最隐蔽。Ramp的数据是实际支出如果企业因为激励不对齐而多花了冤枉钱那41%本身就有水分。短期内很难量化只能作为一个提醒放在那里。回到开头那个困惑Anthropic反超OpenAI是真实信号。但把它解读为Anthropic赢了跟把它解读为OpenAI不行了一样都是过度简化。更准确的描述是企业AI市场的两条轨道——自下而上的草根采购和自上而下的标准化采购——正在分裂。Anthropic在第一条上跑得快OpenAI在第二条上守得牢。Fable 5的跑分翻车提醒我们模型能力的benchmark和实际工作场景之间还有巨大的鸿沟。但这个变化本身跟Anthropic比OpenAI更好没有必然关系。它只能说明一件事跑分已经说服不了企业花钱了惯性、熟悉度和传播效应才是决定支出的因素。这个局面对Anthropic是利好对OpenAI是压力但对行业本身意味着什么——可能不是好事。当企业的选型决策跟产品能力的真实差距脱钩市场信号就会失真。失真久了好产品和坏产品都会收不到反馈。Ramp的数据预测不了六个月后的格局。一年半前Anthropic只占10.6%现在41%。如果另一个一年半后格局又变了我不会意外。但至少在2026年这个节点企业AI支出的流向已经给出了一个清晰的信号选型的逻辑变了跑分不再是唯一指标。问题是新的指标是什么——还没有人能给出一个靠谱的答案。我一开始困惑的那个问题现在有了答案企业花的钱和它们买的东西确实对不上。但它们不在乎对不上因为花的还不够多。等花到$7,449的时候这个对不上的问题才会真正暴露出来。数据来源Ramp AI Index2026年6月9日发布7万企业样本Anthropic H轮融资公告2026年5月IDC FERS Survey2026年3月Artificial Analysis AA-Briefcase benchmark2026年6月Ali Khallad私有benchmark测试2026年6月10日Anthropic自研用户调研约9700人2026年6月。截至2026年6月29日。Ramp数据不会撒谎但它只能看到已经发生的事。41%也好3%也好都是2026年5月的快照。六个月后格局可能完全不同但选型逻辑已经变了这件事大概不会变回去。