用真实项目跑了一遍,Step 3.7 Flash 的表现有点意

📅 2026/6/30 1:04:20
用真实项目跑了一遍,Step 3.7 Flash 的表现有点意
模型圈一直都很热闹每月都有各种新的模型出来。最近一个月国产大模型不断推出新模型Step 3.7 Flash、MiniMax M3、GLM-5.2、Kimi K2.7 Code几乎都是前后脚发布。我仔细研究了一下这几个新的模型它们的路子还有点不一样Step 3.7 Flash主攻性价比和低延迟MiniMax M3死磕超长上下文和Agentic WorkflowGLM-5.2走通用开源路线Kimi K2.7 Code 则专门服务编程场景。目前来看模型发展有个趋势非常明显大模型竞争已经不单是拼谁性能最好推理能力最强现在都在往Agent方向发力在高频使用场景里看谁家的模型好用、稳定性价比更高。以前我们在聊Flash模型都觉得它是Pro版的廉价替代品没有什么用。复杂的交给Pro简单不重要的扔给FlashFlash就是个省钱选项。现在来看情况有些不一样了。Flash模型已经不再是我们常说的备胎了它已经是一个单独的品类而且各个模型厂商都在推出这类模型。目前我们可以简单地把模型分成二档。第一种是Pro档。主打一个极限推理、复杂编程和长链条Agent任务像Claude Opus 4.8和GPT-5.5就属于这类。它们在高难度评测集上得分都很高但是它的价格也是很高稍微搞一些高频任务账单就有点受不了。第二种可以叫Flash档或者效率前沿。Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash、Qwen3.6 Flash都在这个阵营这类模型不追求单项能力很强而是在高频、多轮、低延迟、大规模使用的的场景里在速度、成本、上下文长度和稳定性之间找到一个平衡。尤其是在 Agent 场景里Flash 模型承担的角色越来越像执行层模型它不一定是负责最极限的推理模型但要负责大量实际任务的拆解、工具调用、代码生成、错误修复和结果整理。所以判断一个 Flash 模型好不好不能只看 benchmark 测评也不能简单的看单次问答而要看它在真实任务里是否稳定、少犯错误少返工、是否能把任务一次性跑完。今天我们就先拿Step 3.7 Flash来试试把它和其他几款Flash模型放在一起用真实项目从代码生成效率、响应速度与成本、工具调用稳定性三个角度挨个跑一遍看看到底谁更好用。测试方法我们这边使用Claude code 来测试测试的模型比较多我们可以安装cc switch配置好各个模型厂商后可以一键切换非常方便。也可以通过修改json配置文件来切换模型~/.claude/settings.json例如 Step 3.7 Flash 的配置export ANTHROPIC_BASE_URLhttps://api.stepfun.com/step_plan export ANTHROPIC_AUTH_TOKEN你的 key export ANTHROPIC_MODELstep-3.7-flash这里也提前说明一下这篇不是特别严谨的 benchmark更像是我自己拿几个真实任务跑了一圈看看模型真实干活的时表现如何。因为实际测试的时候不同模型能用的工具链并不完全一样。Step 3.7 Flash、DeepSeek V4 Flash、Qwen3.6 Flash我主要是在 Claude Code 里跑, Gemini 3.5 Flash我这边只能放到 Google Antigravity 里面测试。所以后面看到时间、Token、报错次数这些数据大家不要直接理解成排行榜。我们不是要证明谁是第一而是想看看在真实 Agent 任务里谁更稳定、少犯错、最后交出来的东西是一个能用的成品。案例测试案例一从零搭建开发者日志站这个案例我们主要对比下 Step 3.7 Flash 和 DeepSeek V4 Flash 这个两个模型我直接把下面这段 prompt 丢给 Claude Code两个模型各跑一次这个任务不算特别难模型需要理解技术栈要求搭 Next.js 项目结构配置 Markdown 解析写列表页和详情页加标签筛选和语法高亮还要生成 5 篇像样的示例日志。中间任何一个步骤出错就可能导致项目跑不起来、页面功能不完整或者前端显示不太好我们先来看下 deepseek-v4-flash的效果页面上总体功能都符合需求模型一轮就给出了结果没有让我们多次提示中间执行过程中模型在编译的时候遇到了3次错误都是自己修复最后给出的是一个可用的网页成品。再来看看 Step 3.7 Flash 的效果这个页面同样是一轮生成布局上采用了卡片式网格结构每篇文章以标题、描述和标签组合展示点击卡片进入详情页。相比DeepSeek V4 Flash偏列表化的信息陈列Step 3.7 Flash生成的页面更强调视觉层级导航栏固定了分类筛选交互上更贴近成熟的博客系统整体观感更加规整。这两个网页你们更喜欢那种风格我是更加倾向 step-3.7-flash这种。看完效果我们来看下时间成本的消耗我做了个对比图项目deepseek-v4-flashstep-3.7-flash总 Input726.6k747.4k总 Output14.0k25.7kAPI 时间2m 1s2m 30s估算人民币成本¥0.72¥1.22从图中可以看出两个模型的输入token基本上差不多Step 3.7 Flash 的模型输出要多很多难道是这个原因导致效果要好一点吗API消耗的时间也没有多大的差距成本上deepseek确实更加便宜从API定价来看国内外 好像也没那个模型能够和deepseek比。案例二GitHub 项目雷达我们来看看 Step 3.7 Flash 和 Gemini 3.5 Flash 对比表现如何提示词如下帮我从零搭建一个 GitHub 项目雷达 - 用 Python 脚本抓取 GitHub Trending 本周热门 AI 项目 - 对每个项目提取名称、Star 数、语言、简介、最近更新时间 - 自动分类Agent 框架 / 模型推理 / RAG / 多模态 / 工具链 / 其他 - 生成一个 HTML 报告页面分类卡片 统计小结 原始数据表 - 项目能直接跑起来输出 report.html我们先看下Gemini 3.5 Flash的效果直接把提示词给到 google Antigravity任务是一次性完成虽然说中间有2个工具报错都是模型自动修复没有人工介入最后给出了一个完整可运行的脚本和页面。Gemini 这次任务完成度没有问题但页面组织比较松散信息密度和视觉层级不太友好。我们在来看 Step 3.7 Flash 的效果把相同的提示词给到claude code任务页是一次性完成中间没有发生任何错误给出了一个完整可运行的脚本和页面。页面采用了卡片式的布局每个卡片清晰呈现项目名称、简短描述、编程语言、Star总数及本周增量。信息密度适中视觉层次分明。稍显不足的是分类导航没有固定在顶部需要滚动到对应区域才能看到其他分类。但整体排版、字体和间距控制都比较舒适Step 3.7 Flash 更接近一个可交付的看板页面。这轮任务中Step 3.7 Flash 一共消耗406.5k input tokens和18.7k output tokens没有缓存命中。执行时间上API 时间为 2 分 25 秒完整Wall 时间为 4 分 45 秒。按 Step 3.7 Flash 官方价格估算这次任务成本约0.7 元人民币。Gemini 3.5 Flash 的消耗不好查看没有记录可以查看的地方时间消耗两边都差不多在3分钟左右这边只显示了额度被消耗了28%无法查看token的一个具体消耗。案例三源码解读写代码只是 Coding Agent 的一部分。另外一个高频的场景是读代码这个是我们经常遇到的事情接手一个陌生项目、理解一个开源库、分析一个框架的核心链路然后把它转成团队能读懂的文档。所以第三个案例我选了一个源码解读让它阶段源码给出输出一个html的页面这个源码解读需要多轮工具调用我们可以看看它们在多轮工具调用上的表现如何。提示词如下请你分析当前这个 GitHub 开源项目的源码并生成一份静态 HTML 架构分析报告。 要求你不要只看 README要结合源码目录、核心模块、类和函数调用关系来分析。 分析目标 1. 这个项目是做什么的 2. 它解决了什么问题 3. 核心架构是什么 4. 主要模块如何协作 5. 一次 memory 写入流程是怎么走的 6. 一次 memory 检索流程是怎么走的 7. 它依赖哪些外部组件比如 LLM、Embedding、Vector Store、Graph Store、数据库等 8. 如果我要自己实现一个简化版最小核心链路是什么 9. 这个项目的优点、复杂点和潜在局限是什么 请完成以下任务 1. 扫描项目目录 - 找出核心源码目录 - 找出主要入口文件 - 找出核心类、核心函数和关键配置文件 2. 分析源码结构 - 说明每个核心模块的职责 - 说明模块之间的调用关系 - 不要泛泛而谈要尽量指出具体文件路径 3. 生成架构报告 - 创建 mem0_architecture_report.html - 使用纯 HTML CSS不依赖外部 CDN - 页面需要包含以下章节 - 项目概览 - 目录结构解读 - 核心模块说明 - Memory 写入流程 - Memory 检索流程 - 关键类与函数表 - 架构流程图使用 HTML/CSS 或 Mermaid 代码块均可 - 简化版实现思路 - 优点与局限 - 适合参考的源码文件清单 4. 报告要求 - 内容要适合工程师阅读 - 不要只写概念要结合源码文件路径 - 每个核心结论尽量标注来自哪个文件或目录 - HTML 页面要有清晰排版 - 代码路径用等宽字体展示 - 表格清晰可读 5. 验收要求 - 最终必须生成 mem0_architecture_report.html - 报告打开后能直接阅读 - 如果你发现源码结构和 README 描述不一致以源码为准我们先来看下Qwen3.6 Flash的效果在执行过程中发生了多次工具调用失败的场景不过Agent最后都做了修复一次对话就完成了任务总体来说效果还是可以的按照我们给的需求完成了任务对memo0这个记忆架构框架的源码总结也比较到位再来看看 Step 3.7 Flash 的效果如何在执行过程中没有发生工具调用错误一次性完成了所有任务和Qwen3.6 Flash 相比差异不是很大就是左边多了一个导航菜单可以直接点击快速定位到想看的目录。看完效果我们来看下时间成本的消耗我简单做了个对比的表格大家可以自己看下。项目Qwen3.6 FlashStep-3.7-Flash总 Input1.38M1.2M总 Output40.8k20.6kAPI 时间6m 17s4m 08s估算人民币成本约 ¥2.07约 ¥1.79几轮测试后的横向对比维度Step 3.7 FlashDeepSeek V4 FlashGemini 3.5 FlashQwen3.6 Flash工具调用稳定性★★★★★★★★★☆★★★★☆★★★☆☆错误自修复能力高高高高UI/前端审美★★★★☆★★★☆☆★★★☆☆★★★★☆单次Token成本中等低中高中等隐性返工成本低中中中从这张表里可以看出Flash 模型的成本不能只看单次 Token 单价。DeepSeek V4 Flash 的单次 Token 成本确实更低这一点很有优势。但放到 Agent 场景里真正影响成本的还有另一个变量失败后的重试成本。比如工具调用失败、代码错误反复修改、页面结构不符合预期、报告需要人工二次整理这些都会变成隐性成本。我们把Agent的成本拆成两部分来看总成本 Token 成本 失败重试成本 人工介入成本。从这几轮测试看Step 3.7 Flash 不是单次调用最便宜的模型但它的工具调用稳定性更好返工更少最终交付物完成度也更高。因此如果任务是高频、多轮、需要持续调用工具的 Agent 执行场景Step 3.7 Flash 的综合成本未必会更高反而可能是更加省心的选择。什么时候选 Step 3.7 Flash经过上面的案例测试下来大家对Step 3.7 Flash 应该有一个直观的感觉 如果要我给Step 3.7 Flash给一个定位我对它看法是它的价格确实比DeepSeek更贵一点上下文比不过 DeepSeek 和 Gemini但它的工具调用稳定性接口响应速度前端界面审美还是非常不错的。它不是再某一个方面表现最强的模型也没有明显的短板它是在当前 Flash 模型档里在速度、成本、稳定性这几个维度综合评估下来在真实Agent执行层优先选择的模型之一。适合选 Step 3.7 Flash 的场景需要高频、多轮、低延迟的 Agent 任务生产级 coding-agent 工作流对速度和稳定性都有要求需要多模态理解比如截图转代码、图表转结论预算敏感但又不想牺牲太多稳定性Step 3.7 Flash 也有一个比较明显的短板就是它的上下文只有256k。如果要一次性处理大量代码库、长文档或者需要把很多资料全部塞进上下文里那这个窗口可能不太够。这种场景下DeepSeek V4 Flash 会更合适。模型没有绝对的最优解还是要看场景。最后总结真实项目里我们不只是追求模型回答得多聪明而是希望它在一轮又一轮任务里稳定、可控的执行任务不要在哪里不停的犯错和返工。我们做的案例只能给大家一个参考真正适合你自己的模型还是要放到你自己的项目里跑一遍。