从 A2A 到 Sciverse:科学智能正在补上 Agent 最缺的一块地基

📅 2026/6/16 23:59:50
从 A2A 到 Sciverse:科学智能正在补上 Agent 最缺的一块地基
导语2026 年上半年AI Agent 的热点明显变了行业不再只问“模型更强了吗”而开始追问“Agent 能不能找到可信证据、能不能和别的 Agent 协作、能不能把科研流程跑通”。如果这个判断成立那么 Sciverse 这类面向科学文献、结构化元数据与可引用证据的检索底座正在从“好用的 RAG 工具”变成“科研 Agent 的基础设施”。为什么现在值得关注近几天和近几个月至少有四个公开信号在指向同一件事MCP 从社区协议走向主流平台接口。截至 2026 年 6 月 16 日OpenAI 官方文档已把 “MCP and Connectors” 作为工具体系的一部分。含义很直接工具调用不再只是 Agent 框架玩家的内部约定而正在成为主流 API 产品层的标准能力。A2A 把“工具接入”继续推进到“Agent 之间协作”。A2A 官方站已经把自己定位为 agent-to-agent 的开放协议。MCP 解决“Agent 怎么调用工具”A2A 解决“Agent 怎么彼此协作”。这意味着未来系统不只是一个大模型连很多工具而是多个 Agent 共享任务、状态与结果。科学 Agent 的评测开始变得更像真实科研。2026 年 6 月 10 日发布的 SciAgentArena 明确指出当前 Agent 在结构清晰的数据分析任务上已有价值但在开放式科研问题上仍然不稳定。这很关键因为它把问题从“模型会不会推理”推进到了“系统有没有可靠证据与可验证流程”。开放式多 Agent 科学发现开始出现可验证案例。2026 年 6 月 9 日发布的 EinsteinArena 展示了另一种趋势Agent 不再只是在封闭 benchmark 里答题而是在共享问题、共享讨论、共享验证器的环境里累积发现。换句话说科研 Agent 未来更像“研究网络”不是“单次问答器”。一句话总结当 Agent 开始联网、协作、追求可复核结论时数据底座的重要性会比模型参数增长得更快。这正是 Sciverse 的切入点如果把今天的科研 Agent 系统拆开看大致有三层层级解决的问题代表能力Sciverse 的位置协议层Agent 如何接工具、如何互相通信MCP、A2A不是替代协议而是承接协议后的科学数据入口执行层Agent 如何规划、调用、总结LLM、Agent runtime、workflow可作为被调用的科学检索与证据服务数据层结果是否可信、可引用、可追溯检索、元数据、全文、资源附件Sciverse 的核心价值层Sciverse 官网与集成文档给出的定位很清楚它不是泛网页搜索而是面向科学工作流的检索底座。公开信息显示它至少覆盖了这样一组关键能力agentic-search返回可引用的论文 chunk 与来源位置meta-search做结构化字段过滤、排序、freshness boostingcontent/resource读取全文与附件资源meta-catalog让 Agent 先理解字段 schema再构造精准检索这组能力的价值不在于“又多一个搜索 API”而在于它天然适合科研 Agent 的三类高频任务先用meta-search找范围明确的论文集再用agentic-search找能被模型消费的证据片段最后用content回读上下文避免只拿孤立句子下结论金句科研 Agent 的护城河最终不在“会不会说”而在“能不能拿出证据”。技术拆解Sciverse 怎样嵌进科研 Agent最实用的一种架构不是让大模型直接回答科研问题而是让模型只负责规划与归纳把证据获取交给专门的数据层。参考调用链用户问题 - Agent 任务规划 - Sciverse meta-catalog可选先理解字段 - Sciverse meta-search先缩小论文候选集 - Sciverse agentic-search找可引用 chunk - Sciverse content补全文上下文 - 组装 Evidence Pack - LLM 生成综述 / 筛选理由 / 研究方向 digest这条链路和项目内现有 PRD 也一致Sciverse 已经把“生成综述 / 筛选论文 / 跟踪方向”抽象成可复用工作流而不是一次性页面搜索。一个可直接改造的 Python 示例下面这段代码不依赖私有 SDK只使用公开 HTTP 接口适合改造成你的 Agent tool、MCP server 后端或评测脚本。importosimportrequestsfromtypingimportAny BASEhttps://api.sciverse.spaceTOKENos.environ[SCIVERSE_API_TOKEN]headers{Authorization:fBearer{TOKEN},Content-Type:application/json,}defsemantic_search(query:str,top_k:int5)-list[dict[str,Any]]:resprequests.post(f{BASE}/agentic-search,headersheaders,json{query:query,top_k:top_k,source_types:[pdf,web],mode:balanced,},timeout60,)resp.raise_for_status()returnresp.json().get(results,[])defread_context(doc_id:str,offset:int,limit:int3000)-dict[str,Any]:resprequests.get(f{BASE}/content,headers{Authorization:fBearer{TOKEN}},params{doc_id:doc_id,offset:offset,limit:limit},timeout60,)resp.raise_for_status()returnresp.json()queryWhat are recent methods for protein structure prediction?hitssemantic_search(query)evidence_pack[]forhitinhits[:3]:contextread_context(hit[doc_id],hit.get(offset,0))evidence_pack.append({title:hit.get(title),doc_id:hit.get(doc_id),chunk_id:hit.get(chunk_id),offset:hit.get(offset),score:hit.get(score),quote:hit.get(chunk),context_text:context.get(text,)[:1200],})foriteminevidence_pack:print(item[title])print(item[doc_id],item[offset],item[score])print(item[quote][:200])print(-*80)这段代码最重要的不是“能跑通请求”而是它演示了科研 Agent 的正确姿势不让模型直接编造答案先拿 chunk再回读上下文保留doc_id / chunk_id / offset / score把最终生成建立在 Evidence Pack 上和普通 RAG 的差别究竟在哪方案优点短板更适合什么场景纯模型直答快接入简单易幻觉难追溯头脑风暴、非严肃问答通用网页 RAG覆盖广更新快科学文献结构弱引用不稳定科技资讯、行业情报Sciverse 驱动的科学 RAG证据定位清晰适合综述/筛选/引用仍需上层 Agent 做任务编排科研综述、论文筛选、科学问答、方向跟踪金句不是所有 RAG 都能做科研科研真正需要的是“可复核的检索”。为什么这会是 Sciverse 的传播窗口今天很多人都在谈 Agent但真正能落地到科研场景的系统有一个共同门槛要把“工具调用”升级成“证据工作流”。Sciverse 恰好踩在这个交叉点上对上它能接进 Cursor、Claude、Codex 这类 Agent 使用场景对中它把检索拆成结构化搜索、语义搜索、全文回读、资源读取几段对下它承接的是科学文献与多模态科研资源而不是泛内容网页这意味着它的价值不只是“搜到论文”而是让 Agent 有机会形成更像科研助手的闭环明确任务类型选择搜索策略保留来源与位置回读上下文再交给模型总结最终输出带证据的综述、清单或研究方向 digest从产品传播角度看这比抽象地讲“AI for Science”更容易被理解因为它非常具体让 Agent 真正读懂科学世界。评测与验证方案本文未进行实测跑分。下面只提供可复现实验设计供团队或社区复核不虚构吞吐、成本、准确率。评测目标比较三种方案在科研问答与综述任务中的可靠性A纯大模型直答B通用网页搜索/RAGCSciversemeta-search agentic-search content任务集建议选择 20 个问题覆盖 4 类方向每类 5 题生命科学蛋白功能、CRISPR、mRNA/LNP化学retrosynthesis、催化、反应条件材料固态电池、钙钛矿、碳捕获AI for Scienceprotein design、scientific agent、citation grounding指标建议指标定义记录方式Citation Grounding Rate输出中的关键结论是否能回溯到明确来源人审 doc_id/offset检查Context Completeness是否只引用了孤立片段还是有上下文补全检查是否调用contentHallucinated Citation Count是否出现伪造论文、年份、DOI人审对照真实文献Retrieval RelevanceTop-K 检索结果是否与问题高度相关相关性打分 1-5Workflow Reproducibility他人能否按同样步骤复现结果固定 prompt、参数、日志调用步骤模板固定问题集与模型版本对三种方案使用同一批问题对 Sciverse 方案保留完整 API 请求与响应摘要输出统一 Markdown 报告双人交叉审核引用真实性记录模板- Query: - System setup: - Retrieval path: - Top documents: - Evidence ids / doc_id / offset: - Final answer: - Verified citations: - Hallucination found?: - Reviewer notes:事实核查清单文中关于 OpenAI 已支持 MCP/Connectors 的表述依据官方 API 文档截至2026 年 6 月 16 日访问核验。文中关于 SciAgentArena 的表述依据 arXiv 页面发布时间为2026 年 6 月 10 日。文中关于 EinsteinArena 的表述依据 arXiv 页面发布时间为2026 年 6 月 9 日。文中关于 Sciverse 能力拆解依据 Sciverse 官网集成文档、公开 OpenAPI以及项目内现有 demo/PRD。文中未声称任何未经实测的准确率、延迟、吞吐或成本数据。llms.txt本轮未完成正文级校验若要把其中内容写入正式对外稿建议二次复核后补充。结尾 CTA如果你正在做科研 Agent、科学 RAG、文献综述助手或者想把 Cursor / Claude / Codex 接进更可信的科学证据流现在正是试 Sciverse 的窗口期。先从一个真实研究问题开始把agentic-search content跑通再把meta-search和 Agent 工作流接上你会比单纯堆模型更快看到产品差异。