MinerU 团队新产品 | Sciverse 科学数据基座,把可信的科学知识接入你的 AI 工作流

📅 2026/6/30 5:33:07
MinerU 团队新产品 | Sciverse 科学数据基座,把可信的科学知识接入你的 AI 工作流
Auto-Research 正在成为科研 AI 里热门方向之一。它把科研 AI 从“单次问答”推向“自动化工作流”让 Agent 围绕一个研究问题连续完成文献检索、论文筛选、原文读取、证据整理、方法对比和综述生成以此帮助研究者更快找到关键证据更快推进科学发现。但当科研 AI 进入这样的工作方式底层数据能力就变得很关键。没有可信、完整、可追溯的科研数据基座AI 很容易生成“看起来像科研”的内容根本无法保证结论可靠、实验可复现、创新可验证。现在Sciverse来了Sciverse是 MinerU 团队重磅打造的科研数据基座。它将海量公开学术文献处理为原生 Agent 友好的 AI-Ready 科学数据提供元数据检索、语义证据片段、原文上下文和图表资源让科研 AI 不再停留于模型记忆和零散搜索结果而是能够读取论文、理解上下文、调用关键证据并追溯每一个结论的来源通过 API、Skills 灵活调用方式进入科研产品、RAG 系统、Agent 工作流以及 Claude、Cursor、Codex 等 AI 工具让 Agent 能够基于真实、可验证、可追溯的科学数据完成研究。快来试试⭐ Sciverse 科学数据基座官网https://sciverse.space Sciverse API/Skills 文档https://sciverse.space/docs Cookbookhttps://sciverse.space/docs#cookbookSciverse 提供什么Sciverse 把论文、图书、专利、期刊、会议等公开的科学知识资产处理成 Agent 可以直接调用的科学 AI-Ready 数据。其已覆盖● 4.66 亿条学术元数据● 1.06 亿条图书记录● 7000 万条专利记录● 2,800 万余篇 AI-Ready 开放获取全文Sciverse 覆盖论文、图书、专利的知识总览这些跨学科、跨语种、多来源科学知识数据已经被清洗、解析、结构化和索引并通过 T1 增量更新持续进入可调用状态。与传统数据库不同Sciverse不只返回“文献结果列表”而是提供一套可直接进入科研工作流的科学证据能力。基于 Sciverse科研 Agent 可以调用结构化元数据、全文片段、章节、图表、引用上下文和证据位置完成更多细粒度研究任务包括但不限于● 跨文档方法对比● 实验条件和数据集定位● 图表证据查找● 指标和结论抽取● 技术路线梳理● 论文与专利技术表达对照● 带来源的综述草稿生成● 研究方向持续追踪。六个核心 API从检索到证据再到图表资源在 Auto-Research 工作流中科研 Agent 需要的不只是“搜到论文”而是稳定完成证据发现、论文筛选、字段理解、原文核验和图表调用。Sciverse用六个核心 API 串起这条科研证据链路为科研 Agent 工作流提供六类能力从语义找证据到结构化筛论文再到论文关系扩展、原文校验和图表调用。1. agentic-search语义证据检索当用户提出一个自然语言研究问题时Agent 可以调用agentic-search获取相关文献中的可引用证据片段。适合场景Scientific RAG文献综述 Agent观点证据检索Citation GroundingEvidence Pack 构建。典型链路agentic-search - content - 带来源证据输出2. meta-search结构化元数据检索当用户需要按年份、期刊、作者、学科、语言、引用数等条件筛选论文时应使用meta-search。适合场景高级论文筛选论文清单生成系统综述初筛研究方向趋势扫描学术产品中的筛选器和排序功能。典型链路meta-catalog - meta-search - 论文清单 / 统计分析3. meta-catalog字段能力发现meta-catalog用于查看 Sciverse 当前支持哪些元数据字段、字段类型和字段能力。Agent 或前端应用不应硬编码未知字段而应该先通过meta-catalog获取可用字段再构造meta-search查询。适合场景动态生成筛选器检查字段是否可 filter / sort避免 Agent 编造不存在的字段构建稳定的高级检索体验。典型链路meta-catalog - meta-search4. meta-paper-relations论文关系网络检索meta-paper-relations 用于基于一篇论文的 unique_id分页获取它的引用关系、参考文献关系和相关工作关系。 当 Agent 已经通过 meta-search 找到目标论文后可以继续调用 meta-paper-relations 扩展这篇论文的 citation network获取 citations、references 或 related_works。适合场景引用网络分析Related Work 扩展系统综述滚雪球检索从种子论文发现上游参考文献和下游引用论文研究脉络追踪。典型链路meta-search - meta-paper-relations - 论文关系扩展 / 引用网络分析5. content读取原文上下文content用于按doc_id offset读取论文原文片段。当agentic-search返回一个 evidence chunk 后Agent 可以继续调用content读取该片段前后的上下文确认原文是否真正支持某个论点。适合场景原文核验论文阅读助手综述证据扩展Evidence Pack 构建按段读取全文。典型链路agentic-search - content6. resource获取 Figure / Table 资源resource用于获取论文中的 Figure / Table 等图表资源。Agent 可以先通过content读取全文 Markdown从中提取图表路径再调用resource获取图片或表格资源。适合场景图表证据检索多模态 RAG实验结果图分析论文图表问答科研报告和演示材料生成。典型链路agentic-search - content - resource三条最常见的科研 AI 工作流下面是三条最常见的工作流。工作流一文献综述 Agent用户输入一个研究问题例如请帮我综述 2020-2024 年 Transformer 在蛋白质结构预测领域的应用进展。Agent 可以这样调用 Sciverse1. 调用 agentic-search检索相关文献证据片段 2. 对高相关片段调用 content读取原文上下文 3. 整理方法、实验条件、数据集、指标和结论 4. 输出带 doc_id、offset、title、year 等来源信息的综述草稿 5. 用户或研究者再进行人工审阅和修改。* 需要注意的是Sciverse 提供证据和上下文不替代最终科研判断。最终综述仍应由研究者审阅。工作流二Scientific RAG很多 RAG 系统最大的问题是召回内容不够可信或者回答中缺少可核查来源。使用 Sciverse 后Scientific RAG 可以这样工作1. 用户提出科学问题 2. 系统调用 agentic-search 获取相关 evidence chunks 3. 根据 score 和来源信息过滤证据 4. 必要时调用 content 补充上下文 5. LLM 基于证据生成回答 6. 回答中保留引用编号、doc_id、offset 和论文标题。这样LLM 的回答不再只是“看起来合理”而是可以回到原文片段进行核查。工作流三图表证据与多模态分析很多科研结论并不只存在于正文段落中也存在于 Figure、Table、实验流程图和结果图中。Sciverse 支持从文本证据进一步走向图表证据1. 调用 agentic-search 找到相关论文 2. 调用 content 读取全文 Markdown 3. 从 Markdown 中提取 Figure / Table 路径 4. 调用 resource 获取图表资源 5. 将图表交给多模态模型或科研应用分析 6. 输出图表来源、论文标题、doc_id 和 file_name。Sciverse 能接入哪些场景Sciverse​​​​​​​ 可接入科研 Agent、RAG 系统、数据管线和学术产品支撑从文献综述、知识库建设到技术情报、数据集构建和产品集成的科研 AI 工作流1. 文献综述 Agent围绕一个研究问题Agent 调用 Sciverse 检索相关论文读取全文片段提取方法、实验条件、数据集、指标和结论生成带来源证据的综述草稿。适用于研究方向入门、课题背景梳理、近期进展总结和论文写作前的资料准备。2. 科研知识库与 RAG 系统课题组或产品团队可以将 Sciverse 接入 RAG pipeline为内部知识库、科研问答系统和论文阅读工具提供结构化科学数据源。系统不仅可以召回论文记录也可以调用正文片段、证据位置和来源信息提升回答的可核查性。3. 专利与技术情报分析Sciverse 覆盖论文与专利数据可用于技术路线梳理、专利 claims 对照、竞争情报分析和前沿方向监测。适用于企业研发、技术转移、产业研究、专利分析和科研管理场景。4. 垂直领域数据集构建开发者可以基于 Sciverse 构建特定学科或任务的数据集用于模型评测、知识抽取、领域微调、论文计量分析和学术产品开发。相比从零开始做论文获取、PDF 解析、元数据清洗和全文索引Sciverse 提供了更完整的数据底座和可追溯来源。5. 学术产品与数据管线集成Sciverse 提供 API 与 Skill 接入能力可集成到 AI 学术搜索、自动综述、论文阅读、专利分析、技术情报和 Research Agent 产品中。立即体验Sciverse 已开放使用。快来试试~⭐ Sciverse 科学数据基座官网https://sciverse.space/ API/Skills 文档https://sciverse.space/docs Cookbookhttps://sciverse.space/docs#cookbook写在最后——Sciverse 的边界为了让科研 AI 工作流更可信Sciverse 会坚持几个清晰边界● 提供科学数据、元数据、证据片段、全文上下文和图表资源● 不替代研究者做最终科学判断● 不保证每篇文献都有可读取全文或图表资源● 不鼓励 Agent 编造字段、引用或结论● 需要训练、批量处理或商业化集成时应遵守数据来源、授权范围和平台账号权限。Sciverse 的核心价值不是替用户“自动写完论文”而是让科研 Agent 能够基于真实、可追溯、可调用的科学证据工作。