牛津:大语言模型降低生信分析技术门槛

📅 2026/6/22 20:24:54
牛津:大语言模型降低生信分析技术门槛
要点ChatMDV支持用户通过自然语言基于生物数据集生成交互式可视化结果。该系统融合大语言模型与MDV图形平台简化数据探索流程。其支持可复现性、可适配性与FAIR数据规范适用于广泛的用户群体与应用场景。stephen.taylorwell.ox.ac.uk#自然语言交互界面 #数据可视化 #生物信息学 #大语言模型 #FAIR原则背景单细胞、空间组学、成像与基因组技术快速发展需要功能完善的分析与可视化平台处理复杂生物数据。多维查看器MDV等工具提供了全面的数据探索界面但生成可视化结果往往需要高阶计算能力与手动配置限制了多数用户的使用。方法ChatMDV的设计图1 ChatMDV管线的系统架构ChatMDV包含3大核心模块数据与图表规划代理、检索增强生成RAG管线、代码生成链。数据与图表规划代理模块负责解读用户提示词、识别对应数据集组分、根据数据集与问题类型选择最适配的可视化图表类型该代理还利用对话历史基于先前交互对查询做上下文补全并可自主调用Python交互式解释器REPL执行代码。推荐的图表类型与经上下文补全的用户提示词将被传送至RAG管线模块。该模块从预构建的代码模板库中检索出与查询语义最相关的5套基于MDV Python应用程序接口API生成的代码模板模板存储于向量数据库中。随后5套最相关模板、识别出的数据集组分、推荐图表类型与用户的上下文查询共同作为上下文输入代码生成链模块。该模块合成并执行生成的Python脚本最终结果代码与对应视图将被返回并在MDV界面中渲染同时输出可执行代码与可视化结果完成用户查询响应。多维查看器用户界面与ChatMDV图2 多维查看器MDV用户界面与ChatMDV交互流程A. MDV项目的着陆页展示多幅图表附带下拉菜单列出可浏览的视图ChatMDV图标位于页面中点击可启动交互会话。B1. 点击ChatMDV图标后弹出聊天窗口支持折叠侧边栏与独立弹窗模式初始消息提示用户输入问题同时动态生成示例提问并展示数据集信息如列名。B2. 用户可提交自然语言查询对话历史会被保留新建对话按钮可开启全新会话ChatMDV输出核验摘要与相关信息帮助用户判断输出的准确性。B3. 生成的Python代码附带大语言模型生成的图表选型说明与解读思路要点同时标注所用Python代码模板的文件路径提升可解释性进度条显示查询执行状态并实时反馈ChatMDV的推理过程滚动页面后可看到视图按钮侧边栏可查看历史对话。C. 点击新视图按钮后会展示生成的可视化结果描述性视图名称与图表标题辅助解读为用户提供额外信息MDV的点击式界面支持交互式图表编辑为用户提供更高的灵活度。评估与案例研究评估方法图3 ChatMDV评估策略、评估示例与复杂度评分赋值示例A. 采用3套不同的单细胞RNA测序数据集评估ChatMDV验证其通用性与广泛适用性针对每个数据集整理10道独特的自然语言问题每道问题通过自动化Python评估测试脚本重复提交10次生成的可视化结果在同一MDV项目中产出并进行质量评估与打分。B. 提交给ChatMDV的示例问题附带代表性可视化输出与对应的定性评估等级。C. 对应B组示例问题的复杂度分析与复杂度评分赋值示例。结果本文提出与MDV集成的自然语言交互界面ChatMDV用户可通过自然语言指令生成高质量交互式可视化结果与分析内容。ChatMDV采用检索增强生成RAG管线结合大语言模型LLM将用户查询转化为可执行、可复现的Python代码与交互式输出。这一对话层支持不同生物领域的探索性与定向分析。本文采用套复杂度递增的数据集验证ChatMDV的功能外周血单核细胞3KPBMC3K单细胞RNA测序数据集、人类细胞图谱中的肺癌图谱单细胞测序数据集以及TAURUS纵向研究单细胞测序数据集。在所有用例中ChatMDV均可通过简单的自然语言查询生成高质量、可复现的可视化结果数据集可视化的语义成功率可达79%~97%。ChatMDV性能评估表1 不同数据集下ChatMDV的性能汇总执行成功率对应评分2~5分语义成功率对应评分4~5分完美成功率对应评分5分。图4 ChatMDV评估结果展示各数据集的评估结果汇总纵轴右侧为评估问题左侧为对应复杂度评分每道问题通过自动化评估脚本运行10次输出结果按等级标注从「5级完美视图」到「1级空视图或未生成视图」评估结果条形图旁标注复杂度评分最复杂问题赋值为7最简单为1。结论ChatMDV打通了自然语言处理与生物信息学可视化之间的壁垒降低了技术门槛提升了可复现性支持更具包容性的科学探索。其模块化设计与对FAIR可查找、可访问、可互操作、可复用原则的遵循使其成为可扩展、适配性强的框架可加速生物数据分析流程。详细总结思维导图核心量化评估结果参考Gigascience. 2026 Jun 19:giag073. doi: 10.1093/gigascience/giag073.ChatMDV: Reducing Technical Barriers in Bioinformatics Analysis using Large Language Models260619ChatMDV.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。