如何稳定地在 Zenodo 学术数据库下载科研数据?

📅 2026/7/2 2:07:47
如何稳定地在 Zenodo 学术数据库下载科研数据?
用浏览器直接下载较大的科研数据 (比如几百G内存的) 简直是一种折磨动不动就断联报错对此有以下两个较好的解决方案方案一使用专用的 Python 命令行工具对于动辄几十上百 G 的科研数据直接使用专门针对 Zenodo 开发的下载包是最稳妥的它不仅支持断点续传下载完成后还会自动比对 MD5 校验码确保你的数据没有损坏具体操作如下# 1. 首先打开你的某个环境 conda activate env_name # 2. 终端安装工具 pip install zenodo_get # 3. 先通过 cd命令 进入保存数据的文件夹再执行下载命令: zenodo_get Record_ID # (Record_ID号从数据集的网址中获得,比如此时我关注的数据集的Record_ID是21105019) zenodo_get 21105019程序就会自动抓取该页面下的所有文件并开始稳定下载方案二使用开源工具Motrix 的可视化界面来下载Motrix 网址下载并安装后打开app:接着需要填入信息提交后可能会报错出现这个报错是因为Zenodo 服务器识别到这是一个第三方下载工具Motrix 的底层是 aria2的非标准请求从而直接切断了连接。Zenodo 为了防止恶意爬虫占用带宽通常会校验请求的User-Agent浏览器标识、Cookie或者会限制多线程并发下载解决方案修改 Motrix 的高级设置来伪装浏览器1.先获取浏览器的身份信息在浏览器中按F12打开开发者工具切换到网络 (Network)面板。刷新 Zenodo 的下载页面点击那个文件的下载按钮。在网络面板中找到刚刚产生的那条下载请求记录点击它。在右侧的“请求标头 (Request Headers)”中找到User-Agent和Cookie这两项内容并将它们复制下来。2.再配置 Motrix在 Motrix 中新建下载任务粘贴下载链接。点击输入框下方的高级选项。在User-Agent字段中粘贴刚刚复制的浏览器标识。在附加 Headers中按照Cookie: cookie内容的格式填入。关键一步将“最大连接数线程数”修改为1。Zenodo 非常排斥多线程同时拉取同一个文件。最后恭喜你可以顺利下载科研数据