arXiv 2026新规深度解读:机构邮箱失效、AI连坐封号、综述拒收——预印本平台正在告别“草稿时代”

📅 2026/6/16 11:18:54
arXiv 2026新规深度解读:机构邮箱失效、AI连坐封号、综述拒收——预印本平台正在告别“草稿时代”
arXiv正从一个“人人可发的草稿仓库”转变为有明确准入规则和严格问责的“学术权威通道”。引言2026年5月arXiv预印本平台发布了一条令全球学术界震动的新规利用AI生成“水论文”的作者将被封号一年所有署名作者一并连坐受罚。然而这并非arXiv“一刀切”限制AI工具的使用而是八个月内一系列“严打行动”的第四刀。在此之前2025年10月CS类别拒收综述与立场论文除非先行通过同行评审2026年1月机构邮箱不再是新作者自动获得投稿资格的有效凭证引入更严格的背书规则2026年2月所有投稿须有完整英文版本可接受AI翻译但作者负全责2026年5月AI内容未核查者封号一年作者连带处罚这四条规定每一刀都落在痛处在学术社区引发了广泛的质疑与讨论。要理解这背后发生的一切必须先弄清楚arXiv是什么它经历了什么以及为何走到了这一步。下面我们逐一梳理。一、arXiv是什么1.1 从历史说起arXiv的诞生可以追溯到1991年。那时候互联网还没有万维网WWW电子邮件是科学家们最重要的交流工具之一。在arXiv正式上线之前高能物理学家们习惯于通过电子邮件向同行交换最新的论文预印本——这些论文尚未经过期刊审稿、没有正式出版但研究人员希望第一时间获得反馈并抢占学术发现的“优先权”。物理学家保罗·金斯巴格Paul Ginsparg发现这种电子邮件群发的方式既不便管理也缺乏归档于是他建立了一个自动化系统最初只是针对超弦理论这一小众研究社区设计的结果很快在理论物理研究界迅速扩散。两年后1993年该系统迁移至万维网1998年域名正式定为arXiv.org“arXiv”这个名字的读音是“archive”其中的“chi”用了希腊字母χ来替换既保留了“存档”的核心语义又在字体排版上与学术预印本形成了独特辨识度。到2001年康奈尔大学图书馆正式接管了arXiv的运营、编辑和管理工作这一运营框架一直延续至今。2023年平台获得西蒙斯基金会和美国国家科学基金会超过1000万美元的捐款用于现代化改造和云端迁移而到2026年夏天arXiv将从康奈尔大学剥离转型为独立的非营利机构宣告其“脱胎换骨”的新篇章。1.2 今天的arXiv有多大根据arXiv官方数据目前平台涵盖8个学科领域累计收录近300万篇学术预印本论文绝大多数集中在计算机科学、物理学和数学领域。arXiv每天要处理700到1400篇新投稿每月累计约20000篇。这些论文未经同行评审就直接上线公开但在发布之前约300名志愿者版主会对投稿进行审核确保“内容恰当且贴合主题”剔除抄袭和非科学类内容。换言之arXiv的独特价值在于它让学术成果以天为单位发布而不是以年为单位。然而这恰恰也成为它最脆弱的“阿喀琉斯之踵”。二、arXiv遇到了什么危机——AI垃圾稿件洪流2.1 “等着看”——一句预言成真arXiv编辑理事会主席、阿姆斯特丹大学天文学家Ralph Wijers回忆2022年ChatGPT刚刚发布时arXiv团队其实并没有立即感受到明显的冲击。整个2024年AI生成论文的影响几乎可以忽略不计。“但我的好几位同行当时就提醒说等着看。”Wijers说。到了2025年初AI生成的垃圾稿件学术界称之为“AI slop”即毫无科学价值的AI生成灌水内容开始呈指数级增长先是计算机科学领域后逐渐蔓延到其他学科。2.2 数字有多夸张过去版主平均拒稿率约4%如今已飙升至10%到12%。仅2025年一年拒稿率几乎翻了三倍。一项研究估计2025年全球学术论文中至少出现了超过14.6万条幻觉引用——这些引用指向的论文完全不存在。“四页的论文里硬塞进50个小节其中有些小节压根没有内容。”Wijers这样描述版主每天遇到的情况。这类稿件根本不像正经科学论文但生成式AI让批量制造这种东西变得又快又容易。2.3 为什么首当其冲的是综述类论文AI尤其擅长“综述”和“立场论文”——这两类论文不需要实验数据不需要创新结果只需要对既有研究进行总结、分类和评论非常适合大规模AI生成。但问题在于它们耗费了版主团队大量精力去甄别因为很多综述本质上只是“带注释的参考文献列表缺乏真正的分析或规划”。2025年10月arXiv终于出台了第一刀CS类别拒收未经同行评审的综述和立场论文。2.4 并非人人支持这个决定部分研究者担忧这反而会削弱arXiv最核心的“即时发布”优势。像“氛围编程”这类新兴概念方向如果要走三个月甚至更长的期刊评审流程才能上线预印本最前沿、最时效的综述可能就此被直接“闷死”。三、四刀新规一刀一刀拆解第一刀CS综述与立场论文“拒之门”2025年10月核心变化所有投递到计算机科学类目的综述review/survey与立场论文position paper必须先被正式期刊或会议接收并完成同行评审提交时需附带评审通过证明和DOI否则一律拒收。苛刻细节workshop评审不算数因为arXiv认为workshop的评审机制与传统期刊会议相比“不够严谨”。初衷不是AI不能用而是要让作者对内容负责为版主减负。从某种意义上讲综述与立场论文从来都不在arXiv官方接收的内容清单里过去依靠版主“网开一面”才存在豁免窗口。第二刀背书门槛升级告别“单一机构邮箱”2026年1月21日这是此次四条规定中影响面最大、争议也最大的一条。旧制只要你有一个edu或.ac结尾的学术/研究机构邮箱首次向arXiv投稿时系统就会自动放行本质上是“信任机构不信任个人”。新制自2026年1月21日起新投稿者必须同时满足两个条件才能自动获得投稿资格来自学术/研究机构的邮箱地址在你想投稿的“背书域”endorsement domain中已有过被arXiv接收的论文。所谓“背书域”是将不同学科进一步细分的投稿权限领域比如cs.LG机器学习、cs.CL计算语言学。即便你在cs.LG发过论文想投cs.CL时之前的资格也全部清零。自动背书走不通怎么办——走第二条路个人背书。如果不符合上述两条新作者可以申请“手动背书”在arXiv系统里寻找一位已在同一背书域内具备投稿资格的“老人”通过ORCID完成身份验证由对方手动背书。arXiv工作人员无法为作者提供背书。谁不受影响已在某背书域发表过论文的作者在该域内的背书资格保留可继续投稿但跨域仍需重新背书。影响有多大从社交媒体和学术社区的反馈来看这一刀对独立研究者冲击尤其严重。没有机构邮箱、靠自学或转行挤进AI圈的工程师几乎一夜之间丧失了在arXiv首发论文的能力。即便你刚入学、有.edu邮箱、导师是学术大牛只要还没发表过论文仍然必须找人手动背书。更有研究者指出这是一场“延迟发作的伤害”。第一刀2025年10月砍下来时因为一篇综述从写作到走完期刊评审本就需要3到6个月所以到2026年春季开学季和第一批学生投出第一篇论文时这个门槛的杀伤力才真正爆发出来。第三刀英语强制令2026年2月11日过去arXiv只要求提供英文摘要现在整篇论文都须以英文撰写或附上完整英文翻译版本。AI翻译如GPT-4o等工具被明确允许但全体作者对翻译的准确性负有全责。争议在哪里许多法语、西班牙语学者批评这建立了一种“语言壁垒”可能迫使研究者转向HAL等支持多语言投稿的预印本平台。不过从数据上看目前arXiv仅有约**1%**的投稿使用非英语语言所以实际受影响范围有限但其象征意义大于实质影响。第四刀AI生成未核查封禁一年连坐2026年5月如果说前三刀是“准入”层面的改革那么第四刀直接击穿了学术诚信的核心红线。触发条件论文中出现“无可辩驳的证据”证明作者未核查LLM生成的内容。典型“无可辩驳证据”包括幻觉引用指向一篇完全不存在的论文LLM元评论残留稿件中仍保留AI的提问痕迹如“这是一段200字摘要是否需要修改”占位符未填表格里写着“请用实验真实数据填入此处”等字样处罚力度一旦查实全体署名作者“签名即担责”——无论是不是论文的主要撰写人——一并被封禁一年。解封后所有新投稿必须先被声誉良好的正规期刊或会议接收、通过同行评审才可再次上传到arXiv。AI是不是完全被禁了不是。用AI润色语言、AI辅助查文献都不在新规禁止范围内。新政卡的是“你有没有认真读过自己署名的论文”。逻辑很简单如果正式提交的论文里还保留着占位符和元评论说明作者连最基本的检查都没有完成那论文的其余内容显然不值得信任。四、各方反应与深度审视支持派陶哲轩公开附议菲尔兹奖得主、加州大学洛杉矶分校数学家陶哲轩第一时间在Mastodon发文用自己提出的“四条学术AI治理框架”逐一对照了arXiv新规给出了总体判断在生成论文远比消化论文容易得多的时代任何将传统科学机构的平衡重新倾向于“消化成果”方向的努力都是值得欢迎的。他强调前两条建议——“明确AI辅助的许可边界”和“降低对抢先发表的强调转重视消化成果”——与新规高度契合。至于重度使用AI的研究他并不认为会在arXiv上被完全扼杀viXra等几乎不对AI投稿设限的平台可以成为未经充分“消化”内容的独立存档地。质疑与担忧对独立研究者不友好很多AI领域的研究者表示独立研究者、换赛道或转行的学者几乎一夜之间丧失了在arXiv上首发成果的机会。即便是刚拿到机构邮箱的博士生也必须完成“找大佬背书”这道工序。连坐处罚是否公平多人在arXiv政策公告下留言质疑如果一个恶意论文在未征得合作者同意的情况下把某人的姓名列入作者列表并投稿到arXiv此人是否也会被连带禁投对此arXiv计算机科学版块主席Thomas Dietterich表示所有已作者可以通过论文所有权认领流程来管理自己的论文记录但同时也承认“我们的流程中可能会存在偏见”并表示“非常乐意与研究界合作共同评估审核流程中的偏见与成效”。语言壁垒问题法语、西班牙语学者批评英语强制要求是一种语言层面的学术壁垒可能迫使非英语母语研究者转投其他预印本平台。政策执行偏差疑虑还有研究者担心“这项政策会根据机构特权和个人的知名度选择性执行最终沦为一种工具用来让没有背景关系的人闭嘴而不是促进更良性的科学讨论”。Dietterich对此回应称会使用一套标准的大语言模型检测算法辅助识别需要审查的论文尽量减少人工偏见。五、对新规的全面审视是非对错不应忽视的一个时间点四条新规之所以近乎同时密集出台除了垃圾稿件泛滥这一表面原因之外还有一个更深层的制度背景arXiv正在从康奈尔大学旗下机构向独立非营利组织转型2026年7月1日将正式完成这一剥离。在这个关键的转型过渡期内新团队必须向学术社区展示出清晰的治理方向和严格的审核标准获取更广泛的经费支持与合作信任才能为未来独立运营铺平道路。换言之今天的严苛标准正是明天独立运行所需的“信用基础”。是非对错盘点核心争议积极的一面对学术造假和不端行为设定了清晰、可操作的问责边界。“幻觉引用”和“占位符未填”这类低级的、非科学的论文操作确实是必须被杜绝的现象。显著减轻了版主的无偿审核负担。原来每天看到50个小节的“拼凑论文”会直接耗尽审核热情。符合学术社区对“负责任的AI使用”的普遍期待——不禁止AI但必须由人类对输出结果负最终责任。值得担忧的一面第一刀综述拒收可能误伤有真正学术价值的综述论文。尤其是发展极快的AI领域一篇优秀的综述如果在等待期刊评审的过程中“过期”就等于丧失了最宝贵的时效性。第二刀升级背书门槛对独立研究者、跨学科转向的研究者极不友好本质上创造了一种“圈地自萌”的资格壁垒。这与arXiv创建之初“对所有人开放”的理念存在一定张力。第四刀署名连坐在实操中可能引发正当性问题——合作者是否应无条件对所有LLM相关错误承担连带责任如果论文是博士生主笔导师的角色如何界定这些问题尚需进一步打磨。六、对新作者的建议如果你是第一次准备向arXiv投稿① 认领论文所有权如果你过去已发表过论文但从未认领过arXiv所有权现在赶紧去arXiv主页通过“paper ownership”功能进行认领。这不仅能为你积累背书资格也有助于建立你的学术档案记录。主动认领与维护比临时抱佛脚要好得多。② 提前确认背书域跨域投稿意味着之前的所有资格全部清零。如果你打算在多个子领域之间跨界投递请提前联系已在目标背书域内发表过论文的合作者、导师或同行预留时间和名额为你手动背书。③ 逐条核对参考文献幻觉引用是最容易被发现、最难抵赖的违规证据。LLM会写出极为真实但完全捏造的论文标题、作者和期刊名称务必逐一核实。④ 全文英文提交或附上可靠译本AI翻译后人工核对如果原稿为法语、西班牙语、汉语等非英语语言需要附上完整英文翻译版本。AI翻译可用但全体作者对翻译准确性负有完全责任。⑤ 遵守署名自律原则审慎对待作者列表所有署名作者原则上都应当阅读过全文并共同确认论文的科学诚信与内容正确性以确保一旦发生问题时能够共同承担责任。七、结语arXiv的转型意味着什么35年前arXiv用预印本模式打破了传统学术出版的漫长周期今天它又在AI的浪潮中重塑着自己的规则。从“共享草稿的社区”到“有门槛的权威通道”——这不仅是arXiv的变化也是整个预印本时代的集体自觉。对于一位诚信的科研工作者而言新规无非是增加了“提前认领论文”“检查参考文献”两道工序但对于依赖AI批量化生成“灌水论文”的造假者而言新规意味着直接出局。至于它会不会导致学术圈产生新的特权门槛会不会误伤真正的独立研究者会不会扼杀跨学科的创新尝试——这些问题也许只有时间和下一轮政策迭代才能给出最终答案。但至少有一点是确定的arXiv正在从一个“只要你想发就能发”的草稿仓库走向一个“你要对自己的学术身份和每一行文字负责”的正式系统。而这恰恰是科学共同体在面对AI冲击时必须守住的第一道防线。