网页失效严重,互联网档案馆时光机拯救15%失效网页,网络存档仍任重道远 📅 2026/7/4 18:47:32 虽已消逝但未被遗忘拯救逝去的网络皮尤研究中心的一项研究发现十年前38%的网页以及过去十年间抽样的网页中约25%如今已无法访问互联网档案馆的时光机Wayback Machine拯救了大约15%原本已失效的网页。多项研究揭示网页链接失效现状2024年皮尤研究中心发布《当在线内容消失时》指出2013年存在的网页中38%在十年后无法访问2013 - 2023年间曾存在的网页中四分之一已无法访问。同年SEO公司Ahrefs报告称过去九年中至少66.5%的网站链接已失效。2021年乔纳森·齐特林团队分析《纽约时报》文章约200万个外部链接发现25%的深层链接已失效1998年的旧链接中72%已无法使用。老自治领大学近期研究分析时光机自1996年以来的2730万个URL样本2023年检查时约65%的抽样URL在实时网络上已失效。互联网档案馆创始人布鲁斯特·卡勒指出网页平均寿命在40至100天之间。2026年出版的《消逝的文化关于我们脆弱文化记录的报告》强调文化数字内容流失原因及图书馆和档案馆的关键作用。时光机拯救失效网页情况不同研究抽样的已失效和被拯救网页情况如下皮尤全量2024年研究2013 - 2023年样本540万失效比例26%拯救比例16%皮尤通用2024年研究2013 - 2023年样本100万失效比例27%拯救比例13%齐特林《纽约时报》2021年研究2013 - 2013年样本8.8万失效比例40%拯救比例38%ODU纽约公共网页2024年研究1996 - 2021年样本2730万失效比例65%拯救比例65%。皮尤研究中心研究详情皮尤研究中心与互联网档案馆分享数据集该数据集含540万个唯一URL。若不考虑网络档案馆约四分之一抽样URL无法访问或已失效利用时光机后无法访问或已消失的URL比例从四分之一降至十分之一。时光机已存档约72%的数据集其中56%是实时网络上仍存活的URL16%是从失效URL中拯救出来的。样本中18%的URL仍存活但未在时光机中存档为濒危URL。皮尤数据集中约100万个URL的子集是过去十年通用网页样本2023年约四分之一的URL已失效2013年的链接失效比例高达38%其中约38%总数约15%被时光机拯救通用样本中被视为失效的累积URL中约四分之一的一半被时光机拯救。齐特林研究及老自治领大学研究情况互联网档案馆未获取齐特林关于《纽约时报》外部链接研究的数据集自行创建约8.8万个URL的数据集。发现2013年《纽约时报》页面的外部链接中40%在实时网络上已失效但96%的URL已在时光机中存档样本中约2%的URL已消失。老自治领大学研究分析时光机索引中2730万个URL1996 - 2021年抽样的URL中约65%在2023年已失效所有已失效的URL都被时光机拯救无法给出濒危或已消失URL的比例。网络存档任重道远所有关于链接失效的研究表明网络脆弱随着时间推移失效网络资源增多。时光机等网络档案馆在拯救失效网络内容、减少网络知识图谱断裂方面作用重要但仍有许多工作要做。如“让所有引用变蓝”TARB项目已修复数百个维基上超过3000万个失效链接。互联网档案馆通过多种方式减少文化遗产潜在损失如引入新数据、加入IndexNow倡议、提供“立即保存页面”服务等还呼吁大家“看到即保存”。