AI沉默的二十年,是数据和算力的厚积薄发,更是从机器学习到深度学习算法的一次次突破

📅 2026/6/29 19:24:30
AI沉默的二十年,是数据和算力的厚积薄发,更是从机器学习到深度学习算法的一次次突破
三样东西到位了如果说1956到1987年那三十一年AI失败的根本原因是太专用那1990年代之后情况开始发生根本性的变化。因为三样关键的东西在这个时期陆续到位了。第一样海量的数据。互联网的兴起让人类社会的信息量呈指数级增长。网站、博客、评论、图片、视频、电子书以及各类应用产生的用户行为数据每天都在以TB为单位涌入互联网。原来只能通过专家面对面获取的知识现在只需要一个搜索框就能触达。这些数据成了AI学习的养料。没有数据再聪明的算法也是巧妇难为无米之炊。第二样足够强的算力。个人电脑在游戏领域的快速发展意外地推动了AI的算力革命。本来用于游戏图形渲染的GPU显卡被研究者发现用来做AI计算比传统CPU快得多。原来需要几周才能完成的AI模型训练现在几天就能搞定。算力的突破让很多以前理论上可行但实际跑不动的算法变成了可以真正落地的技术。第三样从数据中学习的新方法。前文提到1950到1980年代的AI靠的是人工编写规则这种方式成本高、灵活性差。1990年代之后机器学习的思想开始成熟与其让人写规则不如让机器自己从数据中发现规律。你给它一万封邮件标记哪些是垃圾邮件哪些不是它自己就能总结出垃圾邮件的特征。不需要人一条条写如果标题包含XX就是垃圾邮件这种规则。数据、算力、方法三样东西凑齐了AI的第二次春天正式开始。地基是怎么打好的有了这三样基础接下来就是一项一项技术攻关。1993年到2016年这二十多年AI的基础技术几乎是在同时推进的而且它们之间并非孤立发展而是互相推动、互相加速。机器学习是这一切的底层方法论。它让机器从数据中自己学规律而不是靠人一条条写规则。支持向量机SVM用于分类问题决策树、随机森林用于预测分析。你现在收到的垃圾邮件自动归类、银行用的信用卡欺诈检测背后都是机器学习在干活。语音识别是最早出圈的AI能力之一。2000年代隐马尔可夫模型HMM让语音识别的准确率大幅提升。iPhone 4S在2011年推出Siri让普通消费者第一次在手机上体验到了跟机器说话的感觉。国内的智能音箱、语音助手也是在这个基础上发展起来的。图像识别在2000年代中后期迎来了关键突破。卷积神经网络CNN在学术圈屡屡刷榜只是那时候模型还不够深准确率还没到能用的门槛。但技术的方向已经确定了只差一个量变到质变的契机。如今你手机相册能自动识别猫狗沙滩就是CNN的功劳。文字识别OCR在2000年左右就已经比较成熟了。扫描仪、相机拍下来的图片上的文字能比较准确地识别并转成可编辑文本。你现在用手机拍一张菜单就能自动翻译底层就是OCR技术。自然语言处理NLP让机器开始懂人类语言。2003年Bengio等人提出神经网络语言模型为后来的词嵌入Word2Vec、序列到序列模型Seq2Seq打下了基础。你今天用翻译软件、输入法联想、搜索引擎理解你的提问都受益于NLP的进步。强化学习让机器学会了试错。通过做对了给奖励、做错了扣分的机制机器可以在没有人工标注数据的情况下自己学会做决策。2016年AlphaGo战胜李世石核心就是强化学习它自己跟自己下了几千万局棋才练出了那套碾压人类的棋力。这些技术单独拿出来每一个都不足以让AI产生质变。但它们加在一起构成了AI坚实的地基。深度学习串联一切的钥匙2006年杰弗里·辛顿提出了深度学习的概念。这个名字听起来很玄但核心思想其实很朴素既然单个技术各有擅长那就把它们叠起来做成一个更深的网络。就像盖楼一样一层处理基础的视觉或语言特征再往上一层处理更复杂的组合一层一层往上搭最终实现从识别到理解的跨越。深度学习就像一根线把机器学习、图像识别、语音识别、自然语言处理这些散落的珍珠串成了一条完整的项链。2012年这根线正式展示了它的威力。在图像识别领域最具权威的比赛ImageNet中深度学习模型以压倒性优势胜出错误率直接从26%砍到15%。这个降幅在过去的好几年里都没人能做到。