数据处理——语料清洗与分词,Garbage In, Garbage Out

📅 2026/7/5 14:06:11
数据处理——语料清洗与分词,Garbage In, Garbage Out
前置知识:无。这一篇不依赖深度学习理论知识。引言:大模型的"食物"是文本你可能觉得大模型最重要的是"模型架构"。但现实是:数据质量决定了模型能力的上限,模型架构只是逼近这个上限的手段。LLaMA-3 用 15T token 训练——如果数据质量差,15T 垃圾 = 一个会说废话的模型。GPT-3 论文花了大量篇幅描述数据清洗流程——不是因为他们没事干,而是不洗数据模型根本没法用。这一篇我们聊三件事:分词器:怎么把文本变成 token(BPE 从零实现)数据清洗:怎么把"互联网垃圾"变成"训练语料"词汇表设计:多大合适?中文和英文有什么区别?一、分词器:文本和模型之间的桥梁1.1 为什么要分词?神经网络不能直接处理"文字",它只能处理数字。分词器把文本变成整数序列:"我爱大模型" → [101, 235, 456, 789, 102] # token ID 序列看起来简单,但怎么做有很多讲究。1.2 三种主流分词算法