第二章:从人类语言到Token —— 输入层的第一道关卡 📅 2026/7/2 7:17:41 2.1 你的文字AI看不懂你在对话框里敲下“11等于几”。对你来说这是六个清清楚楚的字符。但AI的“眼睛”是瞎的——它不认识字它只认识数字。所以第一步必须把你的文字翻译成数字。这一步是整个信息流的第一道关卡。用我的信息守恒认知论来拆解输入(t)你写的自然语言字符串“11等于几”内因(t)AI内部的一个组件——分词器Tokenizer输出(t)一串整数每个整数是一个Token IDToken的编号没有输入就没有输出。但如果分词器这个“内因”坏了输入再好也没用。这就是逻辑与内因(t)错输出(t)必错。2.2 什么是Token—— AI世界的“原子积木”Token中文可以译作“词元”但我更喜欢叫它**“信息原子积木”**。想象一下乐高积木最小那个颗粒你不能再切了再切就碎了。AI理解和生成语言就是一块一块地拼接这些积木。一个Token可以是一个完整的单词如“apple”可以是一个汉字如“我”可以是一个词根如“un”甚至可以是一个数字字符比如“1”、“2”……“9”也可以是一个标点符号如“。”、“”不同AI使用的“积木”大小不同。有的切得细每个字一块有的切得粗常见词一块。这取决于分词器的设计。2.3 为什么AI把最小单元叫做Token—— 一段历史你可能和我一样困惑过HTTP协议里有Token令牌编程语言里有Token词法记号AI里也有Token它们是一回事吗不是一回事。但AI里的Token确实是从编程语言里的“词法记号”借来的。早在1950年代计算机科学家在写编译器把高级语言翻译成机器码的程序时需要先把源代码拆成最小的语法单元比如关键字if、标识符count、运算符。他们把这些小单元叫做Token。后来自然语言处理领域的人借鉴了这个词把人类语言也切分成类似的最小单元。再后来大模型继承了这一叫法。而HTTP协议里的“令牌”则是另一个分支它来自“令牌环网”和身份认证指一串代表权限的字符串。所以同一个英文单词Token在三个领域各走各的路领域中文译名含义形象比喻AI大模型词元 / 信息原子积木文本的最小处理单元乐高最小颗粒编程语言编译原理词法记号源代码的最小语法单元语言的基本单词计算机网络令牌代表身份/权限的凭证入场券知道了这个来源你就不会再把AI的Token当成“通行证”了。概念准确输入才不会错——这又是信息守恒认知论的一次验证。2.4 分词器怎么切—— 一个具体例子对于“11等于几”一个典型的分词器会这样切你看到的切成的Token说明1“1”数字字符是一个独立的Token“”运算符是一个Token1“1”另一个“1”与前面是同一个Token共用同一块积木等于“等于”双字词可能作为一个整体Token几“几”疑问词是一个Token一共5个Token。每个Token在AI的“词表”里都有一个固定的编号叫做Token ID。比如在DeepSeek的词表中“1” → 3879“” → 89“等于” → 5678“几” → 9012于是“11等于几”经过分词器后变成了一串整数[3879, 89, 3879, 5678, 9012]这就是AI“看到”的输入。不是文字是一串整数编号。2.5 不同AI的Token ID不一样 —— 不是ASCII你可能问为什么DeepSeek里“1”是3879Kimi里可能是2879难道没有统一标准没有。每个AI在训练之前都会自己“建”一个词表。建词表的算法有很多种BPE、WordPiece等但结果就是每个模型有自己的编号体系。这跟ASCII编码完全不同。ASCII是国际标准大写A永远是65数字1永远是49。全世界所有计算机都遵守。但AI的Token ID就像学校内部的学号你在A学校学号是2024001在B学校可能是另一串数字。只要学校内部不乱就行。信息守恒认知论视角如果我把不同模型的Token ID混着用那就是输入错误。输入错误输出必错。2.6 本章核心链条因果链人类文字 → [分词器] → Token ID序列信息守恒认知论拆解环节内容通俗类比输入(t)用户写下的自然语言“11等于几”你告诉AI一句话内因(t)AI的分词器 词表一个把句子切成碎片的机器 碎片字典输出(t)Token ID序列[3879, 89, 3879, 5678, 9012]一堆有编号的积木块核心认知收获Token是AI处理信息的“原子积木”可以小到单个数字字符。Token这个词来源于编译原理把代码切成最小单元不是网络里的“令牌”。不同AI有自己的词表和编号体系没有统一标准。输入正确概率的第一步取决于分词器能否把文字正确地切成Token。本章术语表术语英文中文译名形象描述Token词元 / 信息原子积木像乐高的最小颗粒不能再切了。它可以是一个汉字、一个数字、甚至一个标点Tokenizer分词器一把“文字切碎机”把句子切成一个个TokenToken ID词元编号每个Token在词表里的身份证号就是一个整数Vocabulary词表一本“积木字典”记录了所有Token和它们的编号ASCII美国信息交换标准代码计算机世界给字母、数字、符号定的“全球统一身份证号”BPE / WordPiece字节对编码 / 词块两种“造词表”的算法可以理解为“怎么决定把哪些字合并成一块积木”编译原理编译原理计算机科学的一个分支研究如何把高级语言翻译成机器码。AI的“Token”这个词就是从那里借来的一句话收尾本章分词器把人类文字切成一堆积木Token每块积木编上号Token ID然后交给后面的神经网络去处理。这一关过了AI才“看见”了你的输入。如果这一步切错了——比如生僻字被切成[UNK]未知、歧义句子切出了错误的分词——那么后续所有环节的输入都是错的。输入错内因再强输出也必错。这是信息守恒认知论贯穿全程的第一次验证。