互联网理论模型与现实之间的错配 📅 2026/7/2 11:43:56 互联网的统计学建模来自 Leonard Kleinrock他用排队论首先证明了统计复用的可行奠定了互联网的统计学理论基础在他之前虽然人们设想了很多不同拓扑的组网方式但大家始终无法摆脱可用性的魔鬼人们怀疑如此不受任何约束的混乱的所谓分组交换网真的行得通真的不会毫无征兆地崩溃然而排队论里没有重尾分布但恰恰互联网的流量就是重尾的这意味着互联网的早期模型基础与现状存在不小的偏差。以一个存在偏差的模型进化而成的现代互联网存在的诸多问题的根因也要从这个早期模型中去找寻。Kleinrock 的包交换模型来自电话网的假设这就是理论源头。排队论起源电话交换网语音呼叫到达是泊松过程通话时长指数分布每一通呼叫资源占用时间短独立用户行为无强耦合无记忆性的马尔可夫过程直接导出时延Kleinrock 在 1961 论文中首次对分组交换建模直接把电话网 M/M/1 模型用于数据包网络假设数据包到达间隔服从指数分布即泊松到达数据包长度(即服务时间)均匀指数分布早期 ARPANET 定长分组接近均匀有界负载多为是大学分时计算机远程登录用户人工打字小包离散人与人行为近似独立几乎没有大批量文件传输因此在 1970s~1986 早期业界共识说法是大量独立用户数据流叠加后中心极限定理使总流量趋近泊松当时观测流量确实接近早期分组交换采用固定长度分组因此 “包大小均匀分布” 是物理约束不只是抽象假设教科书标准模型采用 M/M/1 作为分组交换默认性能模型排队时延有统计上界电话网的遗留早期单一的业务模式一起让泊松模型成立了快十几年当 TCP/IP 最终作为标准协议铺开后事情马上就起了变化1986 年互联网首次拥塞。当 TCP 的流抽象成为默认取代包抽象后包的均匀分布就被打破了这个方向一旦出现偏移裂口便迅速扩大。WWW 诞生后承载在一条 TCP(虽然 HTTP 标准一开始就没有规定必须用 TCP 承载) 流上的文件下载成为主流而文件的大小是重尾幂律分布的这意味着将重尾流量放在一个泊松模型中显然的错配。基于此便可以解释SPF 并没有错错在 SPF 承载的是重尾流而不是均匀包同样原因共享式 CSMA 网络上承载重尾流时延抖动也会让效率迅速降低这也是 WiFi 的一大痛点。事情大概就是这么个来龙去脉就是这么简单后果也显而易见那就是当前互联网上的问题重尾时延抖动发散业务难以评估时延各阶矩的上界缓冲区丢包概率必须高于 M/M/1 等理想结果降低资源利用率带宽分配不均泊松包假设自带公平性但大象流却放大了差距引入复杂的 QoS 等策略难以随网络扩容而扩展至于如何解flowletsprayingECMP 或许都有益但不是本文的内容我写这个主要是针对《吾辈如神》里一段话的思考并将其映射到了互联网。以下是原文典型的现代分组交换互联网是基于线性或均匀分布的包交换(网页浏览远程登录等)设计的它已经不适应当代高清视频云存储数据中心同步AI 训练推理等指数级甚至幂律分布的流模型大象流将成为不稳定的核心因素与社会一致线性假设已经不适合指数现实。网络拥塞时延各阶矩发散Hurst 参数偏大问题的本质原因我从 1960 年代的分组交换网论文里找到了事实上 SPF 问题也只是结果而非原因本质原因就是分组交换网建模基础就不适合现代流量建模基础是泊松到达排队论而 1980 年代后期以来的 HTTP 流量开始就是厚尾的TCP 流抽象火上浇油之所以泊松分布建模完全继承自电话网而电话基本上就是独立无记忆的从实践上拟合也符合泊松分布但克莱因等人未料到互联网的幂律分布。实际上互联网模型和流量是错配的。这是一个建模的教训因为只要是相关的随机变量几乎都会是幂律分布价格价值收入成绩投资灾难千万不要用均值回归的思想对待它们要看百分位而不是均值要为黑天鹅事件做好准备。以下是原图浙江温州皮鞋湿下雨进水不会胖。