第393章免费，专业知识有点多

第393章免费，专业知识有点多 (第2/2页)

参数越多，这过拟合的症状，理论上就越致命。
　　
　　几十年来，大家都是这么觉得的。
　　
　　“可现在的事，邪门就邪门在这儿。”
　　
　　姚先生在“一百万”那个数字底下画了道线。
　　
　　“我们今天拿来用的那些大模型，参数动辄上千亿，远比喂给它的数据还多。”
　　
　　“照理说它们早该过拟合到没法看了。”
　　
　　“可它们偏偏没有。”
　　
　　“它们不光没烂，反而学得一个比一个好。”
　　
　　他转过身在黑板上写下三个字。
　　
　　【为什么？】
　　
　　接下来，姚先生才真正进了正题。
　　
　　他要讲的是过参数化网络的损失景观。
　　
　　所谓损失景观，可以想象成一片起伏的山地。
　　
　　模型里每一个参数，都是一个能拧的旋钮，上千亿个旋钮拧出来的每一种组合，都对应着这片地面上的一个点，而这个点的海拔高低，就是模型在这种组合下犯的错有多大。
　　
　　对大模型的训练，就是从山上某处出发，顺着最陡的方向往下走，一步一步去找那片地势最低的点。
　　
　　这个往下走的法子，就叫做叫梯度下降。
　　
　　按理说旋钮一多，这片山地的地形就该复杂得吓人，陷阱遍地，随便掉到哪个坑里就再也出不来了。
　　
　　可数学告诉你的，这样不对！
　　
　　在参数足够多的时候，那片山地最低处的点，根本就不是一个单独存在的。
　　
　　它是连成一大片的谷底。
　　
　　你随便滚进哪一个里，几乎都能滚到一样低的地方去。
　　
　　“既然谷底连成了片，那问题就来了，”姚先生继续说道，“同样是滚到最低，梯度下降它会挑哪一个落脚？”
　　
　　这才是真正要命的地方。
　　
　　这上千亿个旋钮，能把训练数据完美拟合的组合，多到数不清。
　　
　　可梯度下降这么一路滚下来，它不是随便落，而是带着一种说不清道不明的偏好，专往那些最平、最简单的低点里去。
　　
　　这种没人明写、却实实在在起着作用的偏好，就叫隐式正则化。
　　
　　机器之所以没把噪声死记下来，不是因为有谁在拦着它，而是因为梯度下降这条路本身，就懒得往那些尖锐、复杂的坑里钻。
　　
　　至于它为什么懒，数学上是能给出一个说法的。
　　
　　当一张网络宽到极致的时候，它在训练里的一举一动，会退化成一种早就被研究透了的老东西——核方法。
　　
　　整个训练过程，近似于围着出发点做一次线性展开，网络几乎不挪窝，只在原地轻轻地晃。
　　
　　这套理论在圈子里有个名字，叫NTK机制（神经正切核）。
　　
　　而这种“原地不动、只轻轻晃”的状态，则被形象地称作懒惰训练。

零点看书

第393章 免费，专业知识有点多

第393章免费，专业知识有点多