零点看书

字:
关灯 护眼
零点看书 > 我的学习群里全是真大佬 > 第393章 免费,专业知识有点多

第393章 免费,专业知识有点多

第393章 免费,专业知识有点多 (第2/2页)

参数越多,这过拟合的症状,理论上就越致命。
  
  几十年来,大家都是这么觉得的。
  
  “可现在的事,邪门就邪门在这儿。”
  
  姚先生在“一百万”那个数字底下画了道线。
  
  “我们今天拿来用的那些大模型,参数动辄上千亿,远比喂给它的数据还多。”
  
  “照理说它们早该过拟合到没法看了。”
  
  “可它们偏偏没有。”
  
  “它们不光没烂,反而学得一个比一个好。”
  
  他转过身在黑板上写下三个字。
  
  【为什么?】
  
  接下来,姚先生才真正进了正题。
  
  他要讲的是过参数化网络的损失景观。
  
  所谓损失景观,可以想象成一片起伏的山地。
  
  模型里每一个参数,都是一个能拧的旋钮,上千亿个旋钮拧出来的每一种组合,都对应着这片地面上的一个点,而这个点的海拔高低,就是模型在这种组合下犯的错有多大。
  
  对大模型的训练,就是从山上某处出发,顺着最陡的方向往下走,一步一步去找那片地势最低的点。
  
  这个往下走的法子,就叫做叫梯度下降。
  
  按理说旋钮一多,这片山地的地形就该复杂得吓人,陷阱遍地,随便掉到哪个坑里就再也出不来了。
  
  可数学告诉你的,这样不对!
  
  在参数足够多的时候,那片山地最低处的点,根本就不是一个单独存在的。
  
  它是连成一大片的谷底。
  
  你随便滚进哪一个里,几乎都能滚到一样低的地方去。
  
  “既然谷底连成了片,那问题就来了,”姚先生继续说道,“同样是滚到最低,梯度下降它会挑哪一个落脚?”
  
  这才是真正要命的地方。
  
  这上千亿个旋钮,能把训练数据完美拟合的组合,多到数不清。
  
  可梯度下降这么一路滚下来,它不是随便落,而是带着一种说不清道不明的偏好,专往那些最平、最简单的低点里去。
  
  这种没人明写、却实实在在起着作用的偏好,就叫隐式正则化。
  
  机器之所以没把噪声死记下来,不是因为有谁在拦着它,而是因为梯度下降这条路本身,就懒得往那些尖锐、复杂的坑里钻。
  
  至于它为什么懒,数学上是能给出一个说法的。
  
  当一张网络宽到极致的时候,它在训练里的一举一动,会退化成一种早就被研究透了的老东西——核方法。
  
  整个训练过程,近似于围着出发点做一次线性展开,网络几乎不挪窝,只在原地轻轻地晃。
  
  这套理论在圈子里有个名字,叫NTK机制(神经正切核)。
  
  而这种“原地不动、只轻轻晃”的状态,则被形象地称作懒惰训练。
『加入书签,方便阅读』
热门推荐
在木叶打造虫群科技树 情圣结局后我穿越了 修神外传仙界篇 韩娱之崛起 穿越者纵横动漫世界 不死武皇 妖龙古帝 残魄御天 宠妃难为:皇上,娘娘今晚不侍寝 杀手弃妃毒逆天