“传统观点认为,网络越深,表达能力越强。但事实上,当网络超过一定深度后,准確率反而会下降。“
陈阳点击翻页。
“这就是所谓的退化问题。很多人认为这是过擬合导致的,但实际上,即使在训练集上,深层网络的表现也不如浅层网络。“
台下的学者们点头,这確实是困扰业界多年的难题。
“那么,问题出在哪里?“
陈阳的语气突然变得锐利:
“问题在於,我们让网络学习的东西太难了。“
他点击下一页,屏幕上出现了一个简单的示意图。
左边是传统网络:输入x经过两层网络,输出h(x)。
右边是残差网络:输入x经过两层网络得到f(x),然后加上原始输入x,输出h(x)=f(x)+x。
“这就是残差学习的核心思想。“
陈阳的声音在寂静的会场里迴荡:
“与其让网络直接学习h(x),不如让它学习残差f(x)=h(x)-x。“
“为什么这样更简单?因为在很多情况下,最优映射接近於恆等映射。也就是说,f(x)接近於0,比直接学习h(x)要容易得多。“
台下开始有窃窃私语声。
“太简单了……“
“为什么我们之前没想到?“
“等等,这真的有效吗?“
陈阳似乎听到了这些质疑,他点击下一页。
屏幕上出现了一系列实验结果。
“在cifar-10数据集上,我们测试了不同深度的网络。“
红色曲线代表传统网络,蓝色曲线代表残差网络。
在20层以下,两条曲线几乎重合。
但当层数超过20层后,红色曲线开始下降,而蓝色曲线却持续上升。
在110层时,残差网络的准確率依然在提升。
“这意味著什么?“
陈阳的目光扫过台下,“这意味著,残差学习解决了退化问题。我们可以训练真正的深度网络了。“
掌声开始零星地响起,然后越来越热烈。
“在imagenet上,我们构建了一个152层的残差网络。“
大屏幕上出现了网络结构图,层层叠叠,像一座摩天大楼。
台下响起一阵倒吸冷气的声音。
“152层?!“
“这怎么训练的?“
陈阳继续说:“很多人问我,这么深的网络,需要多强大的硬体?超级计算机?“
他点击下一页。
“我们的集群:12块nvidiagtx680显卡。“
台下一片譁然。
“gtx680?“