主页 > 时评数码 >机器学习发展简史:只花三年错误率比人类更低 >

  • 机器学习发展简史:只花三年错误率比人类更低


    2020-07-17


    机器学习发展简史:只花三年错误率比人类更低

    这个几年前还鲜为人知的术语,近期迅速蹿红,成为人尽皆知的大 IP。不过在火起来之前,这个技术已经发展了十几年。人尽皆知前,深度学习是如何一步一步自我演化并走进公众视野的?

    1998 年,Yann LeCun 发表 Gradient-Based Learning Applied to Document Recognition,至今,深度学习已经发展了十几年了。以大家熟知的 CNNs 为代表的技术在近几年内取得了跨越式的发展,但理解深度学习的技术细节往往需要深入的数理知识,导致我们对于深度学习的理解一直停留在较浅的程度。本文就将带你回顾深度学习近些年来的里程碑式成果,就算看不懂技术细节,也可以一睹深度学习的前世今生。

    2012 年 -AlexNet

    机器学习发展简史:只花三年错误率比人类更低AlexNet 的结构图(图片来自于论文:《基于 ImageNet 图像识别的深度卷积神经网络》)

    这篇文章被称为深度学习的开山之作。当然,也有很多人坚称 Yann LeCun 1998 年发表的 Gradient-Based Learning Applied to Document Recognition 才是开山之作,即便这样, 这篇文章使得深度学习进入主流科学界的视野也是毋庸置疑的。事实上,有人的地方就有江湖,这种争论与当年牛顿和莱布尼茨争论微积分的发明权一样都无损于我们作为学习者领略这些成果美妙的思想和灿烂的智慧,这篇文章的作者 Alex Krizhevsky, Ilya Sutskever, 和 Geoffrey E. Hinton 同 Yann Lecun 都是最杰出的学者。

    特点:

    • 在结构上,AlexNet 由 8 层神经网络组成:其中有 5 层卷积层和 3 层全连接层(相比较现在的神经网络,这真是太简单了,但即便是这样,它也足以用来分类 1000 类图片了)。

    • AlexNet 使用 ReLU 作为非线性函数,而不是此前一直广泛使用的常规 tanh 函数。

    • AlexNet 还首次提出了使用 Dropout Layers(降层)和 Data Augmentation(数据增强)来解决过度匹配的问题,对于误差率的降低至关重要。

    • 这篇文章之所名留青史与其在应用方面的优异表现分不开(时间果然是检验真理的唯一标準啊),AlexNet 赢得了 2012 年的 ILSVRC(ImageNet 大规模视觉识别挑战赛),误差率为 15.4%。甩了当时的第二名十条大街(26.2%)。

    论文:《基于 ImageNet 图像识别的深度卷积神经网络》- Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

    2013 年-ZF Net

    机器学习发展简史:只花三年错误率比人类更低ZF net 结构图(图片来自论文:《卷积网络的可视化与理解》)

    学术界的反映其实总要比我们想象地要快得多,在 2013 年的 ILSVRC(ImageNet 大规模视觉识别挑战赛)上,就出现了大量的 CNN 模型,而其中夺得桂冠的就是 ZF Net(错误率进一步降低到 11.2%),其实 ZF Net 更像是一个 AlexNet 的升级版,但它仍然有以下特点:

    • 推出了反卷积网络(又名 DeConvNet),一种可查看卷积网络(CNN)内部运作的可视化技术。

    • 激活函数用了 ReLu,误差函数用了交叉熵损失(cross-entropy loss),训练使用批量随机梯度下降方法。

    • 大大减少了训练模型使用的图片数量,AlexNet 使用了 1500 万张图片做训练,而 ZF  Net 只用了 130 万张。

    论文:《卷积网络的可视化与理解》- Matthew D. Zeiler, Rob Fergus

    2014 年-VGG Net

    机器学习发展简史:只花三年错误率比人类更低

    VGG 结构图(图片来自 Keras 的博客)

    看到这里我们已经可以发现深度学习和 ILSVRC 深深的纠葛,接下来我们要介绍的 VGG Net 正是 ILSVRC 2014“图像识别+定位”组别的获胜者,误差率为 7.3%。

    VGG Net 具有以下特点:

      VGG 结构在图像识别和定位两个方面都表现出色。使用了 19 层网络,3×3 的滤波器。(而不是 AlexNet 的 11×11 滤波器和 ZF Net 的 7×7 滤波器相比)提供了可用于分层特徵提取的简单深度结构。利用抖动(scale jittering)作为训练时数据增强的手段。VGG Net 成为里程碑的主要原因除了它在定位和图像识别两方面都表现突出外,还因为 它强调了卷积神经网络需要用到深度网络结构才能把图像数据的层次表达出来,为之后深度学习的发展提供了指导。

      论文:《用于大规模图像识别的超深度卷积网络》- Karen Simonyan, Andrew Zisserman

       

      2014/2015 年-GoogLeNet

      机器学习发展简史:只花三年错误率比人类更低

      VGG Net VGG 结构图(图片来自 Keras 的博客

      读到这里的读者应该已经能把 ILSVRC 这个大赛当作老朋友了。在 2014 年的 ILSVRC 大赛中,我们刚才介绍的 VGG Net 只是「图像识别+定位」组别的冠军,而 GoogLeNet 则凭藉 6.7%的误差率赢得了 ILSVRC 2014 图像识别的冠军。

      它具有以下特点:

      引入了「初始模块」,强调了 CNN 的层次并不总是必须顺序堆叠的。

      机器学习发展简史:只花三年错误率比人类更低

      初始模块(图片来自论文《深入探索卷积》)22 层深的网络(如果独立计算则总网络超过 100 层)。没有使用全连接层,而是以使用平均池化代替,将 7x7x1024 的输入量转换为 1x1x1024 的输入量。这节省了大量的参数。证明了优化的非顺序结构可能比顺序结构性能更好。GoogLeNet 的创新主要在于这是第一个真正不通过简单顺序叠加卷积层和池化层来构建的 CNN 架构之一,为后来 CNN 在架构上的创新打下了基础。

      论文:《深入探索卷积》- Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Google 公司,北卡罗来纳大学教堂山分校,密歇根大学安娜堡分校,Magic Leap 公司

      2015 年—微软 ResNet

      机器学习发展简史:只花三年错误率比人类更低

      ResNet 结构图(图片来自于论文:《图像识别的深度残差学习》)

      ResNet 是 2015 年 ILSVRC 的获胜者(又是 ILSVRC!),它的误差率达到了惊人的 3.6%,首次在图像识别的準确率上超越了人类(5%-10%),它拥有以下特点:

      真的很深,ResNet 具有 152 层的「极端深度」(原文作者用 Ultra-deep 这个词来描述它)的结构。提出了使用残差模块以减轻过度匹配。

      机器学习发展简史:只花三年错误率比人类更低残差模块(图片来自于论文:《图像识别的深度残差学习》)

      论文:《图像识别的深度残差学习》- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 微软亚洲研究院

      意义:超越人类还不算意义吗?

      深度学习只有 CNNs(卷积神经网络)吗?

      当!然!不!是!现在我们终于能摆脱被 ILSVRC 支配的恐惧,谈点其他的了,事实上,深度学习的模型还包括:

      Deep Boltzmann Machine(深度玻尔兹曼机)Deep Belief Networks(深度信念网络)Stacked Autoencoders(栈式自编码算法)

      如果你读到了这里,仍然想了解一些深度学习的技术细节,请点击这里阅读这篇文章 ,里面对本文中提到的论文进行了较为深入的解读,并且对非 CNNs 的深度学习模型进行了介绍。

      __________________________________________________

      ► 你是否常在各类丰富的科技趋势里流连忘返?
      ► 你是否常被创业故事弄得热血沸腾无法成眠?
      ► 你是否喜欢很有挑战性、尝试新事物的工作?
      我想你大概就是得了  TO  病,不加入不行了。
      準备好你的履历自传,寄至  [email protected]
      记得标注你要「应徵  TO  社群编辑」,才不会跑错棚哦!
      >> 
      详细职缺讯息

      ____________________________________________________

      延伸阅读

      微软打造超强 AI 运算硬体平台,携手 Intel 攻佔云端即时运算市场
      从太空科技到人工智慧,量子电脑的应用会全面颠覆现有科技!
      谁说人工智慧不会作曲?全球首张 AI 作曲专辑即将发行,现在就放给你听!
      台大资工系教授的 AI 全面战略分析:新创要发展 AI ,就要先知道人工智慧的蓝海在哪里
      人工智慧将在这 4 个缺工严重国家起飞,台湾也上榜



      上一篇:
      下一篇: