主页 > 国防聚焦 >机器如何深度学习(2-2) >

  • 机器如何深度学习(2-2)


    2020-07-17


    機器如何深度學習(2/2)

    人工智慧经历数十年的低潮,由于深度学习这项潜力无穷的技术,总算起死回生,在不少任务上的表现已经相当杰出。

    (续前文)

    为机器开堂课

    目前这一代人工神经网路延续了联结论的开创性研究。人工神经网路会持续改变每个突触连结的数值,这些数值代表了连结强度,以及人工神经元彼此传递讯号的可能性。深度学习网路使用的演算法在每次接收到新影像时,都会轻微改变这些数值,稳定地接近理想值,让人工神经网路更精确预测出影像的内容。

    为了得到最好的结果,目前的学习演算法需要人类高度介入。这些演算法大多使用「监督式学习」(supervised learning),每个训练用的範例都附有人类标示的文字,代表学习的内容,例如夕阳的影像配有「夕阳」的标籤。在这种情况下,监督式学习演算法的目标是把影像当做输入,影像中主要物体的名称做为输出。把输入转换为输出的这个数学程序称为函数,产生这个函数的各项係数(例如突触连结的数值),相当于学习任务的解。

    依赖死记硬背来得到正确答案,是一种简单的学习方法,但是不太有意义。我们想教会学习演算法什幺是夕阳,然后由它辨识任何影像中的夕阳,甚至包括不在训练範例中的夕阳影像。学习超越训练範例的能力(例如分辨各种影像中的夕阳)是任何学习演算法的主要目标,事实上,我们评估人工神经网路的训练品质,都不使用先前的範例进行测试。要求学习演算法对新例子做出好决定是有难度的,因为符合诸如「夕阳」这种分类的各项係数几乎可能有无限多组。

    在深度学习网路运用的学习演算法接收众多範例后,期望它们做出好决定,不能只依赖範例,也需要关于资料的假说,以及可能解答特定问题的假设。例如,内建于软体的典型假说是,如果特定函数的输入资料很类似,输出结果就不应该有激烈变化,像是改变影像中猫的几个像素,输出结果通常不可能是狗。

    一种整合了影像假说的人工神经网路,称为卷积神经网路(convolutional neural network),已经成为AI复兴的关键技术。深度学习的卷积神经网路由很多层人工神经元构成,配置的方式可使输出结果不会对影像中主要物体的变动太敏感,例如,主要物体稍微移动位置,仍然可以成功辨识;训练良好的卷积神经网路就能辨识出不同照片中不同角度的同一张脸孔。卷积神经网路的设计灵感来自视觉皮质(visual cortex)的多层结构,视觉皮质是人类大脑中负责接收视觉讯号的部位。卷积神经网路的多层人工神经元,使卷积神经网路变得「有深度」,更能学习真实世界的林林总总。

    人工智慧,突破困境

    实际上,推动深度学习的功臣是10年前的某些创新研究,当时人们对AI和人工神经网路的热情降到几十年来的最低点。由政府和私人资助的加拿大高等研究所(CIFAR),因为批准多伦多大学的辛顿(Geoffrey Hinton)主持的计画经费,重新点燃了AI的希望之火,这项计画还有我和美国纽约大学的拉昆(Yann LeCun)、史丹佛大学的吴恩达(Andrew Ng)以及加州大学柏克莱分校的奥斯豪森(Bruno Olshausen)等人参与。科学社群在那段时间里对于这个领域抱持消极态度,导致我们很难发表论文,更甭提说服研究生从事这方面的研究,但我们强烈感受到,推动这些研究是很重要的。

    怀疑人士认为人工神经网路不能克服诸多挑战,原因之一是训练人工神经网路的研究毫无进展,这些研究涉及如何让人工神经网路的表现最佳化(optimzation)。最佳化属于数学的一门分支,试图找到一组参数的组态以达成目标。在人工神经网路中,这些参数称为突触权重(synaptic weight),代表讯号从一个人工神经元传递到另一个人工神经元的强度。

    这个目标就是做出最精确的预测。当参数和目标的关係非常简单时(精确来说,这个目标是这些参数的凸函数),我们就可以逐步调整这些参数,直到逼近可能产生最佳决定的数值,也就是所谓的全局极小值(global minimum),相当于人工神经网路可能发生预测错误的最低平均值。

    一般来说,人工神经网路的训练过程没有这幺简单,而且研究人员需要处理所谓的非凸函数最佳化(nonconvex optimization)。这种最佳化问题带来的挑战更大,不少研究人员相信这种障碍是难以突破的。学习演算法可能会困在所谓的局部极小值(local minimum),因此研究人员无法透过稍微调整参数来减少人工神经网路的预测错误。

    直到去年,关于人工神经网路困在局部极小值而难以训练的这种迷思才得以破除。我们在研究过程中发现,当人工神经网路够大,可以大幅降低局部极小值问题。大部份的局部最小值,其实相当于某种程度的知识学习,而这个程度几乎符合全局极小值的最佳值。

    理论上,虽然我们可以解决最佳化的问题,但打造超过两或三层大型人工神经网路的尝试经常失败。终于在2005年,CIFAR资助的计画有了突破,克服这些障碍。2006年,我们利用逐层进行的技巧,成功训练了更深层的人工神经网路。

    2011年,我们找到更好的方法,改变每个处理单元执行运算的方式,让它们更贴近生物神经元,可以训练更深层的人工神经网路。而且我们也发现,在训练过程中于人工神经元之间传递的讯号混入随机杂讯(类似大脑内的情况),有助于深层人工神经网路学习如何正确辨认影像或声音。

    有两个关键因素是深度学习技术成功的推手。一个因素是,其他领域的研究人员为了电玩游戏设计出新的图形处理器,其运算速度提升了10倍,我们才得以藉此训练出更大型的人工神经网路。另一个因素是庞大有标资料集(labeled data set)的出现。举例来说,在某张影像中,猫只是其中一个元素,当学习演算法接收到这张影像时,可以藉由有标资料集辨识出正确答案:猫。

    最近深度学习获致成功的另一个原因,是它学会如何执行一连串运算,逐步建构或分析影像、声音或其他资料。人工神经网路的深度就是这些步骤的数量。AI在很多视觉或听觉辨识任务中表现优异,原因就是研究人员建立了非常多层的人工神经网路。事实上,我们在最近的理论研究和实验中已经证明,必须有深层人工神经网路才能有效执行这些数学运算。

    深层人工神经网路里的每一层都会转换输入,产生输出并送往下一层。更深层的人工神经网路,距离最初的原始输入较远,代表更抽象的概念(见下图)。实验证明,人工神经网路更深层的人工神经元,倾向对应更抽象的语意概念。例如,某张影像中有办公桌,即使训练过的人工神经网路的分类标籤没有「办公桌」这个概念,更深一层的人工神经元在处理过程中也能辨识影像中的办公桌。办公桌这个概念可能只是其中的步骤,目标是在更深一层创造一个更抽象的概念,而人工神经网路可能会把这一层分类为「办公室场景」。

    机器如何深度学习(2/2)(依原图重绘)

    超越图形辨识

    直到最近,人工神经网路的杰出之处,大多还是执行辨识静态影像内容这类任务,但另一种人工神经网路也开始崭露头角,精确来说,它能处理依序发生的事件。我们已经证明,递迴神经网路(recurrent neural network)能正确执行一连串运算,通常针对语音、影片和其他顺序资料(sequential data)。顺序资料是由实际排列顺序的资料构成,无论音素或完整单字。递迴神经网路处理输入资料的方式就类似大脑的运作:大脑从周遭环境接受新讯号,改变内部神经状态,之后才发出一连串指令使身体做出动作而达成特定目标。

    递迴神经网路能够依照句型预测下个字是什幺,这可以用来产生新的字词顺序。它也能接受更複杂的任务,在「阅读」一个句子后推测整句的意思,然后另一个递迴神经网路可以利用第一个语意处理(semantic processing),把句子翻译成另一种语言。

    递迴神经网路的研究在1990年代后期与2000年代初期陷入停顿。我的理论研究显示,它难以从遥远的过去撷取资讯,也就是整个处理过程中最初的元素。想像一下,当你读到一本书的最后一页时,试着背出第一页的第一个句子。许多进展已减轻这些问题,方法是让这些人工神经网路学习储存资讯,如此一来就能长时间保留资讯。人工神经网路可以利用电脑的暂时记忆体来处理多个分散的资讯,例如散布在文件里的不同句子。

    在漫长的AI寒冬后,深层人工神经网路的强势回归,不只是科技的胜利,也为科学社群上了宝贵的一课。尤其,我们必须支持挑战科技现状的想法,鼓励多元研究组合、激发创意,才能持续获致重大突破。(完)



    上一篇:
    下一篇: