首页 >> 写真机

Geoffrey Hinton:深度学习进入瓶颈期导电胶

发布时间:2022-09-06 17:07:51 来源:蛋托机械网
Geoffrey Hinton:深度学习进入瓶颈期 导读:归根结底,今天的人工智能就是深度学习,而深度学习就是反向传播。我们很难相信反向传播已经出现了30多年。为什么它会在沉寂多年后突然爆发?
【中国智能制造网 名家论谈】实际上,你听说过的几乎每一个关于人工智能的进步,都是由30年前的一篇阐述多层神经网络的训练方法的论文演变而来,它为人工智能在近十年的发展奠定了基础,但要保持这种进步,就要面对人工智能严重的局限性。
如今,我正站在多伦多市中心一栋大厦七层的一个大房间里,这里即将成为世界中心。这里就是新成立的人工智能研究所Vector Institute的所在地。研究所的联合创始人乔丹·雅各布(Jordan Jacobs)带着我来到这里。该研究所于今年秋天正式成立,致力于成为人工智能中心。
我们为了拜访杰弗里·辛顿(Geoffrey Hinton)来到多伦多。他是深度学习之父,正是这个技术让人工智能发展到今天这般炙手可热。雅各布说:我们30年后再往回看,杰弗里就是人工智能(我们认为深度学习就是人工智能)的爱因斯坦。
在人工铁铸件智能领域的研究人员当中,辛顿的引用率高,超过了排在他后面三位研究人员的总和。他的学生和博士后领导着苹果、Facebook和OpenAI的人工智能实验室;辛顿本人是谷歌大脑(Google Brain)人工智能团队的科学家。
事实上,人工智能在近十年里取得的几乎每一个成就,包括语音识别、图像识别,以及博弈,在某种程度上都能追溯到辛顿的工作。
Vector Institute研究中心进一步升华了辛顿的研究。在这里,谷歌、Uber、Nvidia等美国和加拿大的公司正努力将人工智能的技术商业化。资金到位的速度比雅各布想象的更快;他的两个联合创始人调研了多伦多的公司,发现他们对人工智能专家的需求是加拿大每年培养的人数的10倍。
某种意义上,Vector研究所是深度学习运动的原爆点:(无数公司)靠这项技术牟利,训练它、改进它、应用它。到处都在建造数据中心,创业公司挤满了摩天大楼,整整新一代学生也纷纷投身这一领域。
当你站在空旷得能听得到回声、但又即将被占满的Vector研究所时,会感觉自己置身于一个未知世界的起点。但是,深度学习核心的理念早已出现。1986年,辛顿联合同事大卫·鲁姆哈特(David Rumelhart)和罗纳德·威廉姆斯(Ronald Williams),发表了一篇突破性的论文,详细介绍了一种叫作反向传播(backpropagation,简称backprop)的技术。普林斯顿计算心理学家乔恩·科恩(Jon Cohen)将反向传播定义为所有深度学习技术的基础。
归根结底,今天的人工智能就是深度学习,而深度学习就是反向传播。我们很难相信反向传播已经出现了30多年。为什么它会在沉寂多年后突然爆发?其实,当你理解了反向传播的发展历史,也就会开始明白人工智能的现状,并且意识到,我们也许并非处于一场变革的起点,而是终点。
深度学习,一份迟到26年的礼物
嫩化机
辛顿现在是多伦多大学的荣誉教授,大部分时间在谷歌工作。从Vector Institute走到辛顿办公室的路程就是这座城市的一种活广告。特别是在夏天的时候,你会明白为什么来自英国的辛顿在1980年代离开匹兹堡的卡耐基梅隆大学并移居此地。
当你来到室外的时候,会感觉自己仿佛真的进入了大自然,甚至在金融区附近的市中心也是如此。我认为这是因为城市里的空气很湿润。多伦多坐落在森林峡谷上,被誉为花园城市。在多伦多完成城市化后,,当地政府为树冠密度设立了严格的规定。从飞机上俯瞰多伦多,整座城市被笼罩在一片苍翠之中。
多伦多是北美第四大城市(仅次于墨西哥、纽约和洛杉矶),也是其中多元化的城市:一半以上的居民出生于加拿大以外的地方。你在城市里走一圈就能发现,这里的科技圈更化,不像旧金山都是穿着连帽衫的白人青年。这里有免费医疗和的公立学校,居民都很友好,政治秩序偏左而稳定——这些因素吸引了像辛顿这样的人。辛顿表示,他是因为伊朗门事件而离开美国的,我在午餐前见到他时就谈到此事。
卡耐基梅隆大学的很多人认为,美国有充分的理由侵略尼加拉瓜,他说,他们或多或少认为尼加拉瓜属于美国。辛顿告诉我,他近在一个项目上取得了重大突破:我找到了一位非常的初级工程师一起合作。他指的是莎拉·萨伯尔(Sara Sabour)女士。萨伯尔是伊朗人,在美国申请工作签证时遭到拒签。后来,谷歌的多伦多办公室帮她解决了签证问题。
69岁的辛顿长着一副像圆梦巨人(译注:圆梦巨人是英国儿童文学作家罗尔德·达尔的同名小说的主人公,性格善良)那样友善、瘦削的英式面孔、薄嘴唇、大耳朵、高鼻梁。他出生于英格兰的温布尔顿。他说话时就像在念一本少儿科普读物一样:好奇、投入、解说时充满激情。他很有趣,也很健谈。我们谈话时,他全程站立,因为坐着太痛苦了。
辛顿告诉我:我在2005年6月坐下了,我错了。这句话让我感到费解,于是他解释道,他的背部椎间盘有问题。这意味着,他不能坐飞机。当天早些时候,他不得不把一个类似冲浪板的奇怪装置带到牙医办公室。医生在为他检查一个隐裂牙根时,他就躺在那块板子上。
在1980年代,辛顿就已经是一位神经网络专家了。神经网络是人脑神经元和突触网络的一个简化模型。然而,当时科学界认为,把人工智能领域导向神经网络方向是自寻死路。
早的神经网络Perceptron诞生于1960年代,被誉为迈向类人机器智能的步。1969年,麻省理工学院的马文·明斯基(Marvin Minsky)和西摩·帕尔特(Seymour Papert)发表了著作《Perceptrons》,用数学的方法证明这种网络只能实现基本的功能。这种网络只有两层神经元,一个输入层和一个输出层。如果在输入层和输出层之间加上更多的网络,理论上可以解决大量不同的问题,但是没人知道如何训练它们,所以这些神经网络在应用领域毫无作用。除了少数像辛顿这样不服输的人,大多数人看过这本书后都完全放弃了神经网络的研究。
辛顿在1986年取得了突破,他发现反向传播可以用来训练深度神经网络,即多于两层或三层的神经网络。但自那以后又过了26年,不断增强的计算能力才使这一理论得以证实。辛顿和他在多伦多的学生于养猪机械2012年发表的一篇论文表明,用反向传播训练的深度神经网络在图像识别领域打败了当时先进的系统——深度学习终于面世。
在外界看来,人工智能似乎一夜之间突然爆发了,但对辛顿而言,这只是一个迟到的礼物。
矢量无所不能,反向传播已被榨干潜力?
神经网络通常被比喻成一块有很多层的三明治。每层都有人工神经元,也就是微小的计算单元。这些神经元在兴奋时会把信号传递给相连的另一个神经元(和真正的神经元传导兴奋的方式一样)。每个神经元的兴奋程度用一个数字代表,例如0.13或32.39。两个神经元的连接处也有一个重要的数字,代表多少兴奋从一个神经元传导至另一个神经元。这个数字是用来模拟人脑神经元之间的连接强度。数值越大,连接越强,从一个神经元传导至另一个神经元的兴奋度就越高。
实际上,图像识别是深度神经网络成功的应用之一。正如HBO的电视剧《硅谷》中就有这样一个场景:创业团队开发了一款程序,能够辨认图片中有没有热狗。现实生活中确实有类似的程序,但这在10年前是无法想象的。要让它们发挥作用,首先需要一张图片。举一个简单的例子,让神经网络读取一张宽100像素、高100像素的黑白照片,输入层每一个模拟神经元的兴奋值就是每一个像素的明亮度。那么,在这块三明治的底层,一万个神经元(100x100)代表图片中每个像素的明亮度。
然后,将这一层神经元与另一层神经元相连,假如一层上有几千个神经元,它们与另一层上的几千个神经元相连,然后一层一层以此类推。后,这块三明治的顶层,即输出层,只有两个神经元,一个代表热狗,另一个代表不是热狗。这个过程是为了训练神经网络在图片中有热狗时将兴奋仅传导至个神经元,而在图片中没有热狗时将兴奋仅传导至第二个神经元。这种训练方法就是辛顿开发的反向传播技术。
反向传播的原理极其简单,但它需要大量的数据才能达到佳效果。正因如此,大数据对人工智能至关重要。也正式出于这个原因,Facebook和谷歌对大数据求之若渴,Vector Institute决定在加拿大大的四家医院附近设立总部,并与他们开展数据合作。
在上面的例子里,所需的数据是几百万张图片,部分图片中有热狗,其他图片中没有。重要的是,图片要被标记出是否带有热狗。当你刚刚创建自己的神经网络时,神经元之间连接的强度是随机的。换句话说,每个连接传导的兴奋值也是随机的,就像人脑中的突触还没有完全成形。反向传播的目标是通过改变这些数值让神经网络发挥作用:当你将一张热狗图片传导至底层时,顶层的热狗就能产生兴奋。
假设你用来训练神经网络的张图片是钢琴照片。你将这张100x100的图片的像素强度转换为一万个数字,每个数字代表神经网络底层的单个神经元。兴奋根据相邻层神经元之间的连接强度在网络中传播,终到达后一层,上面仅有两个神经元,分别代表图片中是否有热狗。
由于那张图片上是一架钢琴,理想条件下,热狗神经元上的数字应该是0,而不是热狗神经元上应该是一个大于0的数字。但如果事实并非如此呢?如果神经网络的判断是错的呢?反向传播是对神经网络中每一个连接强度的重置过程,从而修正网络在特定训练数据中的错误。
反向传播是如何修正神经网络的错误的?步是分析后两个神经元的错误程度:预设兴奋值和应有显示仪表兴奋值之间相差多少?第二步是分析导向倒数第二层神经元中每个连接对该误差的作用。重复这些步骤,直至网络底层的神经元连接。此时,你会知道每个连接对误差的作用大小。后,通过改变每一个数字,将整体误差降至低。这一方法被称为反向传播,因为误差是从网络的输出层逆向(或向下)传播的。
神奇的是,用数百万或数十亿张图片来进行训练时,神经网络会逐渐提升其识别热狗的准确度。更厉害的是,这些图像识别网络的每一层都逐渐学会用类似人类视觉系统的方式看图片。例如,层会探测边,这层中的神经元看到边的时候会产生兴奋作用,而在其他地方不会;它上面的第二层神经元能探测到边的组合,比如角;第三层能识别形状;第四层能找到分辨类似于切开的面包(可以用于热狗)或没切开的面包(一般不用于热狗)这样的东西,因为上面的神经元可以对任意一种情况发生反应。换言之,神经网络在未经编程的情况下能自行演变为上下多层结构。
人们对神经网络惊奇不已,不仅仅是因为它们善于对热狗或其他事物的图片进行归类,而是因为它们似乎能建立思维模型。这一点在理解文字的时候能看得更清楚。例如,让一个简单的神经网络读取维基百科上数十亿字的文章,并训练它针对每一个词输出一长串的数字,每一个数字代表某层中每个神经元的兴奋度。如果将每个数字看作一个复杂空间中的坐标,神经网络就为每个单词找到了空间坐标中的一个点(在这里也就是一个向量)。
接下来,让神经网络对维基百科页面上位置相邻的词给出相似的坐标,不可思议的事情出现了:在这个复杂的空间中,含义相近的词的位置开始集中。也就是说,疯狂和神经错乱的坐标相近,三和七的坐标相近,诸如此类。而且,所谓的矢量算法能用巴黎的矢量减去法国的矢量,加上意大利的矢量,后得出的坐标靠近罗马。这些操作的前提是,没有任何人明确告知神经网络,罗马之于意大利等同巴黎之于法国。
辛顿说,真是太神奇,太让人震惊了。神经网络似乎能抓取图像、文字、某人说话的录音、医疗数据等事物,将它们放到数学家所说的高维矢量空间里,使这些事物之间的距离远近反映真实世界的一些重要特点。辛顿相信,这就是大脑的运作方式。

武汉眼科医院特色诊疗
小孩子为什么会得鼻炎呢
肾囊肿到底是怎么形成的呢
慢性鼻窦炎的症状表现是什么
友情链接