请选择 进入手机版 | 继续访问电脑版
搜索
\
查看: 1036|回复: 0

【前沿】2017技术突破盘点(十)——强化学习

[复制链接]

18

主题

45

帖子

166

积分

版主

Rank: 7Rank: 7Rank: 7

积分
166
发表于 2018-2-8 14:49:32 | 显示全部楼层 |阅读模式
本帖最后由 猴头 于 2018-2-8 14:49 编辑

强化学习

——通过实验,计算机正在解决如何做任何程序员不能教他们的事情。
作者: Will Knight     译自https://www.technologyreview.com/lists/technologies/2017/


barcelona-82.jpg
在一种简单的电脑模拟中,一群自驾车的汽车正在四车道虚拟公路上表演疯狂的动作。一半正试图从右车道移动,就像另一半试图从左边合并。看起来好像是一件很棘手的事情,可能会使机器人车被破坏,但电脑却用精确的方式来管理着他们。

我正在观看去年12月在巴塞罗那举行的年度最大人工智能会议上的驾驶模拟。最令人惊奇的是,管理汽车行为的软件根本没有按照常规编程来编程。它学会了如何通过练习来融合、自我控制和安全。在训练期间,控制软件反复执行动作,每次尝试都会稍微改变指令。大多数时候,合并发生得太慢,汽车相互干扰。但是每当合并顺利进行时,系统就会学会支持导致它的行为。

这种方法称为强化学习,主要是如何使用字母表中的字母呼吁开发的计算机,掌握了一个复杂到难以想象的棋盘游戏,并击败了世界上最优秀的人类球员之一,去年在一场高调比赛中击败了世界上最好的球员之一。现在,增强学习可能很快会注入更多的智力,而不仅仅是游戏。除了改进自驾驶汽车外,该技术还可以使机器人掌握以前从未见过的物体,并能准确地计算出数据中心设备的最佳配置。

luiz-hanfilaque-342635.jpg
强化学习从本质上复制了一个非常简单的原则。心理学家爱德华.Thorndike在100多年前就记录了这一点。Thorndike把猫放在盒子里,他们只能通过按压杠杆才能逃脱。经过大量的起搏和meowing之后,动物最终会偶然地踩到杠杆。当他们学会将这种行为与预期结果相关联之后,他们最终会以更快的速度逃跑。

一些最早的人工智能研究人员认为,这种过程可能在机器上有用地再现。1951,哈佛大学的学生马文·明斯基(马文)将成为麻省理工学院(Mit)教授人工智能之父之一,他发明了一台机器,它使用了一种简单的强化学习方式来模仿老鼠学习迷宫。明斯基的随机神经类比强化计算机,或SNARC,由数十个管子、马达和离合器组成,模拟了40神经元和突触的行为。当模拟老鼠走出一个虚拟迷宫时,一些突触连接的强度会增加,从而增强了潜在的行为。

在接下来的几十年里,几乎没有成功。1992,ibm的研究员杰拉尔德·Tesauro(杰拉尔德)展示了一种利用该技术玩五子棋的程序。它变得足够熟练,能够与最佳人类球员匹敌,这是人工智能的里程碑式成就。但是强化学习证明难以将其扩展到更为复杂的问题上。“人们认为这是一个很酷的主意,但实际上并不管用,”英国DeepMind(在)研究员戴维·西尔弗(David Silver)表示。他是今天加强学习的主要支持者。
reinforcementleesedol.jpg
然而,2016年3月这一观点发生了重大变化。这就是当一个训练项目训练的AlphaGo,摧毁了一个最好的球员,所有时间,韩国的lee SEDOL。这一壮举令人吃惊,因为用常规编程来构建一个好的游戏程序是不可能的。游戏不仅非常复杂,而且甚至完成了玩家们可能会挣扎着说为什么某些动作是好还是坏,所以游戏的原则很难写成代码。大多数人工智能研究者都期望计算机能够玩游戏和一个专家,需要十年时间。


争夺位置

作为剑桥大学本科生的人工智能,他是个温文尔雅的英国人,解释了为什么加强学习最近变得如此强大。他说关键是把它与深学习结合起来,这是一种技术,它涉及使用一个非常大的模拟神经网络来识别数据中的模式(参见10突破性技术2013:深学习“)

强化学习工作是因为研究者们发现了如何让计算机计算出应该分配给老鼠的值,比如老鼠在走出迷宫时所做的每一次正确或错误的转弯。每个值都存储在一个大表中,计算机在学习时更新所有这些值。对于大型复杂的任务来说,这就变得不切实际了。然而近年来,深入学习证明了一种非常有效的方法来识别数据中的模式,无论数据是指迷宫中的转弯、在一个棋盘上的位置、或者在电脑游戏中显示屏幕上的像素。

事实上,正是在游戏里,DeepMind才叫出名字来。2013,它发布了一个能够学习各种雅达利视频游戏的节目细节,以超人的水平播放各种雅达利视频游戏,带领谷歌在2014美元获得了超过五亿美元的收购机会。这些和其他的壮举反过来激励了其他研究人员和公司转向强化学习。一些工业机器人制造商正在测试这种方法,以此来训练他们的机器在没有手动编程的情况下执行新任务。谷歌(Google)的研究人员也是一家字母子公司,与DeepMind合作,使用深度强化学习来使其数据中心更高效。很难弄清楚数据中心中的元素如何影响能源使用,但是增强学习算法可以从整理数据和模拟实验中学习,以说明、说明、如何和何时运行冷却系统。

jens-herrndorff-399248.jpg
但是,你可能会注意到这个软件的显著性能是在自动驾驶汽车上。如今无人驾驶车辆往往在复杂的情况下步履蹒跚,涉及到与人类司机互动,例如交通圈或四路停车。如果我们不想让他们冒不必要的风险,或者通过过度犹豫堵塞道路,他们就需要获得更微妙的驾驶技能,比如在其他汽车上争夺位置。

这款高速公路合并软件由以色列汽车公司Mobileye(Mobileye)在巴塞罗那举行。这是一家制造汽车安全系统的公司,包括特斯拉汽车(Tesla Motors)在内的数十家汽车制造商使用了汽车安全系统。50家Smartest公司2016“)。在筛选合并剪辑之后,Mobileye技术副总裁Shai·Shalev(Shai Shalev)展示了自己驾驶汽车面临的一些挑战:耶路撒冷繁忙的十字路口;巴黎狂热的十字路口;以及印度一条道路上混乱的景象。“如果一辆自动驾驶汽车准确地遵循法律,那么在高峰时段,我可能会在合并情况下等待一个小时,”Shalev说。

今年晚些时候,Mobileye计划与宝马和英特尔合作测试一组车辆上的软件。谷歌和优步都表示,他们还测试了自己驾驶汽车的强化学习。


斯坦福大学(Stanford University)助理教授艾玛·Brunskill(Emma Brunskill)表示,强化学习正在越来越多的领域得到应用。但她表示,它非常适合自动驾驶,因为它能“良好的决策序列”。如果程序员必须预先将所有这些决策编码到汽车上,进度就会变得更慢。

但也有一些挑战要克服。百度(百度)首席科学家安德鲁·ng(Andrew Ng)警告称,这种做法需要大量的  数据,以及许多成功的到来,当计算机可以在模拟过程中无情地练习。事实上,研究人员仍然在思考如何在复杂情况下加强学习工作,而在复杂的情况下,有不止一个目标。Mobileye不得不调整它的协议,所以一个自动驾驶汽车能够避免事故,不会更容易导致他人。

当你看奇怪的合并演示时,看起来公司已经成功了,至少到目前为止。但是今年晚些时候,也许在你附近的高速公路上,加固学习将得到迄今为止最戏剧性和最重要的测试。








您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|新华三智能终端 ( 浙ICP备09064986号-1 浙公网安备 33010802004416号

快速回复 返回顶部 返回列表