强化学习:10种真实的奖励与惩罚应用
作者 | Patrycja
翻译 | Katie,责编 | 晋兆雨
出品 | AI科技大本营
头图 | 付费下载于视觉中国
在强化学习(Reinforcement Learning)中,对代理进行奖励和惩罚机制的培训。代理的正确行为会得到奖励,而错误的行为会受到惩罚。在这样做时,代理试图将错误降到最低并将正确率提高。
在本文中,我们将研究强化学习的一些实际应用。
在自动驾驶汽车中的应用
各种论文都提出了“深度强化学习用于自动驾驶”。在自动驾驶汽车中,要考虑很多方面,例如在各个地方的速度限制,可驾驶区域,避免碰撞。下面仅举几例。
可以应用强化学习的一些自动驾驶任务包括轨迹优化,运动计划,动态路径,控制器优化以及基于场景的高速公路学习策略。
例如,可以通过学习自动停车策略来实现停车。可以使用Q-Learning来实现车道变更,同时可以通过学习超车策略来实现超车,同时避免碰撞并保持稳定的速度。
AWS DeepRacer是一款自动驾驶赛车,旨在在物理轨道上测试强化学习。它使用摄像头将跑道可视化,并使用强化学习模型来控制油门和方向。
Wayve.ai已成功地将强化学习应用于汽车的日常驾驶培训。他们使用深度强化学习算法来解决车道跟踪任务。他们的网络架构是具有4个卷积层和3个完全连接层的深度网络。
强化学习的行业自动化
在行业增强中,基于学习的机器人用于执行各种任务。除了这些机器人比人类更有效的事实外,它们还可以执行对人类危险的任务。
一个很好的例子是Deepmind使用AI代理来冷却Google数据中心。这导致能源支出减少了40%。现在,这些中心已由AI系统完全控制,而无需人工干预。显然,仍然有数据中心专家的监督。该系统以以下方式工作:
每五分钟从数据中心获取数据快照,并将其提供给深度神经网络
然后预测不同的组合将如何影响未来的能源消耗
确定将在保持设定的安全标准标准的同时将功耗降至最低的措施
在数据中心发送并执行这些操作
这些动作由本地控制系统验证。
强化学习在贸易和金融中的应用
监督时间序列模型可用于预测未来销售以及预测股票价格。但是,这些模型无法确定要以特定股票价格采取的行动。输入强化学习(RL)。强化学习代理可以决定执行此任务;是否持有,购买或出售。强化学习模型使用市场基准标准进行评估,以确保其表现最佳。
这种自动化为流程带来了一致性,这与以前的方法不同,以前的方法需要分析师做出每个决定。例如,IBM有一个复杂的基于强化学习的平台,该平台具有进行金融交易的能力。它基于每次金融交易的损失或利润来计算奖励函数。
NLP(自然语言处理)中的强化学习
在NLP中,仅举几例,RL可用于文本摘要,问题解答和机器翻译。
Eunsol Choi,Daniel Hewlett和Jakob Uszkoreit提出了一种基于强化学习的方法来回答给定的长篇文章。他们的方法是通过首先从文档中选择一些与回答问题相关的句子来工作的。然后采用慢RNN来生成所选句子的答案。
这篇文章将监督学习和强化学习相结合,用于抽象概括文本摘要,由Romain Paulus,熊彩明和Richard Socher撰写。他们的目标是解决在较长文档中使用基于RNN的Attentional编码器-解码器模型时汇总中遇到的问题。此文提出了一种具有新颖的内部注意力的神经网络,它可以参与输入并连续不断地单独产生输出。他们的训练方法是标准的监督单词预测和强化学习的组合。(论文链接:https://arxiv.org/pdf/1705.04304.pdf?ref=hackernoon.com)
在机器翻译方面,科罗拉多大学和马里兰大学的作者提出了一种基于强化学习的同步机器翻译方法。这项工作的有趣之处在于,它能够学习何时信任预测的单词,并使用RL来确定何时等待更多输入。 (论文链接:
http://users.umiacs.umd.edu/~jbg/docs/2014_emnlp_simtrans.pdf?ref=hackernoon.com)
斯坦福大学,俄亥俄州立大学和Microsoft Research的研究人员领先于Deep RL,用于对话生成。深度强化学习可用于在聊天机器人对话中为将来的奖励建模。使用两个虚拟代理模拟对话。策略梯度方法用于奖励包含重要对话属性(例如,连贯性,信息性和易于回答)的序列。(论文链接:https://arxiv.org/pdf/1606.01541.pdf?ref=hackernoon.com)
强化学习在医疗保健中的应用
在医疗保健方面,患者可以从强化学习系统学习到的政策中接受治疗。强化学习可以使用以前的经验来找到最佳策略,而无需有关生物系统数学模型的先前信息。它使该方法比医疗保健中其他基于控制的系统更适用。
医疗保健中的强化学习被归类为慢性疾病或重症监护,自动医疗诊断和其他一般领域中的动态治疗方案(DTR)。
在DTR中,输入是对患者的一组临床观察和评估。输出是每个阶段的治疗选项。这些类似于强化学习中的状态。强化学习在DTR中的应用是有利的,因为它能够确定与时间有关的决定,以便在特定时间为患者提供最佳治疗。
在医疗保健中使用强化学习还可以通过考虑治疗的延迟效果来改善长期结果。
强化学习也已用于发现和生成慢性疾病的最佳DTR。
强化学习在工程中的应用
在工程领域,Facebook开发了一个开源强化学习平台Horizon。该平台使用强化学习来优化大规模生产系统。Facebook内部使用了Horizon:
个性化建议
向用户传递更有意义的通知
优化视频流质量
Horizon还包含以下工作流程:
模拟环境
用于数据预处理的分布式平台
培训和导出生产中的模型
视频显示中强化学习的经典示例是根据视频缓冲区的状态和来自其他机器学习系统的估计,为用户提供低或高比特率视频。
Horizon能够处理类似生产的问题,例如:
大规模部署
功能归一化
分布式学习
使用高维数据和数千种要素类型来服务和处理数据集
新闻推荐中的强化学习
用户偏好可能会经常变化,因此,基于评论和喜欢的消息向用户推荐新闻可能很快就会过时。通过强化学习,强化学习系统可以跟踪读者的回返行为。
这种系统的构建将涉及获得新闻特征,阅读器特征,上下文特征和阅读器新闻特征。新闻功能包括但不限于内容,标题和发布者。阅读器功能是指阅读器如何与内容(例如点击和分享)进行交互。上下文功能包括新闻方面,例如新闻的时间安排和新鲜度。然后根据这些用户行为定义奖励。
游戏中的强化学习
让我们看一下游戏前沿中的一个应用程序,特别是AlphaGo Zero。通过强化学习,AlphaGo Zero可以从零开始学习围棋游戏。它通过与自己对战来学习。经过40天的自我训练,Alpha Go Zero战胜了击败世界排名第一的Ke Jie的Alpha Go大师版。它仅使用板上的黑白石头作为输入功能和单个神经网络。依靠单个神经网络的简单树搜索用于评估位置移动和样本移动,而无需使用任何Monte Carlo展开。
实时出价-marketing营销和广告中的强化学习应用程序
在文章(链接:
https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com)中,作者提出了采用多主体强化学习的实时出价。使用聚类方法并为每个聚类分配一个战略投标代理来处理大量广告商。为了平衡广告商之间的竞争与合作之间的权衡,提出了分布式协调多代理竞标(DCMAB)。
在营销中,准确定位个人的能力至关重要。这是因为正确的目标显然会带来高投资回报。文章(链接:http://taobao.com/?ref=hackernoon.com)基于中国最大的电子商务平台“淘宝网”。所提出的方法优于最新的单主体强化学习方法。
机器人操纵中的强化学习
深度学习和强化学习的使用可以训练具有抓握各种物体能力的机器人,甚至包括那些在训练中看不见的物体。例如,这可以用于装配线中的建筑产品。
这是通过将大规模分布式优化与称为“ QT-Opt”的“深度Q学习”变体相结合来实现的。QT-Opt对连续动作空间的支持使其适用于机器人问题。首先对模型进行离线训练,然后在实际的机器人上进行部署和微调。
Google AI将这种方法应用于机器人技术,从而使7个真实世界的机器人在4个月的时间内运行了800个小时。
在此实验(链接:https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com)中,QT-Opt方法成功地完成了700次针对以前看不见的物体的抓取尝试中的96%的抓取尝试。Google AI以前的方法成功率为78%。
总结
尽管强化学习仍然是一个非常活跃的研究领域,但是在推进该领域并将其应用于现实生活方面已经取得了重大进展。
在本文中,我们几乎没有涉及到强化学习的应用领域。希望这激发了人们的好奇心,驱使您进一步深入该领域
原文链接:https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way
本文由AI科技大本营翻译,转载请注明出处
更多精彩推荐
AI 隐身术,能让物体在视频中消失的魔法
太扎心!人艰不拆!16 个程序员专属笑话讲给你听
九问国产操作系统,九大掌门人首次同台激辩
一文读懂机器学习“数据中毒”
NLP实战:利用Python理解、分析和生成文本 | 赠书
相关文章:

PHP feof() 函数读文件的使用
(PHP 4, PHP 5) feof — 测试文件指针是否到了文件结束的位置 如果服务器没有关闭由 fsockopen() 所打开的连接,feof() 会一直等待直到超时而返回TRUE。默认的超时限制是 60 秒,可以使用 stream_set_timeout() 来改变这个值。 文件指针必须是有效的&a…

批处理解决“易语言难题”
为什么80%的码农都做不了架构师?>>> 发现还没有Win批处理的,也就是DOS,我来凑个热闹,哈哈~ maxos 汇总贴 APPLEUFO 原题链接 不罗嗦,上代码啦: echo off set c_title批处理…

\r与\n有何差别,编码的时候应该怎样使用
差别: \r: 全称:carriage return (carriage是“字车”的意思。打印机上的一个部件)简称:return缩写:rASCII码:13作用:把光标移动到当前行的最左边\n: 全称:new line别名…
深度学习中的注意力机制(一)
作者 | 蘑菇先生来源 | NewBeeNLP头图 | CSDN下载自视觉中国目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往…

Hibernate 异常org.hibernate.LazyInitializationException: could not initialize prox
Hibernate的Lazy初始化1:n关系时,必须保证是在同一个Session内部使用这个关系集合,不然Hiernate将抛出异常。 两种处理方法: 一、这是延时加载的问题,把有关联的所有pojo类,在hibernate.cfg.xml文件中。一般在many-to-…

XHTML基础问答
作者:阿捷 2004-6-26 1:43:36本文是2002年为硅谷动力网站翻译的稿件。当时xhtml1.0刚刚开始被设计师所接触,所以有下面这个基础问答。 HTML语言是我们建立网页的工具,从它出现发展到现在,规范不断完善,功能越来越强。…
958毕业,苦学Java,竟被二本毕业生吊打!网友:确实厉害!
最近收到一位中型公司 HR 的反馈,她说,我推荐的一个普通本二毕业生在校招面试中表现非凡,当时两个人争抢一个名额,他竟然完胜另一位 985 毕业生。普通本二毕业生对公司的技术提问对答如流,曾在小公司实习,做…

css布局中的居中问题
css布局中的居中问题 作者:阿捷 2004-7-5 14:35:49#sample{HEIGHT:240px;WIDTH:400px;BACKGROUND: url(http://www.w3cn.org/style/001/logo_w3cn_194x79.gif) #CCC no-repeat center;} 如何使DIV居中 主要的样式定义如下: body {TEXT-ALIGN: center;…

领域驱动设计_软件核心复杂性应对之道
领域驱动设计_软件核心复杂性应对之道转载于:https://www.cnblogs.com/MarvinGeng/archive/2013/02/21/2920968.html
谈谈Boost网络编程(2)—— 新系统的设计
写文章之前。我们一般会想要採用何种方式,是“开门见山”,还是”疑问式开头“。写代码也有些类似。在编码之前我们须要考虑系统总体方案,这也就是各种设计文档的作用。在设计新系统之初,我基本的目的是:保证高效率&…
64岁Python之父退休失败,正式加入微软搞开源
来源 | CSDN今天,64岁的Python 之父 Guido van Rossum 在 Twitter 上正式宣布,退休太无聊,如今加入了微软开发者部门。Guido van Rossum 去年宣布退出 Python 核心决策层事实上,近几年来,随着人工智能的飞速发展&#…

Java实现HTTP文件下载(转)
文章出自: http://www.360doc.com/content/12/1218/17/2718300_254818081.shtml 本人用这种方法解决了工作中遇到的问题,再次谢谢文章的作者. 序言 许多用户可能会遇到这样的情况:在网站上发现一个很好的资源,但是这个资源是分成了很多个文件存放的&…

初学web标准的几个误区
初学web标准的几个误区作者:阿捷 2004-7-7 11:37:11非常高兴地看到很多设计师开始关注和尝试使用web标准制作网页。但从网友们的问题和制作中发现几个问题,在这里特别提醒一下: 1.不是为了通过校验才标准化。 web标准的本意是实现内容(结构…

nginx系列:nginx反向缓存代理详解
小生博客:http://xsboke.blog.51cto.com如果有疑问,请点击此处,然后发表评论交流,作者会及时回复。-------谢谢您的参考,如有疑问,欢迎交流一、 代理和nginx相关概念1. 代理类型正向代理:代理局域网对internet的连接请求反向代理&…

编辑PDF文档,Word 2013可以是您的选择
题外话:记得刚进公司的时候,几乎所有的培训文档都是PDF、标准文档,公司使用的软件是Adobe Acrobat 5.0(不知道多少钱,呵呵),软件当然是购买正版的;去年,公司购买了新版本…

中国人工智能学会2020年度优秀科技成果出炉,百度文心ERNIE入选
11月14日,由中国人工智能学会(CAAI)主办的2020第十届中国智能产业高峰论坛(CIIS 2020)正式开幕,CAAI理事长戴琼海院士、何积丰院士、何友院士、王恩东院士、陆军院士等多位中外院士、专家齐聚嘉兴南湖&…

web标准,我们去向何方?一些想法...
web标准,我们去向何方?一些想法...作者:阿捷 2004-7-5 0:52:42原文作者:Veerle 原文出处:veerle.duoh.com 原文发表时间:2004年6月14日 译者注:本文是"你应该关注web标准的真正原因"…

事件源ES的优势
多年来,开发人员实现持久性使用传统的创建、读取、更新、删除(CRUD)模式。正如前面介绍的,如果采购模型实现持久性存储状态更改为历史事件捕获业务活动发生之前写的数据存储。这将事件存储机制,允许他们被聚合,或者放在一个组与逻辑边界。事件采购的模式之一,使并发、分布式系统…

你应该关注web标准的真正原因
你应该关注web标准的真正原因作者:阿捷 2004-7-4 2:28:39原文作者:Andrei Herasimchuk 原文出处:designbyfire.com 原文发表时间:2004年6月11日 译者前言:这是一篇让人震惊的文章。作者的分析深刻,文笔犀…
为什么我们需要开源的系统芯片?
作者 | bunnie译者 | 弯月,编辑 | 杨碧玉来源 | CSDN(ID:CSDNnews)现代的小型电子产品往往基于某个高度集成的芯片构建,这种芯片称为“系统芯片”(System on aChip,缩写:SoC…

InnoDB和MyISAM区别
MySQL作为当前最为流行的免费数据库服务引擎,已经风靡了很长一段时间,不过也许也有人对于MySQL的内部环境不很了解,尤其那些针对并发性处理的机制。今天,我们先了解一下MySQL中数据表的分类,以及它们的一些简单性质。 …

图书管理系统5W1H
Who 图书管理员 When 图书管理员在图书馆借阅期间管理用户的借书还书,非借阅时间管理后台图书、管理用户信息 Where 借书台、办公室 What 一个图书管理系统,能实现图书的借书还书操作、管理后台图书信息、管理用户信息 Why 能够方便快捷的实现图…
程序员奶爸用树莓派制作婴儿监护仪:哭声自动通知,还能分析何时喂奶
作者 | Fabio Manganiello译者 | 弯月,责编 | 杨碧玉头图 | CSDN 下载自东方 IC来源 | CSDN(ID:CSDNnews)首先,告诉大家一个好消息,我当爸爸了!我不得不暂停一下我的项目来承担一些育儿的重任。…

python快速小教程
http://www.cnblogs.com/vamei/archive/2012/09/13/2682778.html

web标准的投资回报
web标准的投资回报(ROI)作者:阿捷 2004-7-6 0:17:49原文作者:D. Keith Robinson 原文出处:asterisk 原文发表时间:2004年6月1日 用web标准开发能够带来实际利益,这一点还有人怀疑吗? 如果有,…

使用javascript让项目支持热插拔
2019独角兽企业重金招聘Python工程师标准>>> 突然想起之前做过的一个小项目,项目虽小,需求却不小,要求解析特定格式的字符串,并且特定格式并非一成不变,想要一套系统能够支持解析多变的规则且更改规则时不能…

设计模式:状态模式(State Pattern)
作者:Wang Juqiang 创建于:2012-07-16 出处:http://www.cnblogs.com/wangjq/archive/2012/07/16/2593485.html 收录于:2013-03-01 结构图 意图 允许一个对象在其内部状态改变时改变它的行为。对象看起来似乎修改了它的类。 适用性…
拼命学的编程,你却可能错过一个亿!
先来看 2 则新闻:近日 AI 圈最火的新闻当属“AI独角兽依图科技上市”,“AI四小龙”先后开启了上市之路,继旷视科技、云从科技分别谋求港股、A股上市后,依图科技也加入了 IPO 队伍。国内 AI 科技公司的发展,也标志着国家…

web标准的商业价值
web标准的商业价值作者:阿捷 2004-7-3 0:37:26原文来自:adaptivepath.com 作者介绍:Jeffrey Veen是AdaptivePath.com的合伙人之一,专门研究网页设计新技术,你可以在他的个人站点veen.com上学到更多知识。 自从开始we…

OO真经——关于面向对象的哲学体系及科学体系的探讨(上)
http://www.cnblogs.com/leoo2sk/archive/2009/04/09/1432103.html 目录 Catelog 序言 Perface 真经第一章:世界 Waltanschauung 真经第二章:抽象 Abstraction 真经第三章:层次 Arrangement 真经第四章:继承 Inheritance 真经第五…