当前位置：首页 > 编程日记 > 正文

强化学习：10种真实的奖励与惩罚应用

编程日记 2024-11-19 22:30:00

作者 | Patrycja

翻译 | Katie，责编 | 晋兆雨

出品 | AI科技大本营

头图 | 付费下载于视觉中国

在强化学习（Reinforcement Learning）中，对代理进行奖励和惩罚机制的培训。代理的正确行为会得到奖励，而错误的行为会受到惩罚。在这样做时，代理试图将错误降到最低并将正确率提高。

在本文中，我们将研究强化学习的一些实际应用。

在自动驾驶汽车中的应用

各种论文都提出了“深度强化学习用于自动驾驶”。在自动驾驶汽车中，要考虑很多方面，例如在各个地方的速度限制，可驾驶区域，避免碰撞。下面仅举几例。

可以应用强化学习的一些自动驾驶任务包括轨迹优化，运动计划，动态路径，控制器优化以及基于场景的高速公路学习策略。

例如，可以通过学习自动停车策略来实现停车。可以使用Q-Learning来实现车道变更，同时可以通过学习超车策略来实现超车，同时避免碰撞并保持稳定的速度。

AWS DeepRacer是一款自动驾驶赛车，旨在在物理轨道上测试强化学习。它使用摄像头将跑道可视化，并使用强化学习模型来控制油门和方向。

Wayve.ai已成功地将强化学习应用于汽车的日常驾驶培训。他们使用深度强化学习算法来解决车道跟踪任务。他们的网络架构是具有4个卷积层和3个完全连接层的深度网络。

强化学习的行业自动化

在行业增强中，基于学习的机器人用于执行各种任务。除了这些机器人比人类更有效的事实外，它们还可以执行对人类危险的任务。

一个很好的例子是Deepmind使用AI代理来冷却Google数据中心。这导致能源支出减少了40％。现在，这些中心已由AI系统完全控制，而无需人工干预。显然，仍然有数据中心专家的监督。该系统以以下方式工作：

每五分钟从数据中心获取数据快照，并将其提供给深度神经网络
然后预测不同的组合将如何影响未来的能源消耗
确定将在保持设定的安全标准标准的同时将功耗降至最低的措施
在数据中心发送并执行这些操作

这些动作由本地控制系统验证。

强化学习在贸易和金融中的应用

监督时间序列模型可用于预测未来销售以及预测股票价格。但是，这些模型无法确定要以特定股票价格采取的行动。输入强化学习（RL）。强化学习代理可以决定执行此任务；是否持有，购买或出售。强化学习模型使用市场基准标准进行评估，以确保其表现最佳。

这种自动化为流程带来了一致性，这与以前的方法不同，以前的方法需要分析师做出每个决定。例如，IBM有一个复杂的基于强化学习的平台，该平台具有进行金融交易的能力。它基于每次金融交易的损失或利润来计算奖励函数。

NLP（自然语言处理）中的强化学习

在NLP中，仅举几例，RL可用于文本摘要，问题解答和机器翻译。

Eunsol Choi，Daniel Hewlett和Jakob Uszkoreit提出了一种基于强化学习的方法来回答给定的长篇文章。他们的方法是通过首先从文档中选择一些与回答问题相关的句子来工作的。然后采用慢RNN来生成所选句子的答案。

这篇文章将监督学习和强化学习相结合，用于抽象概括文本摘要，由Romain Paulus，熊彩明和Richard Socher撰写。他们的目标是解决在较长文档中使用基于RNN的Attentional编码器-解码器模型时汇总中遇到的问题。此文提出了一种具有新颖的内部注意力的神经网络，它可以参与输入并连续不断地单独产生输出。他们的训练方法是标准的监督单词预测和强化学习的组合。（论文链接：https://arxiv.org/pdf/1705.04304.pdf?ref=hackernoon.com）

在机器翻译方面，科罗拉多大学和马里兰大学的作者提出了一种基于强化学习的同步机器翻译方法。这项工作的有趣之处在于，它能够学习何时信任预测的单词，并使用RL来确定何时等待更多输入。（论文链接：

http://users.umiacs.umd.edu/~jbg/docs/2014_emnlp_simtrans.pdf?ref=hackernoon.com）

斯坦福大学，俄亥俄州立大学和Microsoft Research的研究人员领先于Deep RL，用于对话生成。深度强化学习可用于在聊天机器人对话中为将来的奖励建模。使用两个虚拟代理模拟对话。策略梯度方法用于奖励包含重要对话属性（例如，连贯性，信息性和易于回答）的序列。（论文链接：https://arxiv.org/pdf/1606.01541.pdf?ref=hackernoon.com）

强化学习在医疗保健中的应用

在医疗保健方面，患者可以从强化学习系统学习到的政策中接受治疗。强化学习可以使用以前的经验来找到最佳策略，而无需有关生物系统数学模型的先前信息。它使该方法比医疗保健中其他基于控制的系统更适用。

医疗保健中的强化学习被归类为慢性疾病或重症监护，自动医疗诊断和其他一般领域中的动态治疗方案（DTR）。

在DTR中，输入是对患者的一组临床观察和评估。输出是每个阶段的治疗选项。这些类似于强化学习中的状态。强化学习在DTR中的应用是有利的，因为它能够确定与时间有关的决定，以便在特定时间为患者提供最佳治疗。

在医疗保健中使用强化学习还可以通过考虑治疗的延迟效果来改善长期结果。

强化学习也已用于发现和生成慢性疾病的最佳DTR。

强化学习在工程中的应用

在工程领域，Facebook开发了一个开源强化学习平台Horizon。该平台使用强化学习来优化大规模生产系统。Facebook内部使用了Horizon：

个性化建议
向用户传递更有意义的通知
优化视频流质量

Horizon还包含以下工作流程：

模拟环境
用于数据预处理的分布式平台
培训和导出生产中的模型

视频显示中强化学习的经典示例是根据视频缓冲区的状态和来自其他机器学习系统的估计，为用户提供低或高比特率视频。

Horizon能够处理类似生产的问题，例如：

大规模部署
功能归一化
分布式学习
使用高维数据和数千种要素类型来服务和处理数据集

新闻推荐中的强化学习

用户偏好可能会经常变化，因此，基于评论和喜欢的消息向用户推荐新闻可能很快就会过时。通过强化学习，强化学习系统可以跟踪读者的回返行为。

这种系统的构建将涉及获得新闻特征，阅读器特征，上下文特征和阅读器新闻特征。新闻功能包括但不限于内容，标题和发布者。阅读器功能是指阅读器如何与内容（例如点击和分享）进行交互。上下文功能包括新闻方面，例如新闻的时间安排和新鲜度。然后根据这些用户行为定义奖励。

游戏中的强化学习

让我们看一下游戏前沿中的一个应用程序，特别是AlphaGo Zero。通过强化学习，AlphaGo Zero可以从零开始学习围棋游戏。它通过与自己对战来学习。经过40天的自我训练，Alpha Go Zero战胜了击败世界排名第一的Ke Jie的Alpha Go大师版。它仅使用板上的黑白石头作为输入功能和单个神经网络。依靠单个神经网络的简单树搜索用于评估位置移动和样本移动，而无需使用任何Monte Carlo展开。

实时出价-marketing营销和广告中的强化学习应用程序

在文章（链接：

https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com）中，作者提出了采用多主体强化学习的实时出价。使用聚类方法并为每个聚类分配一个战略投标代理来处理大量广告商。为了平衡广告商之间的竞争与合作之间的权衡，提出了分布式协调多代理竞标（DCMAB）。

在营销中，准确定位个人的能力至关重要。这是因为正确的目标显然会带来高投资回报。文章（链接：http://taobao.com/?ref=hackernoon.com）基于中国最大的电子商务平台“淘宝网”。所提出的方法优于最新的单主体强化学习方法。

机器人操纵中的强化学习

深度学习和强化学习的使用可以训练具有抓握各种物体能力的机器人，甚至包括那些在训练中看不见的物体。例如，这可以用于装配线中的建筑产品。

这是通过将大规模分布式优化与称为“ QT-Opt”的“深度Q学习”变体相结合来实现的。QT-Opt对连续动作空间的支持使其适用于机器人问题。首先对模型进行离线训练，然后在实际的机器人上进行部署和微调。

Google AI将这种方法应用于机器人技术，从而使7个真实世界的机器人在4个月的时间内运行了800个小时。

在此实验（链接：https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com）中，QT-Opt方法成功地完成了700次针对以前看不见的物体的抓取尝试中的96％的抓取尝试。Google AI以前的方法成功率为78％。

总结

尽管强化学习仍然是一个非常活跃的研究领域，但是在推进该领域并将其应用于现实生活方面已经取得了重大进展。

在本文中，我们几乎没有涉及到强化学习的应用领域。希望这激发了人们的好奇心，驱使您进一步深入该领域

原文链接：https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way
本文由AI科技大本营翻译，转载请注明出处

更多精彩推荐

AI 隐身术，能让物体在视频中消失的魔法
太扎心！人艰不拆！16 个程序员专属笑话讲给你听

九问国产操作系统，九大掌门人首次同台激辩
一文读懂机器学习“数据中毒”
NLP实战：利用Python理解、分析和生成文本 | 赠书

https://www.dkcj.cn/info/28249.html

强化学习：10种真实的奖励与惩罚应用

相关文章：

PHP feof() 函数读文件的使用

批处理解决“易语言难题”

\r与\n有何差别，编码的时候应该怎样使用

深度学习中的注意力机制（一）

Hibernate 异常org.hibernate.LazyInitializationException: could not initialize prox

XHTML基础问答

958毕业，苦学Java，竟被二本毕业生吊打！网友:确实厉害！

css布局中的居中问题

领域驱动设计_软件核心复杂性应对之道

谈谈Boost网络编程（2）—— 新系统的设计

64岁Python之父退休失败，正式加入微软搞开源

Java实现HTTP文件下载(转)

初学web标准的几个误区

nginx系列：nginx反向缓存代理详解

编辑PDF文档，Word 2013可以是您的选择

中国人工智能学会2020年度优秀科技成果出炉，百度文心ERNIE入选

web标准，我们去向何方？一些想法...

事件源ES的优势

你应该关注web标准的真正原因

为什么我们需要开源的系统芯片？

InnoDB和MyISAM区别

图书管理系统5W1H

程序员奶爸用树莓派制作婴儿监护仪：哭声自动通知，还能分析何时喂奶

python快速小教程

web标准的投资回报

使用javascript让项目支持热插拔

设计模式：状态模式（State Pattern）

拼命学的编程，你却可能错过一个亿！

web标准的商业价值

OO真经——关于面向对象的哲学体系及科学体系的探讨（上）