当前位置: 首页 > 编程日记 > 正文

【强化学习篇】--强化学习从初识到应用

一、前述

强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。

通俗点说:学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为,必须在尝试了之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励,还会影响下一步的奖励以及后续的所有奖励。

二、具体

1、相关定义

 智能体 (agent):我们要操控的实物。比如上述中的车。

 状态 (state):当前什么样的环境状态。

 行为 (action):下一步的操作。

 奖励:对不同的操作结果,都有衡量指标,一个奖励值。

 策略:一系列相关行为的组合达到最大的一个奖励值,就是一个策略。

 强化学习的过程:先行动,再观察 再行动 再观测…

 每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功,目标:选择一系列行动来最大化未来的奖励。

小车举例:

 马尔科夫决策要求:

1.能够检测到理想的状态
2.可以多次尝试
3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关
在决策过程中还和当前采取的动作有关

马尔科夫决策过程由5个元素构成:

过程:

1.智能体初始状态为S0
2.选择一个动作a0
3.按概率转移矩阵Psa转移到了下一个状态S1
然后。。。

状态价值函数:

Bellman方程:  当前状态的价值下一步的价值及当前的奖励(Reward)有关价值函数分解为当前的奖励和下一步的价值两部分,类似递归。

 

 在某个状态(state)下最优价值函数的值,就是智能体(agent)在该状态下,所能获得的累积期望奖励值(cumulative expective rewards)的最大值.

转载于:https://www.cnblogs.com/LHWorldBlog/p/9247880.html

相关文章:

BOS常用代码

2019独角兽企业重金招聘Python工程师标准>>> 验证某个用户是否拥有某个权限 BOSUuid userIdSysContext.getSysContext().getCurrentUserInfo().getId(); BOSUuid orgIdSysContext.getSysContext().getCurrentOrgUnit().getId(); ObjectUuidPK userPK new Objec…

20060521

学习中,发现越学习,越觉得基础的知识比较有用.赶紧补... 转载于:https://www.cnblogs.com/tuantuan/archive/2006/05/21/405894.html

Oracle嵌套表实例说明

嵌套表属于oracle复合数据类型中的集合数据类型。 假设有一个关于动物饲养员的表,希望其中具有他们饲养的动物的信息。用一个嵌套表,就可以在同一个表中存储饲养员和其饲养的全部动物的信息。 创建类型animal_ty:此类型中,对于每…

深入浅出开源性能测试工具 Locust (使用篇 1)

在《【LocustPlus序】漫谈服务端性能测试》中,我对服务端性能测试的基础概念和性能测试工具的基本原理进行了介绍,并且重点推荐了Locust这一款开源性能测试工具。然而,当前在网络上针对Locust的教程极少,不管是中文还是英文&#…

Fedora 19下Guacamole的安装使用

由于我要使用RDP实现web远程桌面,因此需要用到了Guacamole这个开源的软件。之前用Ubuntu12.04折腾了一晚上,也没有找到依赖库文件,而Guacamole的官方安装说明却没有介绍这个依赖库如何安装,而是在RDP的配置说明里才一句话简述了这…

创建ASP.NET WEB自定义控件——例程2

本文通过一段完整的代码向读者介绍复合自定义控件的制作,包括:自定义属性、事件处理、控件间数据传递等方面的技术。 作者在http://damao.0538.org有一些控件和代码,并在更新中,有兴趣的读者可以去下载。 以下是一个登陆框的代码&…

Oracle可变数组实例说明

创建类型comm_info CREATE TYPE comm_info AS OBJECT ( /*此类型为通讯方式的集合*/ no number(3), /*通讯类型号*/ comm_type varchar2(20), /*通讯类型*/ comm_no varchar2(30)); /*号码*/ 创建可变数组comm_info_list CREATE TYPE comm_info_list AS VARRAY(50) OF com…

lua创建文件和文件夹

创建文件夹: os.execute(mkdir xx) 创建文件: f assert(io.open(a.tmp,w)) f:write(test) f:close() 转载于:https://www.cnblogs.com/cyberwalker/p/3599199.html

从定制软件到通用软件的转变

最近做了个项目,在不到一周的时间内完成一个大型网站的外壳,这是个很令人振奋的消息~!我却走了许多弯路,本来公司有自己的信息平台,从信息平台衍生出来的成型的系统也有四五个其实都是工具的拼装,而我做的部…

OPENVAS运行

https://www.jianshu.com/p/382546aaaab5

白盒测试的5种逻辑覆盖法

文章目录判定覆盖法 Decision Coverage (DC)条件覆盖 Condition Coverage (CC)判定-条件覆盖 Condition-Decision Coverage条件组合覆盖 Multiple Condition Coverage (MCC)修正的条件/判定覆盖 Modified Condition/Decision Coverage (MC/DC)5种覆盖的关系判定覆盖法 Decision…

[sinatra] Just Do It: Learn Sinatra, Part One Darren Jones

1. Install sinatra gem gem install sinatra --no-ri --no-rdoc2. Basic App #!/usr/bin/ruby require sinatra get / do"Just Do It" endruby低于1.9,需要在文件开头加require rubygems ruby basic.rbOpen up your browser and go to http://localhost:4567. 3. I…

GMTC 大前端时代前端监控的最佳实践

摘要: 今天我分享的内容分成三个部分: 第一部分是“大前端时代前端监控新的变化”, 讲述这些年来,前端监控一些新的视角以及最前沿的一些思考。 第二部分"前端监控的最佳实践", 从使用的角度出发,介绍前端监…

Visual C#访问接口

对接口成员的访问 对接口方法的调用和采用索引指示器访问的规则与类中的情况也是相同的。如果底层成员的命名与继承而来的高层成员一致,那么底层成员将覆盖同名的高层成员。但由于接口支持多继承,在多继承中,如果两个父接口含有同名的成员&am…

powerdesigner类图在子类中显示从父类继承来的方法

首先确保画了子类和父类之间的继承线 然后在子类的选项卡中点击

[UML]UML系列——用例图中的各种关系(include、extend)

[UML]UML系列——用例图中的各种关系(include、extend) 原文:[UML]UML系列——用例图中的各种关系(include、extend)用例图中的各种关系 一、参与者与用例间的关联关系 参与者与用例之间的通信,也成为关联或通信关系。…

熬夜写了一个小游戏,向SpaceX聊表敬意

2019独角兽企业重金招聘Python工程师标准>>> 这是我长久放在桌面上的一张图片。 这张照片的名字叫做 Pale Blue Dot(暗淡蓝点),是旅行者1号在距地球64亿公里回望太阳系时所拍下的。照片右侧中部有一个隐约可见的小蓝点&#xff0c…

【转】Linux Oracle服务启动停止脚本与开机自启动

在CentOS 6.3下安装完Oracle 10g R2,重开机之后,你会发现Oracle没有自行启动,这是正常的,因为在Linux下安装Oracle的确不会自行启动,必须要自行设置相关参数,首先先介绍一般而言如何启动oracle。 一、在Lin…

ASP.Net中MD5加密-16位32位

publicstringmd5(stringstr,intcode){if(code16) //16位MD5加密(取32位加密的9~25字符){return System.Web.Security.FormsAuthentication.HashPasswordForStoringInConfigFile(str,"MD5").ToLower().Substring(8,16) ;} else//32位加密{retur…

PL/SQL编程:将两个数进行交换的存储过程

创建过程exchangeTwo 调用过程enchangeTwo

WCF之多个终结点

1.服务端配置如下&#xff08;一个Service节点下可有多个endpoint,&#xff09;&#xff1a; 1 1<system.serviceModel>2 2 <services>3 3 <service name"Microsoft.ServiceModel.Samples.CalculatorService" behaviorConfiguration"returnFaul…

YAML 语言入门教程

2019独角兽企业重金招聘Python工程师标准>>> YAML简介 另一种标记语言&#xff08;Yet Another Markup Language&#xff09; YAML&#xff08;英语发音&#xff1a;/ˈjməl/&#xff0c;尾音类似camel骆驼&#xff09;是一个可读性高&#xff0c;用来表达资料序列…

我翻译的一篇文章,OO设计中对象的创建和使用

OO设计中对象的创建和使用 转载于:https://www.cnblogs.com/lishu1980/archive/2006/06/22/432526.html

SQL Server Profiler工具

SQL Server Profiler工具 原文:SQL Server Profiler工具一、SQL Profiler工具简介 SQL Profiler是一个图形界面和一组系统存储过程&#xff0c;其作用如下&#xff1a; 图形化监视SQL Server查询&#xff1b;在后台收集查询信息&#xff1b;分析性能&#xff1b;诊断像死锁之类…

Nginx—核心配置location匹配规则说明

2019独角兽企业重金招聘Python工程师标准>>> location介绍 location指令是Nginx中最核心的一项配置&#xff0c;根据预先定义的URL匹配规则来接收用户发送的请求&#xff0c;根据匹配结果&#xff0c;将请求转发到后台服务器、非法的请求直接拒绝并返回403&#xff…

Windows Live Messenger  正式版已经发布

Windows Live Messenger 正式版已经发布!这是新一代的 Messenger。它拥有全新的名字&#xff0c;可以免费下载。并且除了延续使用原 Messenger 的全部功能外&#xff0c;它还提供了几种出色的全新交流方式&#xff0c;实现与朋友的即时共享和交流。转载于:https://www.cnblogs.…