强化学习——学习笔记2,强化学习学习笔记概述

马肤
摘要:本文介绍了强化学习的基本概念和学习笔记。强化学习是一种机器学习的方法,通过智能体在与环境交互过程中学习最佳行为策略。在学习过程中,智能体会根据环境的反馈不断调整策略,以实现目标。本文总结了强化学习的主要思想、算法和应用领域,为读者提供了入门级的了解和探索强化学习的途径。

关于动态规划(DP)

动态规划是一种在数学和计算机科学中使用的,通过把原问题分解为相互重叠的子问题来解决复杂问题的方法,在强化学习中,动态规划常用于解决具有已知模型和环境信息的问题,对于一些问题,当状态转移和奖励函数是确定的,并且满足马尔可夫性质时,我们可以使用动态规划来求解最优策略。

关于蒙特卡洛方法(MC)

蒙特卡洛方法是一种以概率统计理论为指导的数值计算方法,在强化学习中,蒙特卡洛方法是通过大量的随机样本来估算状态或策略的价值,这种方法不需要知道环境的精确模型,只需要通过与环境交互得到的实际结果来评估策略的好坏。

关于时序差分(TD)

时序差分方法结合了动态规划和蒙特卡洛方法的优点,它同时考虑了立即奖励和后续状态的价值估计来更新当前状态的价值,时序差分方法比蒙特卡洛方法更灵活,因为它不需要等到一个完整的序列结束就可以更新状态价值,这使得时序差分方法在面临不确定环境时更加稳健。

强化学习——学习笔记2,强化学习学习笔记概述 第1张

关于三者之间的比较

1、动态规划需要知道环境的精确模型,因此在模型不确定的情况下表现不佳,但它的优势在于可以处理具有复杂依赖关系的问题,并且可以得到全局最优解。

强化学习——学习笔记2,强化学习学习笔记概述 第2张

2、蒙特卡洛方法不需要知道环境的精确模型,但需要通过大量的样本才能得到较为准确的结果,因此在计算资源和时间方面可能较为昂贵。

强化学习——学习笔记2,强化学习学习笔记概述 第3张

3、时序差分方法结合了前两者的优点,既考虑了立即奖励也考虑了后续状态的价值估计,因此在面对不确定环境时表现较好,它可以在每一步都进行更新,不需要等待一个完整的序列结束。

强化学习——学习笔记2,强化学习学习笔记概述 第4张

关于文章中的例子

文章中的例子通过描述一个将军派侦察兵探路的情况来形象地解释了三种方法的不同之处,蒙特卡洛方法类似于一条路走到黑;动态规划则像是对所有可能的路都进行探索后再返回;而时序差分方法则类似于先选择一条路探索一部分,然后根据得到的奖励和后续状态的价值估计来更新当前状态的价值,再对下一条路进行同样的操作。

强化学习——学习笔记2,强化学习学习笔记概述 第5张

动态规划、蒙特卡洛方法和时序差分方法是强化学习中的三种主要方法,各有其优点和适用场景,在实际应用中,可以根据问题的特性和需求选择合适的方法。

强化学习——学习笔记2,强化学习学习笔记概述 第6张


0
收藏0
文章版权声明:除非注明,否则均为VPS857原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 【研发日记】Matlab/Simulink自动生成代码(二)——五种选择结构实现方法,Matlab/Simulink自动生成代码的五种选择结构实现方法(二),Matlab/Simulink自动生成代码的五种选择结构实现方法详解(二)
  • 超级好用的C++实用库之跨平台实用方法,跨平台实用方法的C++实用库超好用指南,C++跨平台实用库使用指南,超好用实用方法集合,C++跨平台实用库超好用指南,方法与技巧集合
  • 【动态规划】斐波那契数列模型(C++),斐波那契数列模型(C++实现与动态规划解析),斐波那契数列模型解析与C++实现(动态规划)
  • 【C++】,string类底层的模拟实现,C++中string类的模拟底层实现探究
  • uniapp 小程序实现微信授权登录(前端和后端),Uniapp小程序实现微信授权登录全流程(前端后端全攻略),Uniapp小程序微信授权登录全流程攻略,前端后端全指南
  • Vue脚手架的安装(保姆级教程),Vue脚手架保姆级安装教程,Vue脚手架保姆级安装指南,Vue脚手架保姆级安装指南,从零开始教你如何安装Vue脚手架
  • 如何在树莓派 Raspberry Pi中本地部署一个web站点并实现无公网IP远程访问,树莓派上本地部署Web站点及无公网IP远程访问指南,树莓派部署Web站点及无公网IP远程访问指南,本地部署与远程访问实践,树莓派部署Web站点及无公网IP远程访问实践指南,树莓派部署Web站点及无公网IP远程访问实践指南,本地部署与远程访问详解,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南。
  • vue2技术栈实现AI问答机器人功能(流式与非流式两种接口方法),Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法探究,Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法详解
  • 发表评论

    快捷回复:表情:
    评论列表 (暂无评论,0人围观)

    还没有评论,来说两句吧...

    目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码