如何在强化学习中提升胜任本职工作的能力( 四 )


2 gym中的环境源代码能不能查看和修改?
Gym是开源开发工具,所有代码都可查看和修改 。可以模仿gym已有的例子自己创建环境 。Gym创建环境很方便,只需要编写你的环境模型,并将你的环境模型注册到环境文件中即可 , 至于如何构建新的环境 , 请关注我的知乎专栏 , 我会在后面讲一讲 。我的专栏中深入剖析了gym并给出了创建自己环境的实例,强化学习实战 第一讲 gym学习及二次开发 - 知乎专栏 。
专业强化学习记录是一种记录强化学习算法实验数据的方式 。强化学习是一种机器学习方法,它通过智能体从环境中不断地学习和试错,以最大化回报来实现目标 。在记录强化学习数据时,需要记录每一步的状态、奖励、动作和其他相关信息 , 以便后续的数据分析和模型调整 。专业的强化学习记录应该包括实验的设计、执行方法、结果、分析和结论等内容 。通过记录和分析实验数据,可以极大提高强化学习算法的性能,使其更好地适应真实环境,并实现更好的结果 。
1)策略:从环境感知到的状态到该状态下应该采取的行动映射 。从心理学上,称为刺激——响应规则或称“联想” 。为强化学习智能体的核心,一般具有概率性 。
2)报酬函数:它用来定义强化学习问题的目标 。粗略地说,该函数把从环境感知到的状态(即:(状态,行动)对)映射成一个数值化的“报酬”值,该报酬表示了从该状态所得到的期望程度 。
3)价值函数:与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是好的 。粗略的说,所谓状态的“价值”是智能体以该状态为基点过渡到所期望的将来的过程中,所蓄积的报酬的总量 。以“价值评价”为核心将是今后数十年强化学习研究中重中之重 。
4)环境的模型:这是为模仿环境的举动而建立的 。