如何在强化学习中提升胜任本职工作的能力( 四 ) _环境

2 gym中的环境源代码能不能查看和修改？
Gym是开源开发工具，所有代码都可查看和修改。可以模仿gym已有的例子自己创建环境。Gym创建环境很方便，只需要编写你的环境模型，并将你的环境模型注册到环境文件中即可，至于如何构建新的环境，请关注我的知乎专栏，我会在后面讲一讲。我的专栏中深入剖析了gym并给出了创建自己环境的实例，强化学习实战第一讲 gym学习及二次开发 - 知乎专栏。
专业强化学习记录是一种记录强化学习算法实验数据的方式。强化学习是一种机器学习方法，它通过智能体从环境中不断地学习和试错，以最大化回报来实现目标。在记录强化学习数据时，需要记录每一步的状态、奖励、动作和其他相关信息，以便后续的数据分析和模型调整。专业的强化学习记录应该包括实验的设计、执行方法、结果、分析和结论等内容。通过记录和分析实验数据，可以极大提高强化学习算法的性能，使其更好地适应真实环境，并实现更好的结果。
1）策略：从环境感知到的状态到该状态下应该采取的行动映射。从心理学上，称为刺激——响应规则或称“联想” 。为强化学习智能体的核心，一般具有概率性。
2）报酬函数：它用来定义强化学习问题的目标。粗略地说，该函数把从环境感知到的状态（即：（状态，行动）对）映射成一个数值化的“报酬”值，该报酬表示了从该状态所得到的期望程度。
3）价值函数：与某一时刻（或状态）意义上反应行动结果好坏的报酬函数相对应，价值函数则指定了最终什么是好的。粗略的说，所谓状态的“价值”是智能体以该状态为基点过渡到所期望的将来的过程中，所蓄积的报酬的总量。以“价值评价”为核心将是今后数十年强化学习研究中重中之重。
4）环境的模型：这是为模仿环境的举动而建立的。