强化学习：reward function shaping —— 着陆器（lander）游戏中的奖励函数的设计 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

lander 游戏是强化学习问题中常使用的一个游戏场景，不同人对该问题都设置了不同的reward function，一直也没有对该游戏的各种reward function的设计做一个记录，正好看视频看到了一个该游戏的reward function的设计，这里mark下。

资料来源：

https://www.youtube.com/watch?v=0R3PnJEisqk

==============================================

给出了第一种 reward function 设计，该种设计为复杂设计：

第二种设计，简单设计的 reward function：

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net
机房租用，北京机房租用，IDC机房托管， http://www.fwqtg.net

相关推荐: Grafana系列-统一展示-8-ElasticSearch日志快速搜索仪表板

系列文章 Grafana 系列文章概述我们是基于这篇文章: Grafana 系列文章（十二）：如何使用 Loki 创建一个用于搜索日志的 Grafana 仪表板, 创建一个类似的, 但是基于 ElasticSearch 的日志快速搜索仪表板. 最终完整效果…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用