古詩詞大全網 - 古詩大全 - gym 環境解析:Pendulum-v0

gym 環境解析:Pendulum-v0

倒立擺問題是控制文獻中的經典問題。 在這個版本的問題中,鐘擺以隨機位置開始,目標是將其向上擺動,使其保持直立。

類型 :連續控制

state是最原始的環境內部的表示,observation則是state的函數。好比我們所看見的東西並不壹定就是它們在世界中的真實狀態,而是經過我們的大腦加工過的信息

獎勵的精確等式:

在 和 之間歸壹化。因此,

最小代價是 ,

最高代價為0。

實質上,目標是保持零角度(垂直),旋轉速度最小,力度最小。

從 和 的隨機角度,以及-1和1之間的隨機速度

沒有指定的終止狀態。 添加最大步數可能是個好主意。

目前尚未指定

先對 (x+pi)%(2*pi)-pi 進行分析,帶入幾個角度,比如 x=pi/4 , return=pi/4 ; x=3*pi/4 , return=3*pi/4 ; x=5*pi/4 , return=-3*pi/4 。這樣我們就可以繪圖如下[4]:

參考: