倒立擺問題是控制文獻中的經典問題。 在這個版本的問題中,鐘擺以隨機位置開始,目標是將其向上擺動,使其保持直立。
類型 :連續控制
state是最原始的環境內部的表示,observation則是state的函數。好比我們所看見的東西並不壹定就是它們在世界中的真實狀態,而是經過我們的大腦加工過的信息
獎勵的精確等式:
在 和 之間歸壹化。因此,
最小代價是 ,
最高代價為0。
實質上,目標是保持零角度(垂直),旋轉速度最小,力度最小。
從 和 的隨機角度,以及-1和1之間的隨機速度
沒有指定的終止狀態。 添加最大步數可能是個好主意。
目前尚未指定
先對 (x+pi)%(2*pi)-pi 進行分析,帶入幾個角度,比如 x=pi/4 , return=pi/4 ; x=3*pi/4 , return=3*pi/4 ; x=5*pi/4 , return=-3*pi/4 。這樣我們就可以繪圖如下[4]:
參考: