Markov Process, Markov Reward Process, Markov Decision Process)
$MP \equiv (S,P)$ S : 상태의 집합 $S= \{s_0, s_1, s_2, s_3, s_4\}$ $P$ : 전이확률행렬 전이확률행렬은 하나의 상태에서 다른 상태로 가는 확률이 나타나있는 행렬을 나타낸다. $MRP \equiv (S,P,R,\gamma)$ $R$ : 보상함수 $\gamma$ : 미래에 얻을 보상에 비해 당장 얻을 보상을 얼마나 더 중요하게 여길 것인지를 나타내는 파라미터 $MDP \equiv (S,A,P,R,\gamma)$ $A$ : action 의 집합
2023. 5. 26.