순차적 의사결정 문제를 도식화하면 다음과 같다.
용어 설명
Agent(에이전트) : 학습하는 대상이며, 동시에 환경 속에서 행동하는 개체. 운전중인 자동차를 예로 들면 운전자가 에이전트가 된다.
Environment(환경) : 에이전트가 어떤 action 을 했을 때 그 결과에 영향을 미치는 모든 것.
Agent 에서 하는 일
1. 현재 state $s_t$ 에서 어떤 action을 해야 할지 $a_t$ 를 결정
2. 결정된 action $a_t$ 를 environment 로 보냄
3. environment 로 부터 그에 따른 보상과 다음 상태의 정보를 받음
Environment 에서 하는 일
1. Agent 로 부터 받은 action $a_t$ 를 통해서 state 변화를 일으킴
2. 그 결과 state 는 $s_t \rightarrow s_{t+1}$ 로 바뀜
3. Agent 에게 줄 reward $r_{t+1}$ 도 함께 계산
4. $s_{t+1}$과 $r_{t+1}$ 을 Agent 에게 전달
728x90
'컴퓨터과학 > RL' 카테고리의 다른 글
Markov Process, Markov Reward Process, Markov Decision Process) (0) | 2023.05.26 |
---|---|
강화학습에서 해결하고자 하는 문제 (0) | 2023.05.25 |
공부를 위해 참고하고 있는 웹사이트 모음 (0) | 2023.05.25 |
댓글