강화학습에서 해결하고자 하는 문제는 sequential decision making 이다.
각 상황에 따라 하는 행동이 다음 상황에 영향을 주며, 결국 연이은 행동을 잘 선택해야 하는 문제이다.
728x90
'컴퓨터과학 > RL' 카테고리의 다른 글
Markov Process, Markov Reward Process, Markov Decision Process) (0) | 2023.05.26 |
---|---|
공부를 위해 참고하고 있는 웹사이트 모음 (0) | 2023.05.25 |
에이전트와 환경 (Agent, Environment) (0) | 2023.05.25 |
댓글