深度强化学习已经在很多任务上取得了巨大的成功,由于强化学习环境转移和状态观测都存在不确定性,现有的强化学习算法可能会导致灾难性的后果,即获得特别低的回报奖励或者让智能体进入特别危险的状态。本项目针对该问题,建立环境转移的不确定性和状态观测的不确定性之间的联系,我们首先提出值函数界的概念,它被定义为最优状态的值函数和最差状态的值函数之差。然后,我们证明了证明智能体在上述两种不确定性下累计期望奖励的下降与值函数界相关。我们首先利用条件状态风险来作为最小值的替代,从而避免过度保守的策略。进一步,我们证明轨迹奖励的条件状态风险值是值函数的条件状态风险值得下界,并且前者更加容易估计。相关成果发表在会议IJCAI2022上。
Chengyang Ying; Xinning Zhou; Hang Su; Dong Yan; Ning Chen; Jun Zhu; Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk, International Joint Conference on Artificial Intelligence (IJCAI), Online (due to COVID-19), 2022., Vienna, Austria, 2022-7-23至2022-7-29.