chenwydj
2/24/2020 - 12:20 AM

On-Policy & Off-Policy

理想情况下,强化学习应该直奔最优策略而去--确定性的“状态-最优行为选择”。我们称之为target policy。

这是on-policy的目标,但在实施时,会遭遇探索-利用的矛盾:光利用目前已知的最优选择,可能学不到最优解,收敛到局部最优;而加入探索又降低了学习效率。epsilon-greedy 算法是这种矛盾下的折衷。

为避免on policy的问题,off policy索性把问题一分为二,采取了从行为策略来学习目标策略的办法,两者可以互不干扰。具体来说:先产生某概率分布下的大量行为数据(behavior policy),意在探索。从这些偏离(off)最优策略的数据中寻求target policy。当然这么做是需要满足数学条件的:假設π是目标策略, µ是行为策略,那么从µ学到π的条件是:π(a|s) > 0 必然有 µ(a|s) > 0成立。两种学习策略的关系是:on-policy是off-policy 的特殊情形,其target policy 和behavior policy是一个。

on-policy优点是直接了当,速度快,劣势是不一定找到最优策略。

off-policy劣势是曲折,收敛慢,但优势是更为强大和通用。其强大是因为它确保了数据全面性,所有行为都能覆盖。甚至其数据来源可以多样,自行产生、或者外来数据均可。

北京深极智能科技在用深度强化学习做网游虚拟玩家时,部分数据来源于人类玩家行为埋点,这就是一种典型off-policy 方法。 这两种方法无绝对优劣之分,看不同的环境来选择最优办法。