关于AlphaStar

DeepMind的AlphaStar中了Nature,以下是看完之后的一些想法:

  1. 人类大量的对局数据还是很重要的。这个首先体现在预训练上,预训练完的agent已经能排到前16%的人类玩家的水平了,从ablation study上看,没预训练就是渣渣。另外,在exploration上面,人类的对局同样有很大的作用。模型里有一个神秘的统计量z,通过这个z可以实现大跳步的探索(比如说改变建造次序),不然估计会卡在局部解上面。这点上也说明现在的RL效果还是不行,无法自己从基本策略中逐渐总结出高层策略,期望以后的Hierarchical RL可以解决这一点。

  2. 很有意思的是之前被广为诟病,认为可以让机器碾压人类的高APM(高手速)会让训练效果变差。我想这是因为太高的APM会让AI集中精力在微操的局部优化上面,而没有办法在有限的训练时间内作出战略层面的优化。另一种可能是星际的许多操作(比如说造兵)需要花一些时间才能完成,APM太高反而会打断操作 (但这并不意味着最大容许APM会降低AI性能,所以这是一个让人迷惑的地方)。

  3. 有效的探索(exploration)非常重要。注意到他们参照了SIL (self-imitation learning)这个方法,就是如果之前探索到能拿到奖励的路径,那之后会试图直接重复这个路径,而不是傻傻地拿来做policy training,期望将来的策略在训练完之后会重复这条路径(这个概率随着路径变长会指数下降)。

  4. Exploitability的问题。经过自对弈训练出来的模型可能自己看自己很厉害,但可能会存在弱点,对手若找到的话可以轻易获胜(比如说围棋里面的征子)。这个问题AlphaStar花了很多计算资源,通过大量增加对手池内各种不同类型的对手来解决,有些对手只针对当前训练的main agent,有些针对当前league里的所有agent,但从网上的各种视频来看,还是没有解决得特别好。相比之下,人类在这方面的随机应变能力要强得多。



Article Comments


Text Annotations

Select text in the article above to add an annotation, or view existing threads below.