Improvimg greedily leads to optimality in policy iteration

Why?

在Dynamic programming里,policy iteration是一个经典的框架,通过反复迭代evaluation和improvement 来得到一个最优的策略。Evaluation得到的值函数,传给improvement过程,而improvement过程根据这个值函数做一个贪婪的policy,返回给evaluation过程。下面看一下为什么贪婪的反馈能够得到一个optimal policy。 [Read More]