题目：A Variance Minimization Approach to  Off-policy Temporal-Difference Learning
摘要：
在本文中，我们介绍了通过引入一个新的参数来提高参数化时序差分学习算法的性能的思想，文中称这个新的参数为方差最小化参数，并且该参数在每一时间步上动态更新。特别的，我们将方差最小化参数引入到非策略算法，如TDC和ETD，中去，得到variance minimization TDC算法和Variance minimization ETD算法。本文在特定评估实验环境中计算算法关键矩阵的最小特征值来分析算法的收敛速度，并通过实验得到验证。在控制实验中，variance minimization算法拥有更好的性能。

In this paper, we introduce the concept of improving the performance of parametric Temporal-Difference (TD) learning algorithms by the variance minimization parameter, which is dynamically updated at each time step. Specifically, we incorporate the variance minimization parameter into off-policy algorithms such as TDC and ETD, resulting in the Variance Minimization TDC algorithm and the Variance Minimization ETD algorithm.We analyze the convergence speed of these algorithms by calculating the minimum eigenvalue of the key matrices in a specific evaluation experimental environment and validate the results through experiments.In controlled experiments, the variance minimization algorithms demonstrate superior performance.

background：
1）简单介绍怎么从onpolicy变为offpolicy
计算两状态的最小特征值
2）介绍TDC和ETD
offpolicy TD发散
TDC从MSPBE角度出发解决发散
ETD从构造正定矩阵解决发散
计算两状态的最小特征值
3）引用，矩阵的最小特征值
说明ETD最快
如何找出收敛速度更快的算法
结束

On-policy和off-policy算法是当前研究的热门话题。尤其是off-policy算法，由于其收敛性更难以保证，使得研究更具挑战性。两者的主要区别在于，on-policy算法在学习过程中，行为策略与目标策略相同，算法直接从当前策略生成数据并进行优化。而在off-policy算法中，行为策略与目标策略不同，算法利用从行为策略生成的数据来优化目标策略，这带来了更高的样本效率和复杂的稳定性问题。
以TD(0)算法为例，可以帮助理解on-policy和off-policy的不同表现：
在on-policy TD(0)算法中，行为策略和目标策略是相同的。算法使用当前策略生成的数据来更新自身的价值估计。由于行为策略与目标策略一致，TD(0)的收敛性比较有保障。算法在每一步更新时，都是基于当前策略的实际行为，这使得价值函数的估计逐渐收敛于目标策略的真实价值。
on policy TD(0)更新公式如下：
on policy TD(0)的公式
给出on policy TD(0)的A的公式推导
从数学的角度分析，行和＋列和大于0，则A正定，即on policy TD(0)稳定收敛。

在off-policy TD(0)算法中，行为策略与目标策略不同。算法利用从行为策略生成的数据来估计目标策略的价值。由于行为策略和目标策略之间存在差异，TD(0)算法面临着额外的挑战：
数据分布不匹配：行为策略生成的数据与目标策略的数据分布不同，这会导致估计偏差和方差增大，从而影响收敛性。
重要性采样的高方差：off-policy TD(0)通常需要使用重要性采样来调整数据分布。如果重要性采样的权重过大，可能会导致高方差，进而使得算法难以收敛。
off policy TD(0)更新公式如下：
off policy TD(0)的公式
给出off policy TD(0)的A的公式推导
从数学的角度分析，行和＋列和小于0，则A非正定，即off policy TD(0)收敛不稳定。
在2-state counterexample中，A=[-0.2]

TDC和ETD是两个著名的offpolicy算法，前者由目标函数MSPBE推导得出的offpolicy算法，后者则通过技巧将原本offpolicy TD(0)的A由非正定转变为正定，从而使得算法在offpolicy下收敛。
带有重要性采样的MSPBE公式如下：
带有重要性采样的MSPBE的公式（看那个博士论文）
带有重要性采样的TDC的更新公式如下：
带有重要性采样的TDC的更新公式（看那个博士论文）
给出TDC的A的公式推导
在2-state counterexample中，A=[0.016]

ETD更新公式如下：
ETD的公式
给出ETD的A的公式推导
从数学的角度分析，行和＋列和大于0，则A正定，即ETD稳定收敛。
在2-state counterexample中，A=[??]

陈老师arxiv那篇论文中的定理描述，得到算法的收敛速度跟矩阵A有关系，A的最小特征值越大，收敛速度越快。
由于在2-state中，ETD的矩阵A的最小特征值最大，因此收敛速度最快。基于这个定理，我们是否可以推导出矩阵A最小特征值越大的算法？


Variance Minimization Algorithms
其他都是误差最小化
我们提出方差最小化
控制算法去掉
可以在实验部分提一下
算法的伪代码可能也需要去掉
需要A的计算过程，并且带入到2-state具体计算
需要一个表格，总结一下四个算法的最小特征值

为了推导出矩阵A最小特征值越大的算法，我们有必要提出新的目标函数。
The mentioned objective functions in Introduction are all some form
of error. Is minimizing error the only option for value-based
reinforcement learning?
Based on this observation, we propose alternate objec-
tive functions instead of minimizing errors. We minimize
Variance of Projected Bellman Error (VPBE)  and derive the VMTDC algorithm.
并将此想法对ETD进行创新，得出VMETD算法。

表格总结：表1展示了四种算法关键矩阵A的最小特征值，VMTDC的最小特征是大于TDC，VMTDC的收敛速度比TDC快在后文的实验中得到验证。ETD的最小特征值大于VMETD，但后文实验表明VMETD的稳定性由于ETD。


Theoretical Analysis
1）VMTDC收敛性，证明简要说，具体放到附录
2）VMETD收敛性，证明简要说，具体放到附录
3）策略不变性

实验：
评估：2-state 7-state
控制：maze cliffwalking mt acrobot
实验环境具体介绍：放到附录

Reproducibility Checklist
把nips模板复制过来

总结：
本文主要研究线性近似下的offpolicy算法的研究。基于陈的定理，算法的关键矩阵的最小特征值越大算法收敛速度越快的结论，我们提出了一个新的目标函数——VPBE，并推导出VMTDC。VMTDC比TDC多一个动态更新的标量参数，我们将该想法引入到ETD中得到VMETD。通过数值分析和实验发现VM算法有着更优越的性能或者收敛更稳定。
Future work may include, but are not limited
to, (1) 将标量参数引入到更多的TD算法中. 
(2) extensions of VMTDC and VMETD to multi-step returns. 
(3) extensions to nonlinear approximations, such as neural networks. 


对于评估实验，实验结果与我们上分分析的结果一样，在2-state counterexample环境中，TDC的关键矩阵的最小特征最小，因此收敛速度最慢，相比之下，VMTDC的最小特征值更大，因此收敛速度更快。虽然VMETD的最小特征值比ETD要大使得在2-state counterexample中收敛速度慢于ETD，但VMETD的阴影部分（std）小于ETD，意味着VMETD收敛更加平稳。


对于控制实验，迷宫和cliff walking的实验结果相似，VMGQ表现优于GQ，EQ表现优于VMGQ，而VMEQ的性能最优。
mountain car和Acrobot的实验结果相似，VMGQ和VMEQ的性能接近都优于GQ和EQ。总之对于控制实验，VM算法优于非VM算法