※内容が合っている保証は全くありません。
前方観測
価値関数が重みベクトル で関数近似されているものとする。
ステップ収益を考える。
これらを ] を使って重み付けして足し合わせた 収益を考える。
これをターゲットとして重みの更新を考えると、更新される量は以下のようになる。
後方観測
重みベクトル に対応した適格度トレース を考える。 の構成要素が推定価値の出力に寄与したとき、それに対応する が大きくなり、その後は徐々に小さくなっていく。
かつ、1ステップTD誤差
を考えたときに、更新が以下のようになる。
等価性の確認
前方観測と後方観測は一致するらしいが、上手く証明を見つけられなかった。時刻 の更新量そのもので一致するとは思えないので(見ているものが違うため)、重みを固定したときの1エピソード分の更新量の和が一致するのではないか?
以下、重みは固定として などは時刻に依存せず とする。
前方観測の更新量 を変形していく。
一般に初項 、公比 、項数 の等比数列の和を とすると なので、として
である。これを使うと以下のようにターゲットを 収益との差ではなく ステップ収益との差で表現できる。
次は に着目する。これを1ステップTD誤差 で表したい。
の両式から を展開していくと、以下のように変形できることがわかる。
よって
であり、
よって一致した。