• 午後は、Nguyen, et al. をじっくり読みました。X_1,\ldots,X_n\sim Q,\, Y_1,\ldots, Y_n\sim Pのサンプルから KL(P|Q) を推定しようという話。f-divergence と思って、その dual を考えるのだが、このとき最適解として importance ratio が得られる。Non-parametric の設定での convergence rate を計算するのに、若干の empirical process の知識が必要になる。
  • Empirical process における \varepsilon-entropy と uniform convergence の関連にはいくつか種類があり、知らないタイプのものが適用されていたので、完全に理解するためにはさらに勉強が必要になりそうである。Donsker-classを復習しておくか。
  • 論文の前半では、ある種の\varepsilon-entropy が有界という条件のもとで、推定結果の convergence を証明している。Entropyが有界なので、平滑化パラメータの選択をあまり頑張る必要のない設定であろう。実際、論文中の推定量には正則化項は存在しない。このような比較的簡単な状況をまず考えるのは、後々、entropy が発散していて正則化が効いてくる状況を考えるための準備のようだ。
  • 続きは明日。