cov-shift 研究

closed seminar で話しました。貴重な意見をいろいろ頂きました。今後の研究に生かしたいと思います。 outlier detection. binary classification との評価法の違いを確認して明確にする。 重み付き最小2乗法によるバイアス補正と分散安定化の関係。

cov-shift について、C++でプログラムを組んでくれた人に感謝します。 kernel version は Nystrom を使って計算を高速化できます。Gaussian Process と同じ。

衝撃リザルトについては理解しつつあります。 昔、Efron が正規判別分析で似たようなことを計算している:その結論は joint を推定したほうがよい、というもの。今ならその理由がかなり明確に分かります。p(y|x) のモデル既知と、p(x|y) のモデル既知では、…

衝撃リザルト。 おそらく、Nguyen-log は optimal ではなく、さらに exp.family だと nuisance parameter が直交して information loss がない。でも一般のモデルでも直交していそうな気もする。分からない。 計算はしましたが、理解には程遠いです。

関数の集合を変換したとき、bracketing entropy がどのように変化するかについて、考えています。過去にメモした証明は厳密でなかったようで、相当に細かいところまで詰めて、どうにか出来たかもしれません。 厳密でなかったところ: v が Gaussian RKHS の…

T-プラ 準備 正則化項つき KMM を squared loss から導出しました。

会議@台北の準備

カナダ準備。一通り完成しました。週末に詳細を詰めます。 これは同時に台湾準備でもあります。

会議準備

以下の補題を使いました。 Let be positive numbers such that , and let . Then, there is no satisfying the following three conditions, , , . proof: We suppose that satisfies the three conditions. The inequality clearly holds, and thus, holds.…

原稿を修正しました。修正した不等式は、テストデータにも依存する上界になっています。

p>0: prob, ε0 となる x が存在しないことを証明しました。これを使って upper bound を導出しようと考えています。 数値的には大抵成立している を仮定したくなくて、上記の不等式を証明してみました。

証明のミスについて考えていて、ほとんど研究会@ISMの話は聞いていませんでした。

Dr.ズッキーの貢献をメモに加えました。 H+R のときの KMM はすこし工夫が必要のようです。そもそも H+R は RKHSでない気がする。

関数解析を復習しました。 Dual space of L_1 is L_inf if domain is sigma-finite. Moreover, if the domain is locally compact, C_0 is dense in L_p (p1). l(f)=0 for any l in L^* implies f=0 due to the Hahn-Banach theorem. などを使うと、we can d…

locally compact (sigma-finiteでもいいらしい) なら L_1 の dual space は L_∞ であることを使い、 KMMの制約がなくても最適解が所望のものになることを証明しました。関数解析について系統立って勉強をしていないので、標準的な証明法かどうか分かりません…

dual で考えて、dual representation を Gâteaux derivative にもつ functional は 一意 up to constant、であることを認識しつつあります。厳密な証明はすぐに出来そうです。

カーネルシフ

k-ルシフと k-mm では考え方が違い、推定量の構成法も異なるが、いろいろ計算していたら(正則化項を別にして)全く同じ式が出てきた。解釈が違うので結果の使い方が異なる。 これは、追求する意味が大いにありそうです。式が意味するところを理解して、両者の…

論文の校正をして共著者に送りました。新たに 2,3の補題や定理を加えました。 normalized-difference-measure の sigma に対する dependency を導出できたのは良かったです。kernel width が大きいときには、どのような推定をしても、どれも一様な推定結果を…

Kernel化。線形方程式について、解析的に分かる部分がかなりある。計算量を削減する上で重要な事実を認識しました。

Gauss kernel での収束性の証明を考えています。Geer 本を使って考えています。Nguyenらの論文だと I(w) が reg. term に対応していますが、この対応に必然性はないと思う。I(w) と reg.term がずれていても証明はできるはず。Order がそれに伴って変わるこ…

kernel 化について考え、consistency を証明するために少し計算をしました。RKHS_Gaussian kernel + R(適当な制約) という関数空間での covering number と uniform convergence について考えつつあります。 2sample test について、メモにあった typo を修…

A normalized difference measure is defined, and an upper bound is derived. The upper bound quatitatively explains the results of numerical simulations.

カーネル化と LOOCV まとめ。次は consistency、rate of convergence。 返答を書きました。

LOOCVで計算ミスあり。深刻な間違いではなく、簡単に修正できました。

kernel化。 LOOCVもOKらしい。 998次元線形方程式を1000回解く代わりに 2次元線形方程式を1000回解けばよい。 詳細を確認する必要があるが、これは good news。

Kernel化。サンプルに依存して正確に feasible region を求めようと考えましたが、できていません。 正確でなければ、緩和の一種とかんがえられるような簡単な方法でよいと思います。定数項も入れて SMO が使える形になりました。 Consistency の証明はでき…

Geer本 Lemma 5.11, 5.13 を復習。empirical process の 連続性。近傍をサンプル数に従って小さくするテクニック。Nguyen 論文の最後の定理の証明をフォローしました。自分でも使えるようになってきました。 正則化がある場合のノンパラ推定の精度評価。

two samples test. Geer 本などを参照して gaussian process indexed by functions の extremal distribution について調べ、結果をまとめ、送りました。 KS-test は設定が単純で ULLN などの結果を直接適用できるので、pivoting できるわけだが、いまの設定…

non-para two sample test with importance。Geer 本にある結果を使えば、正則化なし推定なら p-value を出せそうです。n_te は O(n_tr) より大きく O(n_tr^2) 以下で、意味ある結果になります。応用を考えると、妥当な仮定と言えます。 正則化項ありにする…