rank-boost 研究

論文の修正 数値実験。ranking の absolute loss 評価と、確率の差を出力するようにプログラムを変更して走らせています。

原稿の校正

func-svm.r バグ修正

R-code の func-svm.r を修正。multiple quantile set の繰り返し計算に対応させたい。まだバグあり。

top problem の数値実験を走らせました。計算機の不具合もあり、結果の出力は明日以降になりそうです。 confidence interval の推定誤差をどう測るのがいいのでしょうか? 昨晩、nonconvex quadratic optimization の短い論文を1本読みました。かなり特殊な…

nonconvex quadratic programming として定式化されます。そのあたりの研究は現在、どのくらいまで進んでいるのか確認する必要があります。 校正しました。

rank-svm の正当化のための理論について書きました。 一通り書いて、エグタケに送りました。 scale function の推定について、数値実験をしてみると、指定する quantile の数が増えると、推定精度が向上することが確認できました。数は増やさず、quantile を…

rank-svm で confidence interval に対する一致性について考えていました。unbias になるような分布の存在範囲を明確にしました。結果的に簡単に導出できました。最初から考えるべき方針だったと思うが、手を汚したからこその収穫だとも思う。どれほど年齢を…

異なる quantile 間の decision function の関係を明確にして、論文に書きました。これで rank-svm は、近似が入るものの、自然に導出することができたと言えます。Logistic の一致性をもとにして、bias は入るが stable estimate を実現するのもとして、hin…

ranking の conf-est で scaling を導入していましたがあまり精度が良くなく、考え直して code を書き直す。(b-f)/s なので、b r - g として 最初に r=1 で解いて、あとから r を計算しなおす、としていたが、これではダメで、(b-f) r と思って計算すればよ…

Cumulative loss の consistency について考察しました。Hinge loss のとき、Q = s(b-f) = s_q(b-f-sigma) を満たす分布が存在することを構成的に示しました。したがって、Q が特殊な場合には bias が生じないことが理解されました。 U(g,Q) の一致性 Q=s(g)…

R-code修正と論文書き。数値実験以外は書きました。 TODO: 関数近似の Asymptotics. 当分の間、共著者に投げておいてもいいでしょう。

論文書き。Asymmetric cost は cost-sensitive と同じような意味と思うが、考え方としては当たり前なので、どの論文を引用していいのかよく分かりません。 Li and Lin に対するちょっとした拡張を積み重ねています。 関数近似の話が数学的にきちんと完成すれ…

consistent になる統計モデルを同定した。そのもとで error ratio の収束性は証明できる。 課題は、 で のときの error ratio の収束性の証明。これはそれほど自明ではないと思うが、関数解析の知識があれば出来る話でしょう。 R code で object を学習。こ…

Location-scale にもとづく rank-SVM を R で coding しました。バグなどがるかもしれませんが、動いています。f+b_y model のもとでは、scaling なしの SVM とほとんど同じ信頼区間を構成しています。

K&T が rank-svm に適用可能であることが分かり、texにまとめました。エグタケに送りました。 McCullagh の論文に scaling が載っているらしいのでチェックする必要があります。

モデルを拡張しました。拡張したモデルを学習するための計算法を考えました。SVM + LP iteration。 texにまとめてエグタケに送りました。

confSVMの計算時間を短縮する必要があります。 簡単な話ですが、Li and Lin をわれわれの枠組で理解できました。

いろいろ細かい修正をしました。 単純な多値を思うと、あたりまえですが全然うまくいきません。このような例を加えました。 R code を整理しました。boost も組みます。boost はノイズの影響をかなり受けるようです。

boost でも出来ることが分かりました。なぜ最初に計算しなかったのか不思議なくらい簡単に導出できましたが、ミスがあるかもしれません。要確認。

ひととおり tex打ちをして、エグタケに送りました。書くことで思考が明確になり、理解が深まりました。

昨日の課題は昨日の晩に証明して今日tex打ちしました。証明は convex matrix の場合とほぼ同じです。 Dual form が少し変わるので計算をやりなおします。Primal を入力すると Dual を出力してくれる数式処理システムがほしい。

confidence は parametric opt. でやろうとおもいましたが、止めました。理由は以下のとおり。 quantile と confidence set が consistent でないことがある。cf. quantile regression with parametric optimization computation will be unstable, in parti…

引き続き、えぐメモの周辺を検討しています。微分不可能な損失から導出される推定量の挙動を具体例で詳細に追っています。事例分析的に場合分けをする必要があり、かなり大変でまだ途中です。 少し理解が進みました。ラベル数 3 で計算しているのですが、こ…

いくつか計算するも、進展せず。 えぐメモが届きました。大きなヒントになりそうなことが書かれています。 ranking は、思ったよりはるかに奥が深いことを認識しつつあります。モデルが真を含まない状況での推定量の挙動が、binary とはちょっと違うようです…

領域に対する non-parametric consistency。当初思ったほど強い定理ではないが、一応できました。もうすこし整備する必要があります。 うまく出来たと思ったが、いろいろミスあり。主張しようと思っていたことは成立しないようです。そうこうしているうちに…

期待値の推定を考えてみる。どのような母集団分布に対しても一致性をもつ推定量は、サンプル平均しかありません。 同じことを ordinary regression でやるわけです。結果をレジメにまとめています。

すでに boost は関係なくなってきています。 reduction の枠組を越えることは難しそうです。2年ほどまえに(我々以外に)考えていた人々がいたのですね。 まだ、すべきことはあります。 loss function and probability estimation modeling parametric optimiz…

reduction について調べました。整備された話があるようです。