• M2:高校入試関連データ。隠れ変数のある離散確率分布(5段階評価の分布)の推定を EM-like な計算で求めます(これはこれで面白い話と思っているので、いずれ一般化したい)。尤度が既知の量だけで表現できるように、いくつか仮定を置きました。そのなかで若干データとは合わなそうなものがありますので、そこは修正すべきです。
    • 定量を計算するために、制約付きの EM-algorithm を走らせる必要がありました。うまい具合に式変形できて、制約を log-barrier 的に扱うことで、実用的な計算法を導出しました。R の constrOptim よりも 1000倍くらい速いです。EM は一般に 1次収束の algorithm ですが、理論と実装の間に大きなギャップがあるようです。実用上は、1次収束だからダメとは一概に言えないようです。
  • B4:k-means による分類のクラスタ数を推定する問題について、研究を進めています。卒論の構成についてコメントしました。研究の目的を明確にして下さい。それを踏まえて、いろいろやった数値実験について考察して、結論を出して下さい。
    • セミパラの枠組におけるクラスタ数の決定というのは、数学的に厳密に出来る話だと、自分では思っています。もちろん誰かがすでに、数理的にきちんとやっているのでしょう。とは言っても、Gaussian mixture の component 数に対する一致推定量の提案も、すごく古い話という訳ではありません。来年度の卒論生が興味を持ってくれたら、このあたりの続きを考えたいです。