• B4:文字認識のラベルつきデータのラベルを見ないで、どの程度クラスタリングできるかを試している。目的はクラスタ数の推定なのだが、今のところ、あまりうまくいっていない。DDgap, X-means など。DDgap は Stanford 軍団、X-means は CMU 軍団からの提案。いきなりアルファベット 26文字のクラスタリングをするのではなく、とりあえず、2つのアルファベットのクラスタリングがうまくいくかどうか?
    • クラスタリングは目的が漠然としている気がするので、数値実験をしてみてもうまくいっているかどうかの判断が難しい。2次元データなどで、人の直観と合うかどうかという基準では心許ない。基準の構成は置いておいて、ラベルありデータをラベル無しと思ってクラスタリングしてみよう、という話であった。これなら(一応の)正解らしきものはある。
    • 理論的に non-parametric clustering などは考えることはできると思うが、そのあたりはどこまで話が進んでいるのだろうか?
    • 考えてみれば Gaussian mixture でも単峰になることはあるので、その場合クラスタ数としてはどう考えるのが自然か? Gaussian mixture のコンポーネント数の検定などはあるが、単峰かどうかの検定も、きっとあるのだろう。
  • M2:(この近辺では大手の)塾から提供してもらった過去の模試データやその他のデータから、各生徒の合格率を予測する。もちろん個人名までは提供されない。入試制度は毎年細かく変わるので、モデリングが難しい。実データにしては意味不明な欠損データや外れ値はほとんどなく、その意味では扱いやすい(たぶんデータ提供者のご苦労があるのでは)。