研究

■

ゼミ

B4：文字認識のラベルつきデータのラベルを見ないで、どの程度クラスタリングできるかを試している。目的はクラスタ数の推定なのだが、今のところ、あまりうまくいっていない。DDgap, X-means など。DDgap は Stanford 軍団、X-means は CMU 軍団からの提案。いきなりアルファベット 26文字のクラスタリングをするのではなく、とりあえず、2つのアルファベットのクラスタリングがうまくいくかどうか?

- クラスタリングは目的が漠然としている気がするので、数値実験をしてみてもうまくいっているかどうかの判断が難しい。2次元データなどで、人の直観と合うかどうかという基準では心許ない。基準の構成は置いておいて、ラベルありデータをラベル無しと思ってクラスタリングしてみよう、という話であった。これなら(一応の)正解らしきものはある。

- 理論的に non-parametric clustering などは考えることはできると思うが、そのあたりはどこまで話が進んでいるのだろうか?

- 密度関数 p のクラスタ数を、pを単峰な密度の mixture で書いたときの最小コンポーネント数と定義する。(普通クラスタはデータに対して定義するが、いまは違う。) セミパラの設定で、この定義でのクラスタ数に対する一致推定量は構成できるだろうか? などは興味深い問題と思われるが B4くんには難しいか。パラメトリックモデルで、Gaussian mixture のコンポーネント数に対しては一致推定量はある。セミパラで、上のように定義したクラスタ数に対してはどうか?

- 考えてみれば Gaussian mixture でも単峰になることはあるので、その場合クラスタ数としてはどう考えるのが自然か? Gaussian mixture のコンポーネント数の検定などはあるが、単峰かどうかの検定も、きっとあるのだろう。

M2：(この近辺では大手の)塾から提供してもらった過去の模試データやその他のデータから、各生徒の合格率を予測する。もちろん個人名までは提供されない。入試制度は毎年細かく変わるので、モデリングが難しい。実データにしては意味不明な欠損データや外れ値はほとんどなく、その意味では扱いやすい(たぶんデータ提供者のご苦労があるのでは)。