クラスタリング

今回はクラスタリングについて
 

 ・教師あり/なし学習とは

 ・クラスタリングの種類

 

 
◎教師あり学習と教師なし学習
教師あり学習は,「データ」と(正解)のペアを与えて,それをもとに学習する方法
例えば「データ」と(教師データ)を与えて,それをもとにあるレビューがポジティブな反応なのかネガティブな反応なのか見るとき,
 
「いい」「楽しい」→これは(ポジティブな言葉)
「よくない」「辛い」→これは(ネガティブな言葉)
 
を事前に人間が学習器に与えておくということ.
たくさん与えて,データと正解のペアをよく観察して共通する特徴を見つけ出す,「こういう特徴のある文字列なら,ポジティブな言葉だ」というルールを見つけるということ
 
よく挙げられるのは文字認識や,音声,動画.
 
 
 
教師なし学習は,「データ」はあるけれど,(正解)はない
未来の予測や,推論,など正解がない,正解が分からない問題で学習すること
機械自身がなんらかの定義,規則性を発見する
 
クラスタリングは教師なし学習!
 

 

与えられた「データ」をいくつかのグループに分類するアルゴリズムのこと与えられた各データが,どのくらい似ているのかという指標(類似度)を計算して,似ているデータをまとめる(分ける)ことによって実現
 
クラスタリングの手法は大きく2つに分けられる
階層的手法 (hierarchical method) ・・・最短距離法など
非階層的手法 (non-hierarchical method) ・・・k-means法など
 
階層的手法は,さらに分割型 (divisive) と凝集型 (agglomerative) に分けられる
 
 
◼階層的手法(ここではWard法)
→近いものから順番にくくる
凝集型

①N 個の対象からなるデータが与えられる
②1個の対象だけを含む N 個のクラスタがある初期状態を作る
③対象 x1 と x2 の間の距離 d(x1,x2) (非類似度)からクラスタ間の距離 d(C1,C2) を計算する
④最もこの距離の近い二つのクラスタを逐次的にひもづける
⑤全ての対象が一つのクラスタにひもづけられるまで繰り返す
 
Ward 法は,各対象から,その対象を含むクラスタのセントロイドまでの距離の二乗の総和を最小化する
 
 
◼非階層的手法(ここではk-means法)
→あらかじめ分類する数を決める
 
①N 個の対象からなるデータが与えられる
②核とする任意のk個のデータを選ぶ(これが初期状態)
③N個のデータを,k個の核のうち最も近い核にひもづける(この時点でN個はいずれかのk個の塊に分けられている)
④k個の核の塊のそれぞれの重心を求めて,その重心を新しい核とする
⑤N個を新しいk個の核に最も近い核とひもづけ,再び④を行う
⑥重心が移動しなくなるまで繰り返す