クラスタリング

今回はクラスタリングについて
 

 ・教師あり/なし学習とは

 ・クラスタリングの種類

 

 
◎教師あり学習と教師なし学習
教師あり学習は,「データ」と(正解)のペアを与えて,それをもとに学習する方法
例えば「データ」と(教師データ)を与えて,それをもとにあるレビューがポジティブな反応なのかネガティブな反応なのか見るとき,
 
「いい」「楽しい」→これは(ポジティブな言葉)
「よくない」「辛い」→これは(ネガティブな言葉)
 
を事前に人間が学習器に与えておくということ.
たくさん与えて,データと正解のペアをよく観察して共通する特徴を見つけ出す,「こういう特徴のある文字列なら,ポジティブな言葉だ」というルールを見つけるということ
 
よく挙げられるのは文字認識や,音声,動画.
 
 
 
教師なし学習は,「データ」はあるけれど,(正解)はない
未来の予測や,推論,など正解がない,正解が分からない問題で学習すること
機械自身がなんらかの定義,規則性を発見する
 
クラスタリングは教師なし学習!
 

オンライン学習

今回は,オンライン学習について勉強したので,そのメモ
 
◎オンライン学習とは,
「逐次的に学習する機械学習アルゴリズム
らしい
 
比較すると,
すべてのデータを全部見てから解を出す→バッチ学習
動的に学習して解を出す→オンライン学習
 
具体例を挙げてみると,
2017年毎日日記をつけていて,日記の中から頻出する言葉を見つけたいとき
 
365日分の日記を全部読んでから頻出語を見つける→バッチ学習
1日ごと頻出語を見つけ,更新する→オンライン学習
 
 
◎オンライン学習の特徴は
・各データを観測し,すぐパラメータを更新する
 →データが与えられるたびに,与えられたデータのみを用いて学習する
 
・データを保存しておく必要がない
 →データを1個ずつ学習するから,永遠的にデータが生成される環境下での学習に最適
  例えばツイッターとか?
 
・学習が収束しやすい
 →これは1回の学習に使うデータが小さいから?
 
・全データに対して,最適な結果を学習することができない
 →1個ずつ学習しているから仕方ない
 
・実験が簡単
 
バッチ学習だと,学習済みのモデルは,更新したいってなったら
もう一度モデルの組み直しをしないといけないけど
オンライン学習だと,データごとにモデルの更新を行うから
環境の変化に敏感だってことね
環境の変化が少ないところでは意味がないってこと

MeCabとRMeCabのインストール

今回やること

形態素解析を行うMeCabをインストールし,

・さらにRからMeCabを操作するためのパッケージであるRMeCabをインストールする

 
 
 
そもそも形態素解析とは
テキストを,意味の最小の単位に分割すること.
形態素解析では,意味の最小の単位に分けると同時に,それぞれの最小単位の品詞を特定することまで行われる.
 
これをやってくれるのがMeCab
MeCabの詳しい説明はこちらを参考に
 
MeCabのインストール
 
1.このページから[mecab-0.996.tar.gz]をダウンロード
2.MeCab用の辞書をダウンロード
  今回は,IPA辞書を使うことにしました
 
MeCabのインストール

 % tar zxfv mecab-0.996.tar.gz
 % cd mecab-0.996.tar.gz
 % ./configure 
 % make
 % make check
 % su
 # make install
・辞書のインストール

% tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
% mecab-ipadic-2.7.0-20070801
% ./configure
% make
% su
# make install
②RMeCabのインストール
1.Rを起動
2.以下のコードをうつ
 
 

install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")
 

Rのインストール

RとR studioのインストールについて
 
バージョンは以下の通り
Mac OS X EI Capitan (10.11.6)
R 3.4.3
R Studio 1.1.383
 
 
Rの導入
 
このページから[Download R for (Mac) OS X]をクリック
 
今回は,「R-3.4.3.pkg」このパッケージをインストールしました.
 
 
1.ファイルのダウンロード
2.ダウンロードした R-3.4.3.pkg をクリック

3.インストールが始まる

 

 

R studioの導入

 

このページから「RStudio 1.1.383 - Mac OS X 10.6+(64ビット)」をクリック

 

1.ファイルのダウンロード
2.ダウンロードした RStudio 1.1.383.dmg をクリック

3.インストールが始まる