クラスタリング
今回はクラスタリングについて
◎教師あり学習と教師なし学習
教師あり学習は,「データ」と(正解)のペアを与えて,それをもとに学習する方法
例えば「データ」と(教師データ)を与えて,それをもとにあるレビューがポジティブな反応なのかネガティブな反応なのか見るとき,
「いい」「楽しい」→これは(ポジティブな言葉)
「よくない」「辛い」→これは(ネガティブな言葉)
を事前に人間が学習器に与えておくということ.
たくさん与えて,データと正解のペアをよく観察して共通する特徴を見つけ出す,「こういう特徴のある文字列なら,ポジティブな言葉だ」というルールを見つけるということ
よく挙げられるのは文字認識や,音声,動画.
教師なし学習は,「データ」はあるけれど,(正解)はない
未来の予測や,推論,など正解がない,正解が分からない問題で学習すること
機械自身がなんらかの定義,規則性を発見する
クラスタリングは教師なし学習!
オンライン学習
今回は,オンライン学習について勉強したので,そのメモ
◎オンライン学習とは,
らしい
比較すると,
すべてのデータを全部見てから解を出す→バッチ学習
動的に学習して解を出す→オンライン学習
具体例を挙げてみると,
2017年毎日日記をつけていて,日記の中から頻出する言葉を見つけたいとき
365日分の日記を全部読んでから頻出語を見つける→バッチ学習
1日ごと頻出語を見つけ,更新する→オンライン学習
◎オンライン学習の特徴は
・各データを観測し,すぐパラメータを更新する
→データが与えられるたびに,与えられたデータのみを用いて学習する
・データを保存しておく必要がない
→データを1個ずつ学習するから,永遠的にデータが生成される環境下での学習に最適
例えばツイッターとか?
・学習が収束しやすい
→これは1回の学習に使うデータが小さいから?
・全データに対して,最適な結果を学習することができない
→1個ずつ学習しているから仕方ない
・実験が簡単
バッチ学習だと,学習済みのモデルは,更新したいってなったら
もう一度モデルの組み直しをしないといけないけど
オンライン学習だと,データごとにモデルの更新を行うから
環境の変化に敏感だってことね
環境の変化が少ないところでは意味がないってこと
MeCabとRMeCabのインストール
今回やること
そもそも形態素解析とは
テキストを,意味の最小の単位に分割すること.形態素解析では,意味の最小の単位に分けると同時に,それぞれの最小単位の品詞を特定することまで行われる.
これをやってくれるのがMeCab.
①MeCabのインストール
2.MeCab用の辞書をダウンロード
今回は,IPA辞書を使うことにしました
・MeCabのインストール
% tar zxfv mecab-0.996.tar.gz
% cd mecab-0.996.tar.gz
% ./configure
% make
% make check
% su
# make install
・辞書のインストール
% tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
% mecab-ipadic-2.7.0-20070801
% ./configure
% make
% su
# make install
②RMeCabのインストール
1.Rを起動
2.以下のコードをうつ
install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")
Rのインストール
RとR studioのインストールについて
バージョンは以下の通り
Mac OS X EI Capitan (10.11.6)
R 3.4.3
R Studio 1.1.383
Rの公式サイト
Rの導入
今回は,「R-3.4.3.pkg」このパッケージをインストールしました.
1.ファイルのダウンロード
2.ダウンロードした R-3.4.3.pkg をクリック
3.インストールが始まる
R studioの導入
このページから「RStudio 1.1.383 - Mac OS X 10.6+(64ビット)」をクリック
1.ファイルのダウンロード
2.ダウンロードした RStudio 1.1.383.dmg をクリック
3.インストールが始まる