RMeCabでテキストマイニング

テキストマイニングとは、テキストをデータとして分類し、二値的に精査できるような形式にし直し解析を試みること。
我々ウェブディレクターは、ユーザの動きをアクセスデータとして理解していきますが、ユーザの思考をテキストデータとして理解していく試みがテキストマイニングになります。
近年では、SNS情報からテキストマイニングをおこない、ユーザの声なき声に耳を傾けようとする手段に用いられます。

ということで、RではテキストマイニングするためのツールとしてRmecabというパッケージがあります。

このインストール方法について紹介します。

インストール方法として大まかに以下の2段階で作業をしていく必要があります。

段階1)MeCabのインストール
段階2)辞書ファイルのインストール
段階3)Rmecabのインストール

そして、インストールファイルは以下に。
特に3段階目のRmecabファイルをダウンロードする場合は、バージョンが重要となりますので、バージョンにあったファイルが必要です。【これ重要!!】

MeCabバイナリファイル(mecab-0.98.tar.gz)
辞書ファイル(mecab-ipadic-2.7.0-20070801.tar.gz)
RMecabバイナリファイル
※私の環境は「R-2.15.2」なので、RMeCab_0.996.tgzをダウンロードしました。

段階1)MeCabのインストール
ターミナルを起動して、上記でダウンロードしたファイルを解凍します。

私の場合ダウンロードしたファイルは、/usr/local/src/に置きました。
cdコマンドで、ダウンロードした場所へ移動し、解凍します。

$tar zxvf mecab-python-0.98.tar

※zxvf以下は、解凍したいファイルを指定しています。

解凍後、「./configureファイルにアクセスする」旨のリファレンスが多いですが、解凍したファイルに、「./configure」ファイルはありません。
ここは無視して、辞書ファイルのインストールに移ります。

段階2)辞書ファイルのインストール
第1段階と同様に解凍していきます。
ダウンロードファイルはMeCab本体ファイル同様、/usr/local/src/に置きました。

$tar zxvf mecab-ipadic-2.7.0-20070801.tar

解凍後、cdで先ほど解凍したファイルへ移動。

$ cd mecab-ipadic-2.7.0-20070801

この中のconfigureファイルにアクセスします。

$ ./configure

その後、make関数を使っていきます。

$ make

が、make関数を使うには、Xcodeが必要となります。
Xcodeをインストールしていれば、勝手に入っているもんだと思っていましたが違いました。
Xcodeをインストールして、起動後、
メニューのXcode > Prefarences > DownLoads > Command Line Tools を選択してインストールします。

make関数での処理が終了した後、インストールします。
make install関数を使いますので、suでログインしてください。

$ su
# make install

suでログインできない場合は、rootユーザの権限の設定が必要となります。
$ su と入力すると、PassWordが求められるのが通常ですので、求められなければ未設定ということです。

無事、MeCabがインストールされているかチェックしてみましょう。

$mecab

対話型になるので、何か日本語入れてみます。

そして
そし? ????,????,*,*,*,*,*
? ̾??,??????³,*,*,*,*,*
EOS

しかし、上記にように文字化けが発生しますので、文字コード変換を行います。
辞書のコードをUTF-8形式に変換します。
※通常はEUC形式となっている。
【参考】http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html

$ /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8

変換後、再度試行。

そして
そして 接続詞,*,*,*,*,*,そして,ソシテ,ソシテ
EOS

以上で、MeCabのインストールが終了です。
続いて、RMeCabのインストールに入ります。

段階3)RMeCabのインストール
Rを起動 パッケージとデータ > パッケージインストーラ > このコンピュータ上のバイナリファイルパッケージを選択して、左下の「ユーザエリア」を選択して、右下のインストールをクリック。
先ほどダウンロードしたRMeCabを選択(私の場合は、RMeCab_0.996_R_x86_64-apple-darwin9.8.0.tar)。
問題がなくインストールできれば、以下の挙動をします。

> library(RMeCab)
> moji <- "そして" > RMeCabC(moji)
[[1]]
接続詞
“そして”

正直大変でした。
ターミナルとかも特に使っていなかったもんで、makeを使うのに一苦労。MeCabのインストールからRMeCabのインストールまで、さらにCRAN以外のパッケージのインストールと、とにかく勉強しなければいけないことが多くてアタフタでした。
早速、RMeCabで検索ワードの頻度分析でもやってみようと思います。

Leave a Reply

%d人のブロガーが「いいね」をつけました。