スポンサーリンク

【コピペOK】CentOSにCaboChaを4ステップでインストールする手順【Pythonのソースコードあり】

★悩み★
・ある単語に修飾している単語を抽出する方法が分からない。
・CentOSにCaboChaをインストールする方法が分からない。
・PythonでCaboChaを使いたいけど方法が分からない。

こういった「悩み」に答えます。

★本記事の内容★
1. 「係り受け解析器」のCaboChaのご紹介
2. CaboChaのインストール手順【コピペでOK】
3. CaboChaの動作確認【コピペでOK】
4. PythonでCaboChaを使用【ソースコードあり】

この記事を書いている筆者は、約5年間、CaboChaを使い込んでいます。
CaboChaの使用歴が長いため、今までに数回ほどCentOSにCaboChaをインストールしたことがあります。
2〜3回ほどCentOSにCaboChaをインストールした際に、毎回「CaboCha インストール 手順」とGoogle検索し、時間を無駄にしていることに気づきました。
そんなことに気づいた筆者は、コピペでCaboChaをインストールする手順書を執筆するに至りました。

今回は、「コピペでCentOSにCaboChaをインストールする手順」に関して分かりやすく解説してきます。

「係り受け解析器」のCaboChaのご紹介

「おいしいりんごを食べた」という文があった場合、「りんご」に修飾している単語を見つける方法として、「係り受け解析」があります。
「係り受け解析」を行うことで、「おいしい」が「りんご」に修飾していることが分かります。

この「係り受け解析」を実現できるソフトウェアとして、「CaboCha」があります。
「CaboCha」の特徴は、以下のように明言されています。

・Support Vector Machines (SVMs) に基づく, 高性能な係り受け解析器
・SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用
・IREX の定義による固有表現解析が可能

http://taku910.github.io/cabocha/

CaboCha内部に実装された高速なアルゴリズムによって、「高速」にかつ「高性能」に係り受け解析をすることができます。
「日本語に対する係り受け解析をしたい!」といった場合、「CaboCha」が採用されるケースが多々あります

CentOSにCaboChaを4ステップでインストールする手順

では、コピペベースで「CaboChaをインストールする手順」に関してご紹介します。
ChaboChaをインストールする手順は、わずか「4つ」の手順です。
ご紹介する全ての手順は、コピペをするだけなので、10分もかからず、CaboChaをCentOSにインストールすることができます。

また、以下の点にお気をつけください。

CaboChaを利用する場合、Mecabがインストールされている必要があります。
Mecabをインストールされていない方は、CentOSにMecabをインストールする手順【Pythonのソースコードあり】を参考にしてください。
4手順でMecabをインストールすることができます。

下記にご紹介します手順は、CentOS上の「端末」アプリケーションとWebブラウザ(FireFoxなど)で実施します。
CentOSにて、「端末」アプリケーションとWebブラウザの起動をしてください。

CRF++のダウンロード

まずは、CRF++(確率モデルの一種です。)の資材をダウンロードするために、以下のコマンドを実行します。

# wget "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7QVR6VXJ5dWExSTQ" -O CRF++-0.58.tar.gz

CRF++のインストール

続いて、CRF++をCentOSにインストールするために、以下のコマンドを順に実行します。

# tar zxfv CRF++-0.58.tar.gz
# cd CRF++-0.58
# ./configure
# make
# make install

CaboChaの資材をダウンロード

次に、CaboChaの資材をダウンロードするために、Webブラウザを起動します。
起動後、Webブラウザで「https://taku910.github.io/cabocha/」へアクセスしましょう。

下図の「こちら」(下図の赤枠部分)をクリックします。

次に最新版のCaboCha資材(下図の赤枠部分)をクリックし、ダウンロードします。

今回は、「cabocha-0.69.tar.bz2」をダウンロードしました。

CaboChaのインストール

続いて、CaboChaのインストールを行うために、以下のコマンドを順に実行します。

# bzip2 -dc cabocha-0.69.tar.bz2 | tar xvf -
# cd cabocha-0.69
# ./configure --with-mecab-config=`which mecab-config` --with-charset=UTF8
# make
# make install

上記の4手順を実施することで、CentOSにCaboChaをインストールすることができました。

インストールしたCaboChaの動作確認

次は、CentOSにCaboChaが正常にインストールされたことを確認し、動作確認をしてきましょう。

CaboChaのインストール確認

CentOSにCaboChaが正常にインストールされたかを確認するために、以下のコマンドを実行します。

# which cabocha
/usr/local/bin/cabocha

上記のような実行結果の場合、CaboChaが正常にインストールできたと考えられます。
下記のような実行結果である場合、CaboChaが正常にインストールできていないと判断ができます。

# which cabocha
/usr/bin/which: no cabocha in ~~~~~

CaboChaの動作確認

CaboChaを起動し、例文「CentOSにCaboChaのインストールができました。」を入力して見ましょう。

# cabocha
CentOSにCaboChaのインストールができました。
      CentOSに-----D
       CaboChaの-D |
    インストールが-D
        できました。
EOS

上記のように例文「CentOSにCaboChaのインストールができました。」をCaboChaを用いて係り受け解析をすることができました。

PythonでCaboChaを使用する手順【ソースコードあり】

データ分析をする上で、プログラミング言語の一つである「Python」を使用する人が多いと思います。
ここからは、PythonでCaboChaを利用する方法についてご紹介します。

Pythonをインストールされていない方は、以下の記事をご覧ください。簡単にPythonをインストールできます。

PythonのCaboChaライブラリをインストール

PythonでCaboChaを使用するためには、「cabocha-python」というライブラリが必要です。
cabocha-python」をインストールするために、以下のコマンドを実行しましょう。

git clone https://github.com/taku910/cabocha
cd cabocha
pip install python/
pip install git+https://github.com/kenkov/cabocha@0.1.4

参照:https://github.com/kenkov/cabocha

cabocha-python」正常にインストールされたことを確認するために、以下のコマンドを実行しましょう。

# pip list | grep cabocha
cabocha-python (0.69)

上記のように出力されれば、「cabocha-python」が正常にインストールされたことが分かります。

PythonでCaboChaを使った係り受け解析

最後に、PythonでCaboChaを使った形態素解析を行いましょう。
CaboChaを使ったPythonのソースコードは、以下のようになります。

import CaboCha

c = CaboCha.Parser()
text = "CentOSにCaboChaのインストールができました。"
print(c.parseToString(text))

上記のソースコードをcabocha_test.pyというファイル名で保存しましょう。
その後、cabocha_test.pyを実行するために、以下のコマンドを実行します。

# python cabocha_test.py 
      CentOSに-----D
       CaboChaの-D |
    インストールが-D
        できました。
EOS

以上のようにPythonからもCaboChaを用いた形態素解析ができましたね!

python cabocha_test.pyを実行時に以下のエラーが発生する場合があります。
<エラー内容>
 ImportError: libcabocha.so.5

上記エラーが発生した場合は、以下の対処を行なってください。
<対処>
端末上で以下のコマンドを順に実行します。
# echo “/usr/local/lib” >> /etc/ld.so.conf
# ldconfig

【まとめ】CentOSにCaboChaを4ステップでインストールする手順

今回の記事を通して、コピペベースでCaboChaをインストールし、PythonでCaboChaを使用することができる手順をご紹介することで、以下の悩みを解消しました。

★悩み★
・ある単語に修飾している単語を抽出する方法が分からない。
・CentOSにCaboChaをインストールする方法が分からない。
・PythonでCaboChaを使いたいけど方法が分からない。

CentOSにCaboChaをインストールすることに困っているあなた」や「PythonでCaboChaを使用するのに困っているあなた」にこの記事が少しでも役に立てれば幸いです。

コメント

タイトルとURLをコピーしました