【4手順】Linux(CentOS/Ubuntu)にMecabをインストールする

★悩み★
・形態素解析のためにMecabをLinuxにインストールしたい。
・CentOS(RHEL)やUbuntuにMecabをインストールする方法を知りたい。
・PythonでMecabを使いたい!具体的なプログラムを知りたい。



こういった「悩み」に答えます。
 

★本記事の内容★
① Mecabとは?
➁ LinuxにMecabをインストールする手順
➂ インストールしたMecabの動作を確認する方法
④ PythonでMecabを使用する方法



この記事を書いている筆者は、約7年間、Mecabを使い込んでいます。
Mecabの使用歴が長いため、今までに数十回ほどCentOSやUbuntuといったLinuxにMecabをインストールしたことがあります。

 

本記事の前半では、「そもそもMecabとはどういったソフトウェアなのか」に関して説明します。
後半では、「CentOS(RHEL)やUbuntuにMecabをインストールする手順」や「PythonでMecabを使う方法」に関して具体的なコマンドを交えて解説します。
 

本記事を読み終えることで、「日本語の文字列を分析できる環境」が整った状態になります。

 

Mecabとは?【形態素解析ができるソフトウェアです】

Mecabは、「自然言語処理の形態素解析」を実現できるソフトウェアになります。
Mecabの開発元である公式ページにおいては、下記のように説明されています。
 

MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。

Mecab公式サイト



Mecabを使うことで、下記のような「形態素解析」を実現できます。

% mecab
すもももももももものうち
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
参照先:http://taku910.github.io/mecab/



「形態素(言語で意味を持つ最小単位)」を抽出することができるMecabは、自然言語処理を扱うデータ分析では非常によく利用されるソフトウェアです。

 

LinuxにMecabをインストールする手順【4手順です】

CentOS(Red Hat Enterprise Linux)およびUbuntuにMecabをインストールする手順についてご紹介します。

4手順でインストールできます。30分もかからず、MecabをCentOSにインストールすることができます。



以降でご紹介する全ての手順は、「端末」や「ターミナル」などのコマンドを実行するアプリケーションで実施します。インストールしたいLinuxマシン上で、「端末」などのアプリケーションを起動してください。
 

手順①:必須パッケージのインストール

まずは、Mecabをインストールするために必要なパッケージをインストールするために、下記のコマンドを実行します。

↓CentOS(RHEL)の場合↓
# dnf install --nogpgcheck -y https://packages.groonga.org/centos/groonga-release-latest.noarch.rpm

↓Ubuntuの場合↓
$ sudo apt-get update


 

手順➁:Mecabのインストール

続いて、MecabをLinuxにインストールするために、下記のコマンドを実行します。

↓CentOS(RHEL)の場合↓
# dnf -y install mecab mecab-ipadic mecab-devel patch --nogpgcheck

↓Ubuntuの場合↓
$ sudo apt-get install libmecab2 libmecab-dev mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils


 

手順➂:新出単語と固有表現に強いmecab-ipadic-NEologdのダウンロード

次に、Mecabが形態素解析をするための「辞書」をダウンロードします。
今回は、新出単語や固有表現に強い辞書である「mecab-ipadic-NEologd」のダウンロード手順をご紹介します。

「mecab-ipadic-NEologd」をダウンロードするために、下記のコマンドを実行します。

↓CentOS(RHEL)およびUbuntuの場合↓
# git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# ls
mecab-ipadic-neologd



コマンド実行後、「mecab-ipadic-neologd」のフォルダが作成されている場合、「正常にmecab-ipadic-NEologdのダウンロードができた」と判断できます。

 

手順④:mecab-ipadic-NEologdのインストール

続いて、「mecab-ipadic-NEologd」をインストールするために、下記のコマンドを実行します。

↓CentOS(RHEL)およびUbuntuの場合↓
# cd mecab-ipadic-neologd
# ./bin/install-mecab-ipadic-neologd -n -a



コマンド実行後、「[install-mecab-ipadic-NEologd] : Install completed.」が表示された場合、「正常にmecab-ipadic-NEologdをインストールできた」と判断できます。
 

上記の4手順を実施することで、UbuntuやCentOSにMecabをインストールすることができました。


 

インストールしたMecabの動作を確認する方法

次は、LinuxにMecabが正常にインストールされたことを確認するために、動作確認をしてきましょう。
 

Mecabのインストール確認【whichコマンドを使う】

CentOSやUbuntuにMecabが正常にインストールされたかを確認するために、以下のコマンドを実行します。

↓CentOS(RHEL)およびUbuntuの場合↓
# which mecab
/usr/bin/mecab


上記のような実行結果の場合、Mecabが正常にインストールできたと考えられます。
下記のような実行結果である場合、Mecabが正常にインストールできていないと判断ができます。

# which mecab
/usr/bin/which: no mecab in ~~~~~


 

Mecabの動作確認

Mecabを起動し、文章を入力することで動作確認できます。

↓CentOS(RHEL)の場合↓
# mecab -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/
CentOSにMecabのインストールができました。
CentOS	名詞,固有名詞,一般,*,*,*,CentOS,セントオーエス,セントオーエス
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
Mecab	名詞,一般,*,*,*,*,*
の	助詞,連体化,*,*,*,*,の,ノ,ノ
インストール	名詞,一般,*,*,*,*,インストール,インストール,インストール
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき	動詞,自立,*,*,一段,連用形,できる,デキ,デキ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。
EOS

↓Ubuntuの場合↓
$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd
UbuntuにMecabのインストールができました。
Ubuntu  名詞,固有名詞,一般,*,*,*,Ubuntu,ウブントゥ,ウブントゥ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
Mecab   名詞,一般,*,*,*,*,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
インストール    名詞,一般,*,*,*,*,インストール,インストール,インストール
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき    動詞,自立,*,*,一段,連用形,できる,デキ,デキ
まし    助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。      記号,句点,*,*,*,*,。,。,。
EOS



上記のように入力した文章を形態素解析できた場合、「正常にMecabが動作する」と判断できます。
 

whichやmecabコマンドでMecabの動作確認ができます。さらにMecabの詳しい使い方を知りたい方は、Mecab公式サイトをご覧ください。
参照:Mecabの詳しい使い方(公式サイト)


 

PythonでMecabを使用する方法

以下の記事を参考にし、お使いのパソコンやサーバーにPythonをインストールしましょう。

>> 【ubuntu向け】pyenvでPythonをインストールする手順【簡単】

>> 【コピペOK】pyenvでPythonをインストールする手順【Linux用】

>> 【最短5分】PyAutoGUIをWindowsにインストールする手順の「手順1:Pythonのインストール」を参照

>> 【環境構築】インストーラーでMacOSにPythonをインストール


 

PythonのMecabライブラリをインストール

PythonでMecabを使用するためには、「mecab-python3」というライブラリが必要です。「mecab-python3」をインストールするために、以下のコマンドを実行しましょう。

# pip install mecab-python3


「mecab-python3」が正常にインストールされたことを確認するために、以下のコマンドを実行しましょう。

# pip list | grep mecab
mecab-python3 (0.996.5)


上記のように出力されれば、「mecab-python3」が正常にインストールされたことが分かります。

 

PythonでMecabを使った形態素解析【ソースコードあり】

最後に、PythonでMecabを使った形態素解析を行いましょう。
Mecabを使ったPythonのソースコードは、以下のようになります。

import MeCab

text = "CentOSにMecabのインストールができました。"

mecab_obj = MeCab.Tagger("-Ochasen -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/") # CentOS(RHEL)の場合
# mecab_obj = MeCab.Tagger("-Ochasen -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/") # Ubuntuの場合
node = mecab_obj.parseToNode(text)
while node:
  print(node.feature)
  node = node.next


上記のソースコードをmecab_test.pyというファイル名で保存しましょう。
その後、mecab_test.pyを実行するために、以下のコマンドを実行します。

# python test.py 
BOS/EOS,*,*,*,*,*,*,*,*
名詞,固有名詞,一般,*,*,*,CentOS,セントオーエス,セントオーエス
助詞,格助詞,一般,*,*,*,に,ニ,ニ
名詞,一般,*,*,*,*,*
助詞,連体化,*,*,*,*,の,ノ,ノ
名詞,一般,*,*,*,*,インストール,インストール,インストール
助詞,格助詞,一般,*,*,*,が,ガ,ガ
動詞,自立,*,*,一段,連用形,できる,デキ,デキ
助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
記号,句点,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*



以上のようにPythonからもMecabを用いた形態素解析ができました。

形態素解析とセットでよく使用する「係り受け解析」に関して興味がある方は、こちらをご覧ください。
 


 

【まとめ】Linux(CentOS/Ubuntu)にMecabをインストールする

今回の記事を通して、コピペベースでLinuxにMecabをインストールし、PythonでMecabを使用することができる手順をご紹介することで、以下の悩みを解消しました。
 

★悩み★
・形態素解析のためにMecabをLinuxにインストールしたい。
・CentOS(RHEL)やUbuntuにMecabをインストールする方法を知りたい。
・PythonでMecabを使いたい!具体的なプログラムを知りたい。



「CentOSやUbuntuなどのLinuxにMecabをインストールすることに困っているあなた」や「PythonでMecabを使用するのに困っているあなた」にこの記事が少しでも役に立てれば幸いです。
 

コメント

タイトルとURLをコピーしました