竹林のゆとりブログ

山奥で生活し、日々の思いをつらつらと書くブログ。 IT、数学、アニメなど。

機械学習/自然言語処理の環境構築をしてきた。

そろそろ機械学習/自然言語処理について本腰を入れるので、 新しい環境を構築しました。

今回の目標

以下をインストールすること

パッケージ 用途
Word2Vec 自然言語処理
Mecab 字句解析
Chainer deep learningのライブラリ
Tensor Flow deep learningのライブラリ

OS

Cent 7.2をメイン。
裏でCent 6.7も活用

プログラミング環境

Python 2.7.5
3系にする理由がなそうなので、デフォルトのままにしました。 問題が発生したら、3系にするかも。

環境構築の手順(Cent os 7.2環境で)

python環境の整備

python -V ⇒2.7.5

  • pip(Pythonのバージョン変更可能なツール)をインストール 以下を実施し、pipをインストールします。
wget https://bootstrap.pypa.io/ez_setup.py -O - | python
easy_install pip

一行目はsetuptoolsのインストールをしています。
setuptoolsはPythonのライブラリのフォーマットを提供するものだそうですが、 内部にeasy_installが同梱されており、それを使うためにインストールします。
二行目はeasy_installを使って、pipをインストールします。

他は今回の環境だとだいたいデフォルトで入っていたので、省略します。

Word2Vecのインストール

以下を実行して、Word2Vecのソース(C言語)を入手し、コンパイルします。

svn checkout http://word2vec.googlecode.com/svn/trunk/ ディレクトリのパス

今回はディレクトリのパスは /root/word2vec

make

これでword2vecの本体のinstallは完了

Word2VecをPythonで実行するインターフェースを入手

作業しながら、思いましたが、上でCソースをコンパイルせずとも、ここだけでWord2Vecが使えるかもしれません。

pip install cython git+https://github.com/scipy/scipy
pip install word2vec

上はcytonとscipyをインストールするというコマンドです。 pip install word2vecを実行してみると、これらが足りないというエラーメッセージが出たので、追加しました。

Word2Vecのインストールはこれで完了です。

mecabのインストール

以下を実行します。

http://qiita.com/saicologic/items/ab70e14f7e2ec2ee0b4d

 cd /var/tmp (本来は不要)
 curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz
 tar zxfv mecab-0.996.tar.gz
 cd mecab-0.996
 ./configure
 make
 sudo make install

Tensor Flowのインストール

以下を実行します。

virtualenv --system-site-packages ~/tensorflow
source ~/tensorflow/bin/activate
sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.7.1-cp27-none-linux_x86_64.whl

Chainerのインストール

以下を実行します。

pip install chainer

まとめ

インストールが完了しました。これから実際に使いながら開発していこうと思います。