次のページ 前のページ 目次へ

2. 準備

2.1 辞書データを入手

ftp://ring.aist.go.jp/pub/pack/data/writing/dic/translat/
http://www-nagao.kuee.kyoto-u.ac.jp/member/tsuchiya/sdic
には gene95という辞書が置いてあります。 収録語数 55000 語、用例付きと十分実用レベルに達しています。

また、niftyserve に加入しているならば、FENG に「英辞郎」という gene95 とは比べものにならないほど大きな辞書があります。現在筆者は英辞郎を使っ ています。

$ cd /tmp

/tmpにダウンロードした辞書を展開します。 拡張子が .lzh なので、

lha x filename
で展開できます。 以後、使う辞書は gene95 あるいは英辞郎であることを前提にします。

2.2 辞書データの加工

入手したばかりの辞書は、大抵Shift-JIS コードで、改行が CR+LF となっています。 gene辞書も英辞郎もそうなっています。 dos & windows ならこれが標準ですが、UNIXで使うためには、変換が必要になりま す。nkfで漢字コードをEUCコードにします。-eオプションを指定します。半角カ ナの変換のために、-X も付けます。 改行コードは perl で読み込めば勝手に変換されます。 > のあとに変換後の辞書データのファイル名が入ります。 ファイル名は ej.dic としておきます。

また、nkfは漢字コードを自動判別してくれるので、事前の漢字コードの確認は必要ありません。

以上をまとめて gene95 なら、

    nkf -SXe gene.txt | \
    perl -ne 'chop;chop; $_=" $_\n" if ($.%2 == 0);print;' | \
    perl -pe '$_="■$_";' > ej.dic
を、実行します。英辞郎なら、
    nkf -SXe *[a-z].txt | \
    perl -pe '$_=substr($_,0,-2) . "\n";' > ej.dic
です。

2.3 辞書データのインストール

変換が終わったら、この辞書をインストールします。次のコマンドを入れてくださ い。root になって作業しますので、注意してコマンドを入力してください。

$ su
# mkdir /usr/local/lib/dictionary
# mv /tmp/ej.dic /usr/local/lib/dictionary


次のページ 前のページ 目次へ