文字コード

日本語のテキスト解析をRで行うにあたっては、tidytext()をかける前に、MeCabを使って「分かち書き」をする必要があります。

（分かち書きの例）今日　は　よい　お　天気　です　ね　。

※MeCabで何をするかわからない人は、こちらのスライドを参照。
https://ymattu.github.io/TokyoR64/apply/apply.html#/

http://chasen.naist.jp/chaki/t/2009-09-30/doc/mecab-cabocha-nlp-seminar-2009.pdf

１. 前提条件

業務用PCはセキュリティが厳しく、Program Filesへのパラメタ等の書き込みができない。

２．インストール

最初、Program FilesにINSTしたら、辞書の書き換えなどができず断念。

次に、C:\にINSTしたら、「Program Filesにファイルがありません」という意地悪を言われた (´・ω・｀)

３．開発者に質問

まずはRのパッケージRMeCabの開発者にTwitter経由で質問を投げると、パラメータファイルを設定すればいいという情報を得た。３回のやり取りで回答がもらえなくなったので、断念。

そもそもRがまともに動いていないので、RMeCabを触る前にMeCabが使えるようになるべしと悟り、githubのソースを見たら、別の人（写真付き）が64ビット版を載せていてくれたのでこちらを使うことに。
https://github.com/ikegami-yukino/mecab/releases

メアドが載っていたので質問したら、マニュアルに載っていない下記サイトのリンクを教えてくれた。

http://namazu.asablo.jp/blog/2006/04/04/315244

４．解決

C:\MeCabにINST。忘れず、環境設定でbinにPATHを通しておきませう。

辞書フォルダdicの下にあるIPADICを、ipadicSJIS、ipadicUTF8にコピーして、それぞれの文字コードで辞書を作成。作り方はこちら

各辞書フォルダの中に、dicrcというファイルがあるので、その中の辞書の文字コードを該当するものに合わせる。盲点※これに気づいたのは、偶然にもエラーメッセージがdicrcがないよと言ってくれたから。

./Mecab/etc/mecabrcを開いて、dicdir="hogehoge"のところを、それぞれ文字コードごとに作った辞書のフォルダを指定して、mecabrcUTF8、mecabrcSJISとして保存。※設定の効果は疑問？

５．使い方

コマンドラインでMeCabを起動する際に、-r オプションで読み込むテキストの文字コードに該当するrcファイルを指定する

C:\MeCab\bin>mecab -r c:\mecab\etc\mecabrcSJIS

プロンプトも何も出ないが、テキストを適当に入力する。

（例１）
今日は良いお天気ですね。
今日名詞,副詞可能,,,,,今日,キョウ,キョー
は助詞,係助詞,,,,,は,ハ,ワ
良い形容詞,自立,,,形容詞・アウオ段,基本形,良い,ヨイ,ヨイ
お接頭詞,名詞接続,,,,,お,オ,オ
天気名詞,一般,,,,,天気,テンキ,テンキ
です助動詞,,,,特殊・デス,基本形,です,デス,デス
ね助詞,終助詞,,,,,ね,ネ,ネ
。記号,句点,,,,*,。,。,。
EOS

（例2）
すもももももももものうち
すもも名詞,一般,,,,,すもも,スモモ,スモモ
も助詞,係助詞,,,,,も,モ,モ
もも名詞,一般,,,,,もも,モモ,モモ
も助詞,係助詞,,,,,も,モ,モ
もも名詞,一般,,,,,もも,モモ,モモ
の助詞,連体化,,,,,の,ノ,ノ
うち名詞,非自立,副詞可能,,,*,うち,ウチ,ウチ
EOS

６．課題

もしかしたら文字コードを直接指定するオプションがあるのかもしれない。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

閑忙庵

忙中閑ありでボチボチといきましょう

Tag Archives: 　文字コード

MeCabの辞書の文字コードにハマった件