git-guiを使う

gitに今ひとつ慣れないので、サーフィンしていたらgit-guiなるものがあることを発見。
https://w.atwiki.jp/git_jp/pages/1.html

早速インストールしてみたけど使い方はまだ慣れないが、いまあるテキストをサーバ側にアップすることはなんとかできた。

sudo apt install git-gui gitk
git gui

でGUI環境が起動する。最初、git-guiとやっていたらエラーになったがハイフンはいらないらしい。
どうもJavaの画面らしいGUI。

流れは次の通り
1.gitlab側に新しいフォルダを作成
2.git-guiで作業対象のフォルダを開き、1をクローンする
3.git-guiで、下部中央のボタンを上から順番に押すイメージで、スキャンして変更ファイルをリストアップ、対象ファイルをstage(単にクリックすれば良い)して、commitボタン、pushボタンを順にクリック。

と簡単だった。


LinuxでPaSoRiを使いたい

Linuxは使ってみるとその便利さがわかるし軽さも気に入っているが、世間のツールがWindows前提になっているものがあり、ときどきそこにひかかることがある。
実は、住基カードの時代から確定申告をネットで済ませたかったのだが、住基カードからいよいよマイナンバーカードに切り替えてそれができるようになったタイミングでLinuxを導入したため、eTaxがInternet Explorer対応ということで相変わらず実現できていない。

ソフトウェアの問題はいずれ解決するはずなのだがハードとしてはマイナンバーカードを読み取るためのPaSoRiが使える環境が必要だ。スマホのNFCでええよという考え方もあるが、そこはPCでもできるようにしておかないと負けた気がする。

世の中には親切な人がいるのはLinuxをつかうと感じることなのだが、やはりこういうサイトがあった。
PythonでSuicaの残高を取得する(libpafe使用)

https://github.com/rfujita/libpafe
https://nfcpy.readthedocs.io/en/latest/index.html

一応、一通りのインストール手順は踏んだところだが、テストのところでErrorが返ってくる。(´・ω・`)

困っていたら自分でも2年前に下調べをしていた。
(下調べ)ubuntuでPaSoRiを使う
が、リンク先はすでに存在せず。(´・ω・`)

再度検索し直して、以下のサイトを参考に、libpafeではなくnfcのモジュールを使ってみることにした。
Ubuntu 11.04 で SonyのPaSoRi (RC-S330) を使う

http://nfc-tools.org/index.php?title=Main_Page
とあわせて手順通りインストールしたら、lsusbでハードは認識していそう。

~$ lsusb
Bus 002 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 001 Device 003: ID 5986:0706 Acer, Inc
Bus 001 Device 004: ID 054c:02e1 Sony Corp. FeliCa S330 [PaSoRi]
Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub

しかし、デバイスが見つからないというメッセージが返ってくる。

$ nfc-list
nfc-list uses libnfc 1.7.1
error libnfc.driver.pn53x_usb Unable to set USB configuration (Device or resource busy)
No NFC device found.

令和元年の取り組みはここまで
ーーーーー

令和二年の取り組み開始。といっても確定申告は終えてしまった。
卑屈にもWindowsを起動させて関係ソフトをインストールしてeTaxを使ってしまったぞい(´・ω・`)

上のメッセージに現れているが、USBはlsusbにより認識されていることがわかる。
しかし、pn53x_usbが邪魔をしているようだ。
これは自動でインストールされるのだが、Linuxのカーネルが1.3以降では入れてはいけないと書いてあった。

このサイトを見つけた。
Ubuntu 11.04 で SonyのPaSoRi (RC-S330) を使う http://blog.okay.to/kludge/archives/11
Yet Another Unable to claim USB interface #426 https://github.com/nfc-tools/libnfc/issues/426
nfc-list fails with PN533 usb device #221 https://github.com/nfc-tools/libnfc/issues/221

そこで以下の処理をしてみた。

~$ nfc-list
nfc-list uses libnfc 1.7.1
error libnfc.driver.pn53x_usb Unable to set USB configuration (Device or resource busy)
No NFC device found.

pn53x_usbのせいでNFCデバイスが見つからんと叱られる。

~$ lsmod | head -n 2
Module Size Used by
pn533_usb 20480 0

pn533_usbがしっかりと鎮座している。

~$ sudo rmmod pn533_usb

これでpn533に消えてもらう。

~$ nfc-list
nfc-list uses libnfc 1.7.1
NFC device: Sony / ? opened
1 ISO14443B passive target(s) found:
ISO/IEC 14443-4B (106 kbps) target:
PUPI: 53 8d 4f e5
Application Data: 00 00 41 e0
Protocol Info: b3 81 a1

なんか先に進んだ感じがする。


NEologdをインストールする

MeCabで開示関係の文書の形態素解析をすると、色々不便なことにぶつかることの一つが複合語対応。
開示文書は、法律の名前に始まり漢字を寄せ集めて一つの言葉を定義していることが多く、形態素解析でそれがバラバラに分解され(過ぎ)てしまう。
例えば、「連結貸借対照表」は一つの単語だが、形態素解析では、連結 貸借 対照 表という具合に4つに分解されてしまう。
そこで専門用語の辞書を追加してやる必要があるのだが、会計用語辞書なる気の利いたものはあるわけではないので、自前で用意するしかない。
自前の前に現代用語を集積してMeCab用に加工された、mecab-ipadic-NEologdを使うことにした。

https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

インストール方法は、上記のgithubに掲載されているが、自分用のメモ。

1.自分のgitディレクトリで、neologdをクローンする

cd ~./git
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

※サイトからコピペするときは、$を消去しましょう(笑)

2. NEOLOGDのディレクトリに移ってコンパイル

cd mecab-ipadic-neologd/
sudo ./bin/install-mecab-ipadic-neologd -n # このコマンドで二回目以降は更新されるらしい。

メモリが足りなくなるなどの注意が書いてあったが、自分の環境ではそういった事象はなく、10秒ほどで終わった。

3.辞書を指定して分析する

mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/

(例文)
当社の連結貸借対照表日は令和元年12月31日ですが、連結会計年度の開始日は平成31年10月1日で、個別財務諸表の会計年度の開始日である平成31年1月1日とは異なります。

MeCabのデフォルト(IPADIC)

当社 名詞,一般,,,,,当社,トウシャ,トーシャ
の 助詞,連体化,,,,,の,ノ,ノ
連結 名詞,サ変接続,,,,,連結,レンケツ,レンケツ
貸借 名詞,サ変接続,,,,,貸借,タイシャク,タイシャク
対照 名詞,サ変接続,,,,,対照,タイショウ,タイショー
表 名詞,接尾,一般,,,,表,ヒョウ,ヒョー
日 名詞,接尾,一般,
,,,日,ビ,ビ
は 助詞,係助詞,,,,,は,ハ,ワ
令 名詞,一般,,,,,令,リョウ,リョー
和 名詞,一般,,,,,和,ワ,ワ
元年 名詞,一般,,,,,元年,ガンネン,ガンネン
12月 名詞,副詞可能,,,,,12月,ジュウニガツ,ジューニガツ
31 名詞,数,,,,,*
日 名詞,接尾,助数詞,,,,日,ニチ,ニチ
です 助動詞,
,,,特殊・デス,基本形,です,デス,デス
が 助詞,接続助詞,,,,,が,ガ,ガ
、 記号,読点,,,,,、,、,、
連結 名詞,サ変接続,,,,,連結,レンケツ,レンケツ
会計 名詞,サ変接続,,,,,会計,カイケイ,カイケイ
年度 名詞,一般,,,,,年度,ネンド,ネンド
の 助詞,連体化,,,,,の,ノ,ノ
開始 名詞,サ変接続,,,,,開始,カイシ,カイシ
日 名詞,接尾,一般,,,,日,ビ,ビ
は 助詞,係助詞,
,,,,は,ハ,ワ
2 名詞,数,
,,,,2,ニ,ニ
0 名詞,数,
,,,,0,ゼロ,ゼロ
1 名詞,数,
,,,,1,イチ,イチ
9 名詞,数,
,,,,9,キュウ,キュー
年 名詞,接尾,助数詞,
,,,年,ネン,ネン
10月 名詞,副詞可能,,,,,10月,ジュウガツ,ジューガツ
1 名詞,数,,,,,1,イチ,イチ
日 名詞,接尾,助数詞,,,,日,ニチ,ニチ
で 助動詞,
,,,特殊・ダ,連用形,だ,デ,デ
、 記号,読点,,,,,、,、,、
個別 名詞,形容動詞語幹,,,,,個別,コベツ,コベツ
財務諸表 名詞,一般,,,,,財務諸表,ザイムショヒョウ,ザイムショヒョー
の 助詞,連体化,,,,,の,ノ,ノ
会計 名詞,サ変接続,,,,,会計,カイケイ,カイケイ
年度 名詞,一般,,,,,年度,ネンド,ネンド
の 助詞,連体化,,,,,の,ノ,ノ
開始 名詞,サ変接続,,,,,開始,カイシ,カイシ
日 名詞,接尾,一般,,,,日,ビ,ビ
で 助動詞,
,,,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,,,,五段・ラ行アル,基本形,ある,アル,アル
平成 名詞,固有名詞,一般,
,,,平成,ヘイセイ,ヘイセイ
31 名詞,数,,,,,*
年 名詞,接尾,助数詞,,,,年,ネン,ネン
1月 名詞,副詞可能,
,,,,1月,イチガツ,イチガツ
1 名詞,数,
,,,,1,イチ,イチ
日 名詞,接尾,助数詞,
,,,日,ニチ,ニチ
と 助詞,格助詞,引用,,,,と,ト,ト
は 助詞,係助詞,
,,,,は,ハ,ワ
異なり 動詞,自立,
,,五段・ラ行,連用形,異なる,コトナリ,コトナリ
ます 助動詞,
,,,特殊・マス,基本形,ます,マス,マス
。 記号,句点,,,,,。,。,。
EOS

NeoLogDを使用した解析

当社 名詞,一般,,,,,当社,トウシャ,トーシャ
の 助詞,連体化,,,,,の,ノ,ノ
連結貸借対照表 名詞,固有名詞,一般,,,,連結貸借対照表,レンケツタイシャクタイショウヒョ,レンケツタイシャクタイショーヒョ
日 名詞,接尾,一般,
,,,日,ビ,ビ
は 助詞,係助詞,,,,,は,ハ,ワ
令和元年 名詞,固有名詞,一般,,,,2019年,レイワガンネン,レイワガンネン
12月 名詞,副詞可能,
,,,,12月,ジュウニガツ,ジューニガツ
31日 名詞,固有名詞,一般,
,,,31日,サンジュウイチニチ,サンジュウイチニチ
です 助動詞,,,,特殊・デス,基本形,です,デス,デス
が 助詞,接続助詞,
,,,,が,ガ,ガ
、 記号,読点,
,,,,、,、,、
連結会計 名詞,固有名詞,一般,
,,,連結会計,レンケツカイケイ,レンケツカイケイ
年度 名詞,一般,,,,,年度,ネンド,ネンド
の 助詞,連体化,,,,,の,ノ,ノ
開始 名詞,サ変接続,,,,,開始,カイシ,カイシ
日 名詞,接尾,一般,,,,日,ビ,ビ
は 助詞,係助詞,
,,,,は,ハ,ワ
2 名詞,数,
,,,,2,ニ,ニ
0 名詞,数,
,,,,0,ゼロ,ゼロ
1 名詞,数,
,,,,1,イチ,イチ
9 名詞,数,
,,,,9,キュウ,キュー
年 名詞,接尾,助数詞,
,,,年,ネン,ネン
10月 名詞,副詞可能,,,,,10月,ジュウガツ,ジューガツ
1 名詞,数,,,,,1,イチ,イチ
日 名詞,接尾,助数詞,,,,日,ニチ,ニチ
で 助動詞,
,,,特殊・ダ,連用形,だ,デ,デ
、 記号,読点,,,,,、,、,、
個別財務諸表 名詞,固有名詞,一般,,,,個別財務諸表,コベツザイムショヒョウ,コベツザイムショヒョー
の 助詞,連体化,
,,,,の,ノ,ノ
会計年度 名詞,固有名詞,一般,
,,,会計年度,カイケイネンド,カイケイネンド
の 助詞,連体化,,,,,の,ノ,ノ
開始 名詞,サ変接続,,,,,開始,カイシ,カイシ
日 名詞,接尾,一般,,,,日,ビ,ビ
で 助動詞,
,,,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,,,,五段・ラ行アル,基本形,ある,アル,アル
平成31年 名詞,固有名詞,一般,
,,,平成31年,ヘイセイサンジュウイチネン,ヘイセイサンジュウイチネン
1月 名詞,副詞可能,,,,,1月,イチガツ,イチガツ
1 名詞,数,,,,,1,イチ,イチ
日 名詞,接尾,助数詞,,,,日,ニチ,ニチ
と 助詞,格助詞,引用,
,,,と,ト,ト
は 助詞,係助詞,,,,,は,ハ,ワ
異なり 動詞,自立,,,五段・ラ行,連用形,異なる,コトナリ,コトナリ
ます 助動詞,,,,特殊・マス,基本形,ます,マス,マス
。 記号,句点,
,,,*,。,。,。
EOS

割といいかも。
連結貸借対照表が一つの単語になっている。

おしい
連結会計、会計年度はあるが連結会計年度は複合語として認識されない。

課題
全角の数字は分割されてしまうので、分析前に半角変換が必要かも。
財務情報の分析に使うなら、数字の文章内での分析の仕方は自分で工夫しなければいけない。


入門 Rによる予測モデリング――機械学習を用いたリスク管理のために

入門 Rによる予測モデリング――機械学習を用いたリスク管理のために
岩沢 宏和 平松 雄司
東京図書
売り上げランキング: 16,603

2019年12月15日読了 Continue reading