どんなものか
以前から使われているソフトウェア
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
-a, --all-morphs output all morphs(default false) -N, --nbest=INT output N best results (default 1)
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -a -d ~/unidic-cwj
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab --nbest=3 -d ~/unidic-cwj
mecab -d unidic-cwj --node-format="%c\t%m\t%f[7]\t%f[6]\t%f[23]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[8]\t%f[9]\t%f[12]\n"
#pip install mecab-python3 apt install python3-mecab
import MeCab
#山月記 wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html #メロス wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html #注文の多い料理店 wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html #高瀬舟 wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html #羅生門 wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html #トロッコ wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html
#文字コード変換 nkf -w --overwrite *.html #Shift_JIS指定行を削除 sed -i '/Shift_JIS/d' *.html
外字の対応表(プログラムと同じ場所に置いておく)
python3 axhtml2xml.py "*.html"
コーパス用XMLの文書型定義(XML schema)
データの検証(Validation)用pythonプログラム
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd