#author("2021-04-28T10:22:22+00:00","default:ogiwiki","ogiwiki") **形態素解析:「Mecab」と「UniDic」 [#a6e26e6f] ***形態素解析とは [#l3a7ee8c] どんなものか -デモ: Web茶まめ (MeCab + UniDic) --https://chamame.ninjal.ac.jp/ ------ -日本語の自然言語処理の基礎技術 -今ではかなり''枯れた''技術 -機械学習による言語処理のはしり ------ -形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 --「形態素解析」= "Morphological analysis" --morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある) --日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る) -形態素解析の仕組み --生起コストと連接コスト ---その語はどれくらい出てくるか、どんな語とつながりやすいか ---コーパスから統計的に取得(機械学習) --経路の選択([[参考:ビタビアルゴリズム>https://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***形態素解析用ソフトウェア [#kfabceb4] 以前から使われているソフトウェア -形態素解析器(解析エンジン・プログラム) --[[JUMAN >http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN]] --[[茶筌(ChaSen)>https://chasen-legacy.osdn.jp/]] <[[HMM>https://ja.wikipedia.org/wiki/%E9%9A%A0%E3%82%8C%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E3%83%A2%E3%83%87%E3%83%AB]] --[[和布蕪(MeCab)>https://taku910.github.io/mecab/]] <[[CRF>https://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87%E5%A0%B4]] -解析用辞書 --[[IPADIC>http://sourceforge.jp/projects/ipadic/]] --[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]] --[[UniDic>https://unidic.ninjal.ac.jp]] 茶まめ(解析用のお助けツール) ***UniDicの特長 [#zf2df392] +見出し語が''短単位''という斉一な単位に揃えられている +見出し語が''階層化''されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる +語種など言語研究のための豊富な情報が付与されている -UniDicはChaSen, MeCabのどちらの解析器でも利用可能((最新版はMeCab版のみ)) --後から開発されたMeCabの方が解析精度が高いのでおすすめ