[[授業資料]] **形態素解析:「Mecab」と「UniDic」 -形態素解析とは --デモ(茶まめでUniDic) --形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 ---「形態素解析」= "Morphological analysis" ---morphologicalな(形態論上の)単位は形態素だけではない。訳語に問題がある(誤訳) ---日本語の形態素解析の単位は一般に「語」。(語をどう定義するかという問題は残る) -形態素解析の仕組み --生起コストと連接コスト --経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***形態素解析用ソフトウェア 主なソフトウェア -形態素解析器(解析エンジン・プログラム) --[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]] <[[HMM>http://en.wikipedia.org/wiki/Hidden_Markov_model]] --[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CRF>http://en.wikipedia.org/wiki/Conditional_random_field]] -解析辞書 --[[IPADIC>http://sourceforge.jp/projects/ipadic/]] --[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]] --[[UniDic>http://download.unidic.org]] ---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]] 茶まめ(解析用のお助けツール) ***UniDicの特長 +見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5.html]]という斉一な単位に揃えられている +見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/modules/system/modules/menu/main.php?page_id=3468&op=change_page]]ており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる -UniDicはChaSen, MeCabのどちらの解析器でも利用可能 --後から開発されたMeCabの方が解析精度が高いのでおすすめ ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる ***UniDicの品詞体系 --cf.UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う