[[阪大2013]] *12月18日 #contents ***''今日''の授業で利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索| |[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム| |[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書| &br; #hr #include(授業資料/形態素解析,notitle) &br; #hr --形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***授業用UniDic+MeCabパッケージのダウンロード -https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる --ブログのテキストと新聞記事のテキストの解析結果を比較 **歴史的資料を対象とした形態素解析 -http://www.ninjal.ac.jp/corpus_center/unidic/ ***形態素解析結果を使って索引を作る -「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発 --&ref(JMC2010_concorcance.pdf); **形態論情報付きの近代語コーパス -(国定)高等小学読本コーパス -明六雑誌コーパス ***明六雑誌コーパス -[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]] --http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf -Excelによる集計(ピボットテーブル) **日本語歴史コーパス(CHJ)の紹介 -[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]] --http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf -NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/ -日本語歴史コーパス --http://www.ninjal.ac.jp/corpus_center/chj/ --第1弾「平安時代編」の先行公開中 ***日本語歴史コーパス(CHJ)の登録 -アカウントを作ります