- 追加された行はこの色です。
- 削除された行はこの色です。
[[阪大2013]]
*12月18日
#contents
***''今日''の授業で利用する主なソフトウェア [#i06478d2]
|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索|
|[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム|
|[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書|
&br;
#hr
#include(授業資料/形態素解析,notitle)
&br;
#hr
--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]]
***授業用UniDic+MeCabパッケージのダウンロード
-https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較
**歴史的資料を対象とした形態素解析
-http://www.ninjal.ac.jp/corpus_center/unidic/
***形態素解析結果を使って索引を作る
-「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発
--&ref(JMC2010_concorcance.pdf);
**形態論情報付きの近代語コーパス
-(国定)高等小学読本コーパス
-明六雑誌コーパス
***明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]]
--http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf
-Excelによる集計(ピボットテーブル)
**日本語歴史コーパス(CHJ)の紹介
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]]
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/
-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中
***日本語歴史コーパス(CHJ)の登録
-アカウントを作ります