[[阪大2013]]

*12月18日

#contents

***''今日''の授業で利用する主なソフトウェア [#i06478d2]

|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索|
|[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム|
|[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書|

&br;
#hr

#include(授業資料/形態素解析,notitle)

&br;
#hr

--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]]


***授業用UniDic+MeCabパッケージのダウンロード

-https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip

***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する

-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較

**歴史的資料を対象とした形態素解析
-http://www.ninjal.ac.jp/corpus_center/unidic/

***形態素解析結果を使って索引を作る

-「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発
--&ref(JMC2010_concorcance.pdf);


**形態論情報付きの近代語コーパス

-(国定)高等小学読本コーパス
-明六雑誌コーパス

***明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]]
--http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf

-Excelによる集計(ピボットテーブル)


**日本語歴史コーパス(CHJ)の紹介
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]]
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/

-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中


***日本語歴史コーパス(CHJ)の登録
-アカウントを作ります

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS