[[阪大2013]]

*12月19日

#contents

**復習
+199x~ 電子化テキスト+テキストエディタ+正規表現
+200x~ 構造化文書+ひまわり+ピボットテーブル
+201x~ +形態素解析+(中納言,茶器)+R


*形態論情報付きの近代語コーパス

-(国定)高等小学読本コーパス
-明六雑誌コーパス

**明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]]
-[[明六雑誌コーパス>http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/]]

-ひまわりによる検索とピボットテーブルによる集計

*日本語歴史コーパス(CHJ)
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]]
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/

-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中


***日本語歴史コーパス(CHJ)の登録
-アカウントを作ります

**日本語歴史コーパス(CHJ)を使う
-CHJ中納言
--https://maro.ninjal.ac.jp

***短単位について
-資料参照 [[PDF>https://dl.dropboxusercontent.com/u/134600/CHJ_SUW_LUW.pdf]]

***中納言の使い方
-資料参照 [[PDF>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=CHJ%C3%E6%C7%BC%B8%C0%A4%CE%BB%C8%A4%A4%CA%FD.pdf&refer=%BA%E5%C2%E72013%2F12%B7%EE19%C6%FC]]


**Excelでの集計


***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v10.zip


***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE

--品詞の大分類を使う
 =LEFT(<品詞>,SEARCH("-",<品詞>)-1)
 =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

--後文脈の「。」より後を消す(「。」がない場合はそのまま)
 =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>)))
--前文脈の「。」以前を消す(「。」がない場合はそのまま)((「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字を指定))
 =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1))


*現代日本語書き言葉均衡コーパス(BCCWJ)
**BCCWJについて
-BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/

-少納言
-中納言
-DVD

**BCCWJ 少納言 http://shonagon.ninjal.ac.jp
-BCCWJの一般公開ページ
-文字列検索のみ,表示500件などの制限
-一部の正規表現が利用可能


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS