[[阪大2013]] *12月19日 #contents **日本語歴史コーパス(CHJ)の紹介 -[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]] --http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf -NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/ -日本語歴史コーパス --http://www.ninjal.ac.jp/corpus_center/chj/ --第1弾「平安時代編」の先行公開中 ***日本語歴史コーパス(CHJ)の登録 -アカウントを作ります **日本語歴史コーパス(CHJ)を使う -CHJ中納言 --https://maro.ninjal.ac.jp ***短単位について -資料参照 ***中納言の使い方 -資料参照 **Excelでの集計 ***調整頻度 -100万語あたりの頻度 --語数データのダウンロード //--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v10.zip ***テキストエディタの活用 -前後文脈から不要な部分を消す --正規表現を使った置換 ***Excelの文字列関数とIF関数 -LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE --品詞の大分類を使う =LEFT(<品詞>,SEARCH("-",<品詞>)-1) --後文脈の「。」より後を消す(「。」がない場合はそのまま) =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>))) --前文脈の「。」以前を消す(「。」がない場合はそのまま)((「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字を指定)) =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1)) ***ランダムサンプリング調査 --大量に用例があり、調査内容からすべて対象にできない場合 --ランダムに並べ替え→先頭n例を調査対象に ---ランダムな数字の列: =RAND() ---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される **現代日本語書き言葉均衡コーパス(BCCWJ) ***BCCWJについて -BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/ -少納言 -中納言 -DVD ***BCCWJ 少納言 http://shonagon.ninjal.ac.jp -BCCWJの一般公開ページ -文字列検索のみ,表示500件などの制限 -一部の正規表現が利用可能