阪大2013/12月19日の履歴ソース(No.3)

履歴一覧
差分を表示
現在との差分を表示
履歴を表示
阪大2013/12月19日へ行く。
- 1 (2013-12-15 (日) 14:12:36)
- 2 (2013-12-16 (月) 11:34:48)
- 3 (2013-12-16 (月) 11:34:48)
- 4 (2013-12-18 (水) 16:08:29)
- 5 (2013-12-19 (木) 10:14:41)
- 6 (2013-12-19 (木) 16:21:35)

[[阪大2013]]

*12月19日

#contents

**日本語歴史コーパス（CHJ）の紹介
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http://www.ninjal.ac.jp/research/project/a/corpus/]]
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://historicalcorpus.jp/

-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中


***日本語歴史コーパス（CHJ）の登録
-アカウントを作ります

**日本語歴史コーパス（CHJ）を使う
-CHJ中納言
--https://maro.ninjal.ac.jp

***短単位について
-資料参照

***中納言の使い方
-資料参照


**Excelでの集計


***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v10.zip

***テキストエディタの活用
-前後文脈から不要な部分を消す
--正規表現を使った置換


***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE

--品詞の大分類を使う
 =LEFT(<品詞>,SEARCH("-",<品詞>)-1)

--後文脈の「。」より後を消す（「。」がない場合はそのまま）
 =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>)))
--前文脈の「。」以前を消す（「。」がない場合はそのまま）((「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字を指定))
 =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1))


***ランダムサンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列： =RAND() 
---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される



**現代日本語書き言葉均衡コーパス（BCCWJ）
***BCCWJについて
-BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/

-少納言
-中納言
-DVD

***BCCWJ 少納言　http://shonagon.ninjal.ac.jp
-BCCWJの一般公開ページ
-文字列検索のみ，表示500件などの制限
-一部の正規表現が利用可能

阪大2013/12月19日 の履歴ソース(No.3)

阪大2013/12月19日の履歴ソース(No.3)