[[上智2017]] *国語学演習Ⅲa **2017/04/21 ***「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」と ※当面、BCCWJを中心に解説し、その後CHJ明治大正編に -BCCWJとCHJ、これらを利用するインターフェイスについて、まず最小限のことを説明します。 -[[少納言>http://shonagon.ninjal.ac.jp]] BCCWJ --登録不要 --文字列検索のみ --500例まで表示 -[[中納言>http://chunagon.ninjal.ac.jp]] BCCWJ,CHJほか --要登録 --形態論情報を使った検索 --全件(一度に最大10万例まで)ダウンロード可 ***「中納言」オンライン利用申込み -https://chunagon.ninjal.ac.jp/useraccount/register ***日本語コーパスの紹介(1)コーパスとはどんなものか :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 -この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」 -「コーパス」以前の日本語研究用データとの違いは -''(スライド参照)'' --第2回コーパスとは **2017/04/14 ***イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ --[[国立国語研究所コーパス開発センター>http://pj.ninjal.ac.jp/corpus_center/]] -デモ --「[[現代日本語書き言葉均衡コーパス(BCCWJ)>http://pj.ninjal.ac.jp/corpus_center/bccwj/]]」 --「[[日本語歴史コーパス(CHJ)>http://pj.ninjal.ac.jp/corpus_center/chj/]]」 ---BCCWJ[[少納言>http://shonagon.ninjal.ac.jp]] ---[[中納言>http://chunagon.ninjal.ac.jp]] --Excelによる集計(ピボットテーブル) --形態素解析 ---[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]] ---[[Web茶まめ>http://chamame.ninjal.ac.jp]] -シラバス確認 --[[この授業のシラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2017_Sophia_syllabus.pdf&refer=%BE%E5%C3%D22017%2F%B9%F1%CA%B8%B3%D8%B1%E9%BD%AC%AD%B7a]] --この授業の目的 --授業の進め方 --評価方法