[[上智2015]] *コーパスにもとづく日本語史研究 -後期・金曜4限 -ogiso@ogiso.net ←@を@に直してください -CHJ中納言 https://chunagon.ninjal.ac.jp/ **2015/10/9 -次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。 ***日本語歴史コーパス(CHJ)の登録 -申込用紙・契約書2枚 -次回、押印して持ってきてください ----- ***「コーパス」について [#k44345b6] :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 --BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。 --さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録) --Web上のデータ ---検索サイトの利用 ---WAC(Web as Corpus) ***紙の資料からコーパスまで +(紙の)本文テキスト +(紙の)総索引 +電子テキスト +構造化テキスト +形態論情報付きコーパス ***総索引から電子化テキストへ(国語史資料の電子化の歴史) -戦後、総索引が整備されはじめる --1929~31『万葉集総索引』 --1952『源氏物語用語索引』 --1955『徒然草総索引』 -1980年代から徐々に日本語史資料へのコンピュータ応用が始まる --金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤… --総索引作成のための電子化テキスト利用など -1990年代、電子化テキストの利用が広がる --『源氏物語』テキストデータベース(長瀬1990) --国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」 ---日本文学等テキストファイル(岡島)http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm ---J-TEXT日本文学電子図書館(菊池・深沢)http://www.j-texts.com/ --青空文庫 1997~ http://www.aozora.gr.jp/ --この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』 ***テキストファイル -テキストデータとはどんなものか --[[授業資料/テキストデータとは]] --[[授業資料/テキストデータ紹介]](広義のコーパス) -テキストエディタ --[[授業資料/テキストエディタ]] -サクラエディタのダウンロードとインストール --[[サクラエディタのダウンロード:sakura2.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura2.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考) サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -zipファイルの展開(解凍) --解凍しないままでも開けるが必ず解凍すること -テキストエディタの設定 --行の折り返し --行番号表示 ---スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号) -練習用サンプルデータ(漱石+芥川) --[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sample.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ***プレーンテキストからタグ付きテキストへ -2000年代(タグ付きテキスト「コーパス」へ) --狭義の「コーパス」登場 ---『太陽コーパス』2005 **2015/10/02 ***イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ -コーパスとは --[[国立国語研究所コーパス開発センター>http://pj.ninjal.ac.jp/corpus_center/]] ***デモ -テキストエディタ -ひまわり --Excelによる集計(ピボットテーブル) -「日本語歴史コーパス(CHJ)」 --CHJ[[中納言>http://chunagon.ninjal.ac.jp]] -形態素解析:茶まめ/MeCab+UniDic --[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]] --http://www2.ninjal.ac.jp/lrc/index.php?UniDic ***授業で利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索| |表計算ソフト''Excel''|ピボットテーブルによる分析・グラフ作成| |ワープロ''Word''|「スタイル」を利用したレポート作成| ***シラバス確認 -[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2015b_sophia.pdf&refer=%BE%E5%C3%D22015%2F%B9%F1%B8%EC%B3%D8%B1%E9%BD%ACIIIb]] --この授業の目的 --授業の進め方 --評価方法