[[FrontPage]] *2013阪大集中講義・国語史講義 **予定 ***12/17 -総索引から電子化テキストへ(国語史資料の電子化の歴史) -テキストデータと文字コード -テキストエディタの利用 -正規表現 -構造化文書 -(太陽コーパス)・近代女性雑誌コーパス -ひまわり -ひまわりの使い方 -Excelによる集計(ピボットテーブル) -えだまめによるミニコーパス作成 -少納言 ***12/18 -復習 -形態素解析 -MeCabとUniDic -歴史的資料を対象としたUniDic -UniDicの構造 -テキストの語種構成比較 -索引が作れる話 -明六雑誌コーパス -国定高等小学読本コーパス -日本語歴史コーパス(CHJ)の紹介 ***12/19(午後から) -日本語歴史コーパス(CHJ)を使う -CHJ中納言 -中納言の使い方 -短単位について -現代日本語書き言葉均衡コーパス(BCCWJ)少納言 ***12/20 -ChaKiの話 -近代編 --形容動詞連体形の話 ---クラスター分析 ---S字カーブ(ロジスティック回帰) cf.真田治子, 横山 ---http://ci.nii.ac.jp/naid/110008438032 -中古編 --地の文・会話文・歌ごとの語彙の位相差の話 ---特徴語抽出(対数尤度比 LLR) cf.宮島・近藤 --「~なし」がどこまで一語かという話(須永) ---コロケーション強度(Tスコア) **シラバス ***講義題目:コーパスに基づく日本語史研究 ***授業の目的: 内省に頼ることができない日本語史の研究において、残された言語資料はすべての研究の基礎である。大量の資料をコンピュータで利用しやすい形に整備したコーパスは、今後の日本語史研究の基盤となるものだといえる。本講義の目的は、受講者が、コーパスに関する知識と技術を身につけ、今後の自らの研究に研究に活用できるようになることである。 ***講義内容: 近年、現代語の大規模コーパスの公開に続き、古い時代の日本語についてもデータの整備が進み、コーパスに基づく日本語史研究が可能になってきた。 本講義では、テキストデータとコーパスに関する基礎知識、日本語史のデータ作成の歴史について概観したのち、コーパス活用の方法について具体的に解説する。また、近代語の雑誌コーパス、平安仮名文学作品を中心に、コーパスを活用した研究例を紹介する。 最後に、受講者各自の関心に基づき、コーパスを活用した研究テーマに関するレポート作成に取り組む。 ***授業計画: 下記のテーマについて講義する。 -日本語史研究とコーパス -コーパスとテキストデータの基礎知識 --テキストデータ --構造化文書 --形態論情報付きのコーパス -日本語史研究に利用できるデータ紹介 --テキストアーカイブ --近代雑誌コーパス --日本語歴史コーパス -コーパス活用のためのツール --全文検索システム「ひまわり」 --コーパス検索ツール「中納言」 --古文の形態素解析 --コーパス管理ツール「茶器」 --表計算ソフトによる集計 -コーパスの活用例 --近代語編 --中古和文編 ***その他 -教科書:教科書は使用しない。教材は原則としてWebページの形で提示する。 -参考文献:授業時に指示する -成績評価:レポートで評価する -キーワード:日本語史 コーパス テキスト処理 形態素解析 -受講生へのメッセージ:授業でPCを使用して実際にコーパスを活用できるようになることを目指します。コーパスやコンピュータ技術に詳しくない者も歓迎します。