[[FrontPage]]

*2013阪大集中講義・国語史講義

**予定

***12/17
-総索引から電子化テキストへ(国語史資料の電子化の歴史)
-テキストデータと文字コード
-テキストエディタの利用
-正規表現

-構造化文書
-(太陽コーパス)・近代女性雑誌コーパス
-ひまわり
-ひまわりの使い方
-Excelによる集計(ピボットテーブル)
-えだまめによるミニコーパス作成

-少納言

***12/18
-復習

-形態素解析
-MeCabとUniDic
-歴史的資料を対象としたUniDic
-UniDicの構造

-テキストの語種構成比較

-索引が作れる話

-明六雑誌コーパス
-国定高等小学読本コーパス

-日本語歴史コーパス(CHJ)の紹介

***12/19(午後から)

-日本語歴史コーパス(CHJ)を使う
-CHJ中納言
-中納言の使い方
-短単位について

-現代日本語書き言葉均衡コーパス(BCCWJ)少納言


***12/20

-ChaKiの話

-近代編
--形容動詞連体形の話
---クラスター分析
---S字カーブ(ロジスティック回帰) cf.真田治子, 横山 
---http://ci.nii.ac.jp/naid/110008438032

-中古編
--地の文・会話文・歌ごとの語彙の位相差の話
---特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
--「~なし」がどこまで一語かという話(須永)
---コロケーション強度(Tスコア)

**シラバス

***講義題目:コーパスに基づく日本語史研究

***授業の目的:
内省に頼ることができない日本語史の研究において、残された言語資料はすべての研究の基礎である。大量の資料をコンピュータで利用しやすい形に整備したコーパスは、今後の日本語史研究の基盤となるものだといえる。本講義の目的は、受講者が、コーパスに関する知識と技術を身につけ、今後の自らの研究に研究に活用できるようになることである。

***講義内容:
近年、現代語の大規模コーパスの公開に続き、古い時代の日本語についてもデータの整備が進み、コーパスに基づく日本語史研究が可能になってきた。
本講義では、テキストデータとコーパスに関する基礎知識、日本語史のデータ作成の歴史について概観したのち、コーパス活用の方法について具体的に解説する。また、近代語の雑誌コーパス、平安仮名文学作品を中心に、コーパスを活用した研究例を紹介する。
最後に、受講者各自の関心に基づき、コーパスを活用した研究テーマに関するレポート作成に取り組む。

***授業計画:

下記のテーマについて講義する。
-日本語史研究とコーパス
-コーパスとテキストデータの基礎知識
--テキストデータ
--構造化文書
--形態論情報付きのコーパス
-日本語史研究に利用できるデータ紹介
--テキストアーカイブ
--近代雑誌コーパス
--日本語歴史コーパス
-コーパス活用のためのツール
--全文検索システム「ひまわり」
--コーパス検索ツール「中納言」
--古文の形態素解析
--コーパス管理ツール「茶器」
--表計算ソフトによる集計
-コーパスの活用例
--近代語編
--中古和文編

***その他
-教科書:教科書は使用しない。教材は原則としてWebページの形で提示する。
-参考文献:授業時に指示する
-成績評価:レポートで評価する
-キーワード:日本語史 コーパス テキスト処理 形態素解析
-受講生へのメッセージ:授業でPCを使用して実際にコーパスを活用できるようになることを目指します。コーパスやコンピュータ技術に詳しくない者も歓迎します。

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS