FrontPage

2013大阪大学 集中講義・国語史講義

レポートについて

  • 2014年1月31日までに ogiso◎ogiso.net 宛にメールに添付して送ってください。
    • レポートのファイルサイズが大きい場合にはPDFファイルにして添付してください。
    • 受け取り後、必ず確認の返信をします。2日経っても返信がない場合には授業時に紹介した別のアドレスに送ってください。

予定

12/17

  • はじめに
  • 総索引から電子化テキストへ(国語史資料の電子化の歴史)
  • テキストデータと文字コード
  • テキストエディタの利用
    • 正規表現
    • タグ付き正規表現

12/18

  • 構造化文書
  • (太陽コーパス)・近代女性雑誌コーパス
  • 全文検索システム ひまわり
    • ひまわりの使い方
    • Excelによる集計(ピボットテーブル)
  • えだまめによるミニコーパス作成
  • 形態素解析
    • MeCabとUniDic
    • 歴史的資料を対象としたUniDic
    • UniDicの見出し語構造
  • 茶まめで形態素解析
    • テキストの語種構成比較

12/19(午後から)

  • 形態論情報付きのコーパス
    • 明六雑誌コーパス
  • 日本語歴史コーパス(CHJ)
    • アカウント作成
  • 日本語歴史コーパス(CHJ)を使う
    • CHJについて
    • 中納言の使い方
    • 短単位について
  • Excelでの集計・応用

12/20

  • 現代日本語書き言葉均衡コーパス(BCCWJ)
    • 少納言
  • コーパス管理ツール「茶器」
    • 形態素解析とインポート
  • コーパスを利用した研究例
  • 近代編
    • 形容動詞連体形の話
      • クラスター分析
      • S字カーブ(ロジスティック回帰)
  • 中古編
    • 地の文・会話文・歌ごとの語彙の位相差の話
      • 特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
    • 「〜なし」がどこまで一語かという話(須永)
      • コロケーション強度(Tスコア)

シラバス

講義題目:コーパスに基づく日本語史研究

授業の目的:

内省に頼ることができない日本語史の研究において、残された言語資料はすべての研究の基礎である。大量の資料をコンピュータで利用しやすい形に整備したコーパスは、今後の日本語史研究の基盤となるものだといえる。本講義の目的は、受講者が、コーパスに関する知識と技術を身につけ、今後の自らの研究に研究に活用できるようになることである。

講義内容:

近年、現代語の大規模コーパスの公開に続き、古い時代の日本語についてもデータの整備が進み、コーパスに基づく日本語史研究が可能になってきた。 本講義では、テキストデータとコーパスに関する基礎知識、日本語史のデータ作成の歴史について概観したのち、コーパス活用の方法について具体的に解説する。また、近代語の雑誌コーパス、平安仮名文学作品を中心に、コーパスを活用した研究例を紹介する。 最後に、受講者各自の関心に基づき、コーパスを活用した研究テーマに関するレポート作成に取り組む。

授業計画:

下記のテーマについて講義する。

  • 日本語史研究とコーパス
  • コーパスとテキストデータの基礎知識
    • テキストデータ
    • 構造化文書
    • 形態論情報付きのコーパス
  • 日本語史研究に利用できるデータ紹介
    • テキストアーカイブ
    • 近代雑誌コーパス
    • 日本語歴史コーパス
  • コーパス活用のためのツール
    • 全文検索システム「ひまわり」
    • コーパス検索ツール「中納言」
    • 古文の形態素解析
    • コーパス管理ツール「茶器」
    • 表計算ソフトによる集計
  • コーパスの活用例
    • 近代語編
    • 中古和文編

その他

  • 教科書:教科書は使用しない。教材は原則としてWebページの形で提示する。
  • 参考文献:授業時に指示する
  • 成績評価:レポートで評価する
  • キーワード:日本語史 コーパス テキスト処理 形態素解析
  • 受講生へのメッセージ:授業でPCを使用して実際にコーパスを活用できるようになることを目指します。コーパスやコンピュータ技術に詳しくない者も歓迎します。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS