FrontPage

九州大学:国語学講義 III / 日本語学方法論特論 III

コーパス日本語学

4月22日(第3回) コーパスの設計2

Moodleに置いたスライド参照

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング (つづき)

「日本語歴史コーパス」(CHJ)の構成

近世より前
残されている資料が少なく、できるだけ(全部)コーパスに入れたい
近世以降の資料
選ぶことができるだけの資料がある、それでもなるべく全文でいれたい(作品など資料単位で調査したい)

紙の資料からコーパスまで 〜電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 各種の電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

参考リンク(再掲)

4月15日(第2回) コーパスの設計

「中納言」のアカウントについて

(以下、Moodleに置いたスライドも参照

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

コーパスに求められるもの

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

参考リンク

4月8日(第1回)イントロダクション/日本語コーパスの紹介

イントロダクション

授業内容等の確認

「中納言」アカウントについて

授業で利用する主なソフトウェア・Webアプリケーション(予定)

ソフトウェアの種類・名前利用目的
コーパス検索アプリケーション「中納言」コーパスの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
Web茶まめ形態素解析
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
ワープロWord「スタイル」を利用したレポート作成
全文検索ソフトひまわりデータの検索,ミニコーパスの作成
Rデータの統計分析

授業内容デモ


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-04-19 (月) 22:27:47