上智2015

コーパスにもとづく日本語史研究

  • 後期・金曜4限
  • ogiso@ogiso.net ←@を@に直してください

レポート提出について

  • 締切:2月5日(金) 24:00
  • 提出先:メールで直接送付(必ず受取確認のメールを確認すること)
  • 分量:A4用紙で3〜10枚(4枚以上を推奨)
  • メール・Wordファイルの両方に氏名・学籍番号を明記すること
    • Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ること

2016/01/22

最終回:レポートの完成へ

発展

  • Excelの活用
    • vlookup関数?
  • データベースの利用(Access)
    • クエリによる集計

国語研のコーパス

  • 『現代日本語書き言葉均衡コーパス』BCCWJ
  • 『日本語歴史コーパス』CHJの拡張 2016.3
    • 形態論情報付き「近代雑誌コーパス」の統合(『太陽』はコアのみで残りは2016年度中)
    • 「平安時代編」への『大鏡』『蜻蛉日記』の追加
    • 「鎌倉時代編祇睿叩随筆」
    • 「室町時代編偽幻澄彡甲碓
  • 『日本語話し言葉コーパス』CSJ

2016/01/08

レポートテーマ調査報告 のこり

Wordを使ってレポートを書く

  • 図表の取り扱い
    • 「形式を選択して貼り付け」
    • 図表番号、キャプション
  • 文書の構造化
    • 章・節番号
    • 「スタイル」「ナビゲーション ウィンドウ」(見出しマップ)の活用
  • 図表番号と相互参照
    • 脚注、文末脚注
    • 目次、図表目次

レポート作成のためのコーパス調査・質問(3)

2015/12/17

レポートテーマ調査報告(2)

  • スライドを使った短い発表(ライトニングトーク)+コメント

レポート作成のためのコーパス調査・質問(2)

2015/12/11

レポートテーマ調査報告

  • スライドを使った短い発表(ライトニングトーク)+コメント

レポート作成のためのコーパス調査・質問

  • 考えてきたテーマについて、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。

2015/12/04

コロケーション強度の話

  • 単純な用例数では危険
  • もともと頻度が高いもの同士のつながりは多くて当たり前
  • コロケーション強度には様々なものがある
    • ダイス係数
    • Tスコア
    • MIスコア(相互情報量)
  • ダイス係数=2×(ABの用例数/(Aの用例数+Bの用例数)) 
    • 「つ」の前の動詞の場合
      • AB= 「動詞+つ」の用例数
      • A=当該動詞の用例数
      • B=「つ」の用例数
  • tスコア=(ABの用例数 - Aの用例数×Bの用例数/コーパスの総語数)/√ABの用例数
  • MIスコア(相互情報量)=log[2]ABの用例数×コーパスの総語数/Aの用例数×Bの用例数

レポートテーマについて

  • レポートテーマについて全員に聞き、コメントします。
  • その後、次回以降に小発表できるだけの調査を行ないます。積極的に質問して下さい。

2015/11/27

  • Excelによる集計のテクニック(ひまわり/中納言共通)

複数の検索結果をまとめる

  • 一つの表に貼り付けて集計する

分類用のフィールドを作って集計する

サンプリング調査

  • 大量に用例があり、調査内容からすべて対象にできない場合
  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =rand()
    • ランダムな数字の列をコピーして値として貼り付けると数字が固定される

関数の利用

  • 文字列処理関数
    • 例: =left(<文字列>,<文字数>)
      • 生年代: =left(<生年月日が入っているセル>,3)*10
  • (注意)ひまわりの検索結果をExcelに貼り付けるとき
    • 生年月日がくる列全体のセルの書式を「文字列」としたうえで貼り付ける
    • 1900年以前の日付が正しく変換されず不統一になるのを防ぐため

日本語歴史コーパス「中納言」補足

  • 地の文・会話文
  • 発話者

レポートテーマについて

  • 次回までにレポートテーマを考えてくること(全員に聞きます)

2015/11/20

短単位について

  • 資料参照 PDF

品詞体系

  • BCCWJと同様、UniDicの品詞体系↓ にもとづく

中納言の使い方(続き)

  • 資料参照 PDF
    • 4.「検索結果のダウンロード」から

2015/11/13

(補足)研究例

  • 漢語サ変動詞の可能の形
  • 形容動詞の連体修飾の形

(補足)さまざまな「ひまわり」用データ

利用可能なデータについて

  • 近代語のデータ
    • 太陽コーパス◎
    • 近代女性雑誌コーパス◎
    • 明六雑誌コーパス◎
    • 国民之友コーパス◎
    • 国定高等小学読本
  • 国会会議録データ
  • 法令データベース
  • 青空文庫◎
  • 口コミサイト
  • 古典文学作品のデータ

『日本語歴史コーパス』(CHJ)を使う

中納言の使い方

  • 資料参照 PDF
    • 4.「検索結果のダウンロード」まで【済】

2015/11/06

青空文庫の「ひまわり」データ

ピボットテーブル(復習)

  • 調査例
    • 「〜に/を信頼する」
    • 「それきり」「それぎり」
    • 「気持ち」「心持ち」
    • 「〜的の/な」

関数の利用

  • 文字列処理関数
    • 例: =left(<文字列>,<文字数>)
      • 生年代: =left(<生年月日が入っているセル>,3)*10

参考文献

中納言ログイン

2015/10/30

「太陽コーパス」

  • 授業用データ

「ひまわり」検索結果をExcelで扱う

Excelの基本操作

  • 並べ替え(ソート)
  • フィルター(絞り込み)
    • テキストフィルター
    • 多重フィルター(複数の条件指定)
  • ピボットテーブル★
    • ピボットグラフ

2015/10/23

近代雑誌コーパスと「ひまわり」

  • 近代語のコーパス
    • 「太陽コーパス」(販売中)
    • 「近代女性雑誌コーパス」(公開中)
    • 「明六雑誌コーパス」(公開中)〈形態論情報付き〉
    • 「国民之友コーパス」(公開中)〈形態論情報付き〉

全文検索システム「ひまわり」について

himawari_aozora.png

「ひまわり」の導入

  • 「近代女性雑誌コーパス」のインストールと動作確認

2015/10/16

  • 今回からUSBメモリを使います。
  • 日本語歴史コーパス(CHJ)中納言は登録手続き中です。
    • 前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。

テキストエディタ

  • テキストデータ(青空文庫)の配布
    • ダウンロードしてUSBメモリに展開(解凍)してください
  • 検索・置換、grep
    • 検索で初出行を調べる
    • 置換で用例数を数える
    • grepで用例リストを作る
    • タグジャンプで文脈を確認する
    • サブフォルダのgrep

ショートカットキー

正規表現を使ってみる

  • 文字クラス
    • 例:読[まみむめもん]
      • 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

正規表現とは

  • 正規表現 >用語
    • 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
    • エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ−ションやコンピュータ言語で利用されている)
    • 記号はすべて半角
    • 記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
  • 文字クラス [ ]
    • 文字クラスの補集合(それ以外の文字)[^ ]

2015/10/9

  • 次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。

日本語歴史コーパス(CHJ)の登録

  • 申込用紙・契約書2枚
  • 次回、押印して持ってきてください

「コーパス」について

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

紙の資料からコーパスまで

  1. (紙の)本文テキスト
  2. (紙の)総索引
  3. 電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

総索引から電子化テキストへ(国語史資料の電子化の歴史)

  • 戦後、総索引が整備されはじめる
    • 1929〜31『万葉集総索引』
    • 1952『源氏物語用語索引』
    • 1955『徒然草総索引』
  • 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
    • 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
    • 総索引作成のための電子化テキスト利用など
  • 1990年代、電子化テキストの利用が広がる
    • 『源氏物語』テキストデータベース(長瀬1990)
    • 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
    • 青空文庫 1997〜 http://www.aozora.gr.jp/
    • この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』

テキストファイル

  • zipファイルの展開(解凍)
    • 解凍しないままでも開けるが必ず解凍すること
  • テキストエディタの設定
    • 行の折り返し
    • 行番号表示
      • スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
  • 練習用サンプルデータ(漱石+芥川)

プレーンテキストからタグ付きテキストへ

  • 2000年代(タグ付きテキスト「コーパス」へ)
    • 狭義の「コーパス」登場
      • 『太陽コーパス』2005

2015/10/02

イントロダクション

デモ

  • テキストエディタ
  • ひまわり
    • Excelによる集計(ピボットテーブル)
  • 「日本語歴史コーパス(CHJ)」

授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ sakura2正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成

シラバス確認

  • シラバス
    • この授業の目的
    • 授業の進め方
    • 評価方法

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS