東京外大2016

Japan Studies 1:コーパス日本語学入門

  • 春学期・木曜4限
  • ogiso@ogiso.net ←@を@に直してください

レポートについて

  • 〆切:7月21日(木)
  • 枚数:A4用紙で4枚以上〜20枚以下
  • メールで提出

アクティブラーニング(第2回)

  • 国語研究所コーパス開発センター見学
  • 2016/7/14 13:30 一階ロビー集合

2016/07/07 (最終回)

レポートに向けた研究課題の検討・調査(2)

質問対応

UniDicと形態素解析

2016/06/30

アクティブラーニング課題に関するコメント

Wordでレポートを書く

文書の構造化とWordの使い方(レポートの書き方)

  • 文書の構造化*
    • スタイルと見出し
    • ナビゲーション ウィンドウ(見出しマップ)の使い方
    • 章・節番号
  • 図表の貼り込み*
    • 「形式を選択して貼り付け」
    • 図表番号とキャプション
  • 脚注
    • 脚注と文末脚注
  • 相互参照
    • 節番号、図表番号と相互参照
    • 目次、図表目次

レポートに向けた研究課題の検討・調査

アクティブラーニング(第1回)

  • 「中納言」によるレポートテーマに関する語の検索、データ集計(来週までにデータ作成、メール)

2016/06/23

レポートテーマについて

  • 研究課題の発表

コロケーション強度の話

  • 共起する語(AとB)を評価するとき、単純な用例数だけでは危険
    • もともと頻度が高いもの同士のつながりは多くて当たり前だから

コロケーション強度をはかるスコアには様々なものがあり、それぞれに特徴がある

  • ダイス係数
    • =2×(ABの用例数/(Aの用例数+Bの用例数)) 
      • =2*B5/(C$2+C5)
  • tスコア
    • =(ABの用例数 - (Aの用例数×Bの用例数/コーパスの総語数))/√ABの用例数
      • =B5-(C$2*C5/C$1)/SQRT(B5)
  • MIスコア(相互情報量)
    • =log[2] (ABの用例数×コーパスの総語数)/(Aの用例数×Bの用例数)
      • =LOG((B5*C$1)/(C$2*C5),2)

(例)

  • 例:「玉葱」と共起する(3語以内)動詞の場合
    • AB= 「玉葱」〜「炒める」の用例数:46
    • A=「炒める」の用例数:2069
    • B=「玉葱」の用例数:2087
    • ダイス係数=2*(46/(2069+2087))=0.0221

それぞれの数値の調べ方

  • ※用例数を求めるだけでいいが、「中納言」は用例を取得するためのツールであるため、複数の語の用例数を求めるのに手間がかかる
  • 「コーパスの総語数」は「語数について」のページを参照

2016/06/16

調整頻度の計算

  • 粗頻度を総語数で割る
    • レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
      • 語数ファイルをピボットテーブルで集計して分母に
  • 調整頻度には100万語あたりの頻度が比較的よく使われる
    • 粗頻度/総語数*1000000
      • 数字が小さくなりすぎないようにするため
  • ※割合の違いを比較するだけなら調整頻度を出す必要はない。

ランダムサンプリング調査

  • 大量に用例があり、調査内容からすべて対象にできない場合
  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =RAND()
    • ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

重複の削除

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

  • 「データ」→「重複の削除」

vlookupの使い方

レポートテーマについて

  • 来週、レポートテーマについて全員に聞き、コメントします。テーマを考えておいてください。

2016/06/09

  • (配布資料)「中納言」検索課題

テキストエディタと正規表現の応用

  • 前後文脈を整える
  • インラインタグを活用する

Excelの文字列関数とIF関数

  • 例:ジャンル(NDC)の整理
    • 先頭の文字を取り出す(NDCの一次区分(=類))
      • =LEFT(<ジャンルのセル>,1)
    • スラッシュで区切られた最初の部分(ジャンルの大分類)
      • =LEFT(<ジャンルのセル>,SEARCH("/",<ジャンルのセル>)-1)
  • 集計用に用意した列で文字列処理関数を利用する
    • LEFT
    • RIGHT
    • MID
    • LEN
    • SEARCH
    • SUBSTITUTE
  • 条件わけ:IF
  • エラー対応:IFERROR
  • 応用例:品詞の大分類を使う
    • =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

BCCWJ利用の落とし穴

  • BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
    • レジスターによって母集団の年が違っている
      • レジスターの偏りを年代の偏りと勘違いしないこと
    • 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ
  • もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
    • cf.人口あたりの事故件数,1平方キロあたりの…etc.

2016/06/02

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎

  • 並べ替え
    • 反転前文脈の使い方
  • フィルタ
    • テキストフィルタ

【重要】ピボットテーブルの使い方

  • ピボットテーブル
  • ピボットグラフ

複数の検索結果の結合

  • 例:蒲公英・向日葵・菫

ショートカットキーを活用すると便利

  • Ctrl+End ファイルの末尾/表のいちばん右下に移動
  • Shift+Ctrl+End 〃範囲を選択
  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

集計用の列を自分で用意する

  • 例:表記(ひらがな・かたかな・漢字)別集計
  • 例:用法分類

質問対応

  • 自分の研究テーマのための検索方法の相談

2016/05/26

(復習)形態論情報を使った検索

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

2016/05/19

短単位と長単位

  • 配布資料参照

品詞体系と見出し語の階層

  • BCCWJ,CHJはUniDicの品詞体系にもとづく

形態論情報を使った検索

  • 資料「中納言の使い方」参照
  • 検索例
    • 「時の経つにつれて」
    • 名詞+の+動詞連体形+につれて

2016/05/12

コーパスの段階

  1. 電子テキスト:grep: 文字列(正規表現)検索
  2. 構造化テキスト:ひまわり少納言 など: 文字列(正規表現)検索
  3. 形態論情報付きコーパス:中納言、ChaKi など: 形態論情報による検索(タグ検索)

コーパスの設計とサンプリング

  • 均衡コーパス(Balanced corpus)
    • 「バランスがとれている」とは?
    • コーパスの母集団の設定とサンプリング
    • BCCWJのサブコーパス
    • 可変長と固定長
  • 著作権をめぐる問題

「少納言」で正規表現を使う

BCCWJ「中納言」登録申請

2016/04/28

  • 復習
    • サンプルデータsoseki2.zip (前回と同じ)
    • 文字クラス、grep

正規表現のいろいろ

  • 授業資料/正規表現
    • 文字クラス [ ]
    • 文字クラスの否定(補集合)[^ ]
    • 繰り返し ? + *
    • グループ化 ()
    • or(論理和) |
    • 文頭 ^、文末 $

正規表現の応用

  • カタカナ語
    • カタカナ(外来語)の形容動詞語幹
  • 送りがなの揺れ(行う/行なう)
  • 会話文中("「"で始まる文中)の用例を検索する
  • 同一文中での共起
    • 全然〜ない。
    • もし〜なら(ば)

grepと置換でKWIC(CSVファイル)を作る(簡易版)

  • CSVファイルとは:テキストファイルで表を表現する 用語:CSVファイル
  • KWIC:KeyWord In Context

タグ付き正規表現

  • 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
    • 次のように置換するととんでもないことに…
      • 検索文字列:走[らりるれろっ]
      • 置換文字列:★走[らりるれろっ]
  • タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
  • 授業資料/タグつき正規表現

検索文字列の中での後方参照

  • 検索語の中で\1を使う
    • (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
    • (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ

最長一致の原則(greedy matching)

  • 正規表現は、パターンが一致する最も長い範囲にマッチする
    • 例:あ+【\1】
      • ああああああああ → 【ああああああああ】 そのせいで…
    • 例:「(.+)」【\1】
      • 「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
    • 括弧の組ごとに置換するためには「([^」]+)」【\1】 のように書かなければならない
      • 「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
  • よりかんたんに指定するには(最短一致,ものぐさ指定)
    • 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける

正規表現に関する参考資料

2016/04/21

  • 今回からUSBメモリを使います。

テキストエディタ

  • テキストデータ(青空文庫)の配布
    • ダウンロードしてUSBメモリに展開(解凍)してください
  • 検索・置換、grep
    • 検索で初出行を調べる
    • 置換で用例数を数える
    • grepで用例リストを作る
    • タグジャンプで文脈を確認する
    • サブフォルダのgrep

ショートカットキー

正規表現を使ってみる

  • 文字クラス
    • 例:読[まみむめもん]
      • 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

正規表現とは

  • 正規表現 >用語
    • 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
    • エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ−ションやコンピュータ言語で利用されている)
    • 記号はすべて半角
    • 記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2

2016/04/14

  • 次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。

「コーパス」について

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

紙の資料からコーパスまで

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

テキストファイル

  • zipファイルの展開(解凍)
    • 解凍しないままでも開けるが必ず解凍すること
  • テキストエディタの設定
    • 行の折り返し
    • 行番号表示
      • スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
  • 練習用サンプルデータ(漱石+芥川)

2016/04/07

イントロダクション/日本語コーパスの紹介

  • デモ
  • 「現代日本語書き言葉均衡コーパス(BCCWJ)」
  • Excelによる集計(ピボットテーブル)
  • シラバス確認
    • この授業の目的
    • 授業の進め方
    • 評価方法

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS