上智2016

コーパス日本語学入門(近現代語コーパス)

  • 前期・金曜4限
  • ogiso@ogiso.net ←@を@に直してください

期末レポートについて

  • 締切:7月29日(金)
  • 提出先:メールで直接送付(必ず返信を確認すること)
  • 分量:A4用紙で3〜10枚
    • メール・Wordファイルの両方に氏名・学籍番号を明記すること
    • Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ってください

2016/07/15

Wordでレポートを書く

文書の構造化とWordの使い方(レポートの書き方)

  • 文書の構造化*
    • スタイルと見出し
    • ナビゲーション ウィンドウ(見出しマップ)の使い方
    • 章・節番号
  • 図表の貼り込み*
    • 「形式を選択して貼り付け」
    • 図表番号とキャプション
  • 脚注
    • 脚注と文末脚注
  • 相互参照
    • 節番号、図表番号と相互参照
    • 目次、図表目次
  • ページ番号*
  • PDFとして保存(ブックマークを付加)*

2016/07/08

レポート作成のためのコーパス検索・調査(2)

  • 考えてきたレポートテーマに沿って、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
  • 前回回れなかった人から順に、個別に見て回ります。

2016/07/01

「ひまわり」検索結果の集計(2)

  • 集計
  • 生年代別の集計(復習)
    • 「〜に/を信頼する」
  • ランダムサンプリング&意味分類
    • 新聞紙

レポート作成のためのコーパス検索・調査

  • 考えてきたレポートテーマに沿って、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
  • 個別に見て回ります。

2016/06/24

全文検索システム「ひまわり」について

  • 全文検索システム「ひまわり」
    • 原則として文字列検索のみで,形態論情報を使った検索はできない
    • ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用

「ひまわり」と「青空文庫パッケージ」のインストール方法

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除(右クリック→プロパティ→セキュリティブロックの解除)
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいので教室のPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」と近代語のコーパス

  • 国語研究所コーパス開発センター 近代語のコーパス
    • 『明六雑誌』『国民之友』はCHJ中納言に取り込み済み。『太陽』と「女性雑誌」はごく一部のみ。今年中に中納言で利用できるようになる。

検索結果の集計

  • 単純な集計
    • 「気持ち」「心持ち」

生年代による集計(通時的変化)

  • 文字列処理関数を利用する
    • 例: =left(<文字列>,<文字数>)
      • 生年代: =left(<生年月日が入っているセル>,3)*10
  • 生年月日データの書式について
    • 「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ必要がある
      • 1900年以前の年月日は文字列、それ以降は日付として認識される

(実際の手順)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelシートに貼り付ける(A1)

2016/06/17

レポートテーマについて

たとえば…

  • 類義語の意味・用法の違い(共起語etc.による)
  • 語形・表記揺れと要因(レジスター差・時代差等の検証 / 意味による使い分け)
    • ※BCCWJだけで時代差を見ることは困難

調整頻度の計算(前回補足)

ランダムサンプリング調査

  • 大量に用例があり、調査内容からすべて対象にできない場合(そもそも全数を調査することにこだわる必要はない)
  • ランダムに並べ替え→先頭n例を調査対象にする
    • ランダムな数字の列を用意
    • 関数で乱数を生成 =RAND()
    • ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

重複の削除

  • 用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合
    • 例えば1つのサンプル中に繰り返し現れる一人称代名詞などは、出現した用例数よりもサンプル数を調べた方がよい
  • 「データ」→「重複の削除」

関数の利用

  • 文字列処理関数
    • 例: =left(<文字列>,<文字数>)
  • 集計用に用意した列で文字列処理関数を利用する
    • LEFT,RIGHT,MID,LEN,SEARCH,SUBSTITUTE
  • 応用例:品詞の大分類を使う
    • =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

近代語をテーマとしたい人向け

2016/06/10

近代雑誌コーパスについて

日本語歴史コーパス「中納言」補足

  • 地の文・会話文、発話者
    • 例:「いと」「甚だ」
      • ito-hanahada.zip
        キー: (語彙素="いと" OR 語彙素="甚だ")  WITH OPTIONS limitToSelfSentence="1" AND tglWords="20" AND unit="1"
  • インラインタグ
    • Excelのフィルタ機能による活用

調整頻度の計算

  • 粗頻度を総語数で割る
    • レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
      • 語数ファイルをピボットテーブルで集計して分母に
  • 調整頻度には100万語あたりの頻度が比較的よく使われる
    • 粗頻度/総語数*1000000
      • 数字が小さくなりすぎないようにするため
  • ※割合の違いを比較するだけなら調整頻度を出す必要はない。

レポートテーマについて

  • レポートテーマについて全員に聞き、コメントします。テーマを考えておいてください。

2016/06/03

『日本語歴史コーパス』

  • 平安時代編
  • 鎌倉時代編祇睿叩随筆
  • 室町時代編偽幻
  • 明治・大正編技┿
    • 「明六雑誌」(全)、「国民之友」(一部)、女性雑誌(「女学雑誌」「女学世界」「婦人倶楽部」の一部)、「太陽」(一部) http://pj.ninjal.ac.jp/corpus_center/chj/

集計ためののテクニック

  • 分類用の列を作って集計する
    • 十分で用法区分などを入力しピボットテーブルで使う
  • 複数の検索結果をまとめる
    • 一つの表に貼り付けて集計する
  • ショートカットキーを活用すると便利
    • Ctrl+End ファイルの末尾/表のいちばん右下に移動
    • Shift+Ctrl+End 〃範囲を選択
  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

2016/05/27

(復習)【重要】ピボットテーブルの使い方

  • ピボットテーブル
  • ピボットグラフ

テキストエディタとショートカットキー

  • zipファイルの展開(解凍)について
    • ダウンロードしたファイルのプロパティを見てセキュリティブロックを解除する
    • 解凍しないままでも開けるが必ず解凍すること

2016/05/20

「中納言」の利用(つづき)

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎

  • 並べ替え
    • 反転前文脈の使い方
  • フィルタ
    • テキストフィルタ

【重要】ピボットテーブルの使い方

  • ピボットテーブル
  • ピボットグラフ

2016/05/13

形態論情報を利用した検索

UniDicによる形態素解析

2016/05/06

日本語コーパスの形態論情報

  • 短単位と長単位(前回資料)

品詞体系と見出し語の階層

  • BCCWJ,CHJはUniDicの品詞体系にもとづく

2016/04/29(祝日授業実施日)

日本語コーパスの紹介(2) コーパスの設計とサンプリング

  • 均衡コーパス(Balanced corpus)
    • 「バランスがとれている」とは?
    • コーパスの母集団の設定とサンプリング
    • BCCWJのサブコーパス
    • 可変長と固定長
  • 著作権をめぐる問題

参考リンク

日本語コーパスの形態論情報

  • 短単位と長単位
    • (配付資料)参照

2016/04/22

コーパス検索アプリケーション「中納言」の申込みについて(来週以降)

  • ショートメッセージ(SMS)が受け取れる携帯電話

現代日本語書き言葉均衡コーパス(BCCWJ)とは

  • BCCWJについて、まず最小限のことを説明します。
  • BCCWJ少納言
    • 登録不要
    • 文字列検索のみ
    • 500例まで表示
  • BCCWJ中納言
    • 要登録
    • 形態論情報を使った検索
    • 全件(一度に最大10万例まで)ダウンロード可

日本語コーパスの紹介(1)コーパスとはどんなものか

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
  • この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
  • 「コーパス」以前の日本語研究用データとの違いは

2016/04/16

イントロダクション

  • デモ
  • 「現代日本語書き言葉均衡コーパス(BCCWJ)」
  • 「日本語歴史コーパス(CHJ)」
  • Excelによる集計(ピボットテーブル)
  • 形態素解析
  • シラバス確認
    • シラバス
    • この授業の目的
    • 授業の進め方
    • 評価方法

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS