成蹊2025/日本語学講義Ｄの履歴(No.13)

成蹊2025

日本語学講義Ｄ†

2025年度後期・金曜2限：10:40～12:20
教室:7号館303

Mail: ogiso@ogiso.net

シラバス

↑

12/05　第9回　検索結果の集計(3)／コーパスの語数表と調整頻度†

↑

出現サンプル数の調査（重複の削除）†

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

たとえば同一サンプル内での繰り返しが多いものを調査するとき（例：一人称代名詞など）
- 「データ」→「重複の削除」
例：「俺・僕・私」

↑

ランダムサンプリング調査†

大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列： =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

例：「られる」「全然」

↑

BCCWJ利用の落とし穴（設計を踏まえたコーパス利用の必要性）†

BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
  - レジスターの偏りを年代の偏りと勘違いしないこと
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ

もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない
- →調整頻度の計算
  - cf.人口あたりの事故件数，１平方キロあたりの…etc.

BCCWJの語数
- https://ccd.ninjal.ac.jp/bccwj/bcc-chu-suw.html
短単位語数表をピボットテーブルで集計
- 短単位語数表：http://doi.org/10.15084/00003226

↑

調整頻度（pmw）†

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」のリンク先からExcel形式でダウンロードできる
  - 語数ファイルをピボットテーブルで集計して分母にする

調整頻度には100万語あたりの頻度（pmw）がよく使われる
- 粗頻度/コーパス総語数*1000000
  - 数字が小さくなりすぎないようにするため

例：BCCWJ「パソコン」「立ち上げる」
- ※用例数の増加と、コーパス中の年ごとのテキスト量の違いを区別

例：BCCWJ「矢張り」（語形別）
- ※割合を比較するだけなら調整頻度を出す必要はないが、どのくらい出てきやすいのかに注目するなら調整頻度が必要

↑

コーパスの語数表†

BCCWJ
- 短単位語数表Excel http://doi.org/10.15084/00003226
- 長単位語数表Excel http://doi.org/10.15084/00003224
CEJC
- CEJC短単位語数表_品詞構成表_語種構成表_ver202209.zip
CHJ
- 短単位語数表Excel(バージョン2022.03) https://clrd.ninjal.ac.jp/chj/doc/CHJ_SUW_WC_202203.xlsx
- 長単位語数表Excel(バージョン2022.03) https://clrd.ninjal.ac.jp/chj/doc/CHJ_LUW_WC_202203.xlsx
SHC
- 短単位語数表CSV https://clrd.ninjal.ac.jp/shc/doc/SHC_WC_202305.csv

↑

（Excel基礎知識）セルの相対参照と絶対参照†

A1：相対参照
$A$1：絶対参照
$A1：列のみ絶対参照

↑

「中納言」検索課題†

資料ダウンロード

↑

11/28　第8回検索結果の集計(2)†

↑

Excelの基礎†

並べ替え（ソート）
- 反転前文脈の使い方
フィルタ（絞り込み）
- テキストフィルタ
- 多重フィルター（複数の条件指定）

↑

【重要】ピボットテーブルの使い方†

ピボットテーブル
ピボットグラフ

参考：CHJの犬と猫
- 動画：『日本語歴史コーパス』のかんたんな使い方─犬派？猫派？編─ https://youtu.be/672LMkV6GxU

↑

複数の検索結果の結合†

一度にピボットテーブルで集計できるように一つの表にまとめる

※必ず表をくっつけること（空行を入れるとそこで表が切れていると認識される）

例：ワイン・葡萄酒　※単位数が違うので検索条件式でも一つの式では書けない

キー: 語彙素="ワイン";
キー: 語彙素="葡萄" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;

ショートカットキーを活用すると便利

Ctrl*1+End*2　ファイルの末尾/表のいちばん右下に移動
Shift+Ctrl+End*3　〃範囲を選択

表をコピー
- Ctrl+Home*4（表の左上へ移動）, ↓（列名は選択しないようにするため1行下へ）,Shift+Ctrl+End, Ctrl+C（コピー）
コピーした表を既存の表の下に貼り付け
- Ctrl+↓（表の一番下の行に移動）, ↓（1行下へ）, Ctrl+V（貼り付け）

授業資料/覚えておきたいショートカットキー

または、「検索条件式ごとに出力ファイルを分割する」を外して検索条件式で一度にダウンロード（ZIPファイルの中のcsvファイルを利用）

たくさんまとめて調べたい場合には特に便利

キー: 語彙素="ワイン";
キー: 語彙素="葡萄" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;
キー: 語彙素="ブランデー";
キー: 語彙素="ウイスキー";
キー: 語彙素="日本" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;

↑

集計用の列を自分で用意する†

検索例：蒲公英・向日葵・蓮華
- 表記（ひらがな・カタカナ・漢字）別集計
  - フィルタ機能を上手く使って「文字種」列を作る
（参考）Mac版Excelと文字種
- Macではフィルタの際に平仮名と片仮名が区別されないので、関数を使って文字コードで区別する
  - =unicode(文字列) ：文字列の先頭文字の文字コード（Unicode、10進数）を返す
応用：用法分類などなど

↑

11/21　（休み・欅祭）†

↑

11/14　第7回　「中納言」の使い方(3)／検索結果の集計†

少し早めに終わります

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：長単位解析器（ComaInu, Monaka）で短単位を組み上げる

↑

形態素解析を試してみる†

Web茶まめ
- https://chamame.ninjal.ac.jp/

新聞と文学作品の語種比率比較

↑

形態素解析の仕組み†

授業資料/形態素解析

↑

「中納言」の使い方†

コーパス検索アプリケーション「中納言」と短単位と長単位

配布資料・中納言の使い方

↑

10/24　第4回　コーパスの形態論情報†

↑

コーパスの形態論情報†

「中納言」で利用できる国語研のコーパスはどれも語の切り方・品詞体系など（形態論情報）が共通
- http://clrd.ninjal.ac.jp/bccwj/morphology.html

短単位と長単位
- （スライド）長単位と短単位参照
- 長単位と短単位・資料単位切りの例
- （参考）動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

↑

品詞体系†

BCCWJ・CHJはUniDicの品詞体系にもとづく（BCCWJのために開発されたのがUniDic）
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

↑

10/17　（休み・四大戦）†

↑

10/10　第3回『日本語歴史コーパス』『昭和・平成書き言葉コーパス』†

出席

↑

（前回補足）参考リンク†

英語のコーパスリファレンス
- ブラウンコーパスマニュアル http://khnt.aksis.uib.no/icame/manuals/brown/
- BNCリファレンスガイド http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス（BCCWJ）
- 現代日本語書き言葉均衡コーパス：概要
- BCCWJの基本設計：https://clrd.ninjal.ac.jp/bccwj/basic-design.html
- サンプリング：https://clrd.ninjal.ac.jp/bccwj/sampling.html
- XMLによる電子化：https://clrd.ninjal.ac.jp/bccwj/XML.html

↑

「日本語歴史コーパス」（CHJ）の構成†

https://clrd.ninjal.ac.jp/chj/

残された資料に限りがある（そもそも偏りがある）歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難

近世以前: 残されている資料が少なく、できるだけ（可能なら全部）コーパスに入れたい
近世（後期）以降: 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい（作品など資料単位で調査したい）

『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本：年代・著者（・地域）のバランスを取って作品単位でサンプリング

↑

近代語コーパスの場合†

近代雑誌（現在はCHJの一部）
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
  - 「太陽コーパス」：8年おきに12冊ずつを対象
- その後の雑誌コーパスも8年おきに収録
  - 明六雑誌・東洋学芸雑誌・国民之友・太陽（・中央公論・文藝春秋）
近代小説
- 複数の有識者が日本語資料として選定・投票した結果（1980年代に作成した資料）をもとにサンプリング
- https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf

↑

「昭和・平成書き言葉コーパス」（SHC）の設計・構成†

↑

利用する側から見たコーパスの設計†

BCCWJでもCHJでも、どのように設計されているかを知らないと大きな誤りを犯す可能性がある
- サブコーパスのサイズを無視した比較
- バランスのとれていない項目間の単純比較（BCCWJの年代、CHJの時代・ジャンル等）
今後の授業の中で詳しく説明していきます

↑

コーパスの形態論情報について（予告）†

http://clrd.ninjal.ac.jp/bccwj/morphology.html
動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

↑

10/03　第2回コーパスとは／『現代日本語書き言葉均衡コーパス』『日本語日常会話コーパス』†

↑

「中納言」授業アカウント配布†

授業で使うコーパスが授業期間の半年間のみ使えるアカウントを配布します
個人アカウントを持っている人はそれを使ってください https://chunagon.ninjal.ac.jp/

↑

コーパスを使ってみる†

細かい話は抜きで「中納言」でコーパスを使ってみよう

『現代日本語書き言葉均衡コーパス』（BCCWJ）
コアデータのみを対象とする指定（負荷軽減のため）
文字列検索
短単位検索

↑

コーパスとは†

以下、スライド（CoursePower）参照

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 参考：「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」「日本語日常会話コーパス（CEJC）」と「日本語歴史コーパス（CHJ）」「昭和・平成書き言葉コーパス（SHC）」

↑

コーパスへの要請†

大規模であること
各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
著作権の問題がないこと
言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://clrd.ninjal.ac.jp/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長

著作権をめぐる問題

↑

「日本語日常会話コーパス」（CEJC）の設計・構成†

個人情報保護をめぐる問題

↑

09/26　第1回　イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://clrd.ninjal.ac.jp/

↑

授業内容等の確認†

シラバスの確認
- シラバス
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

授業内容デモ†

コーパスの利用
- コーパス検索システム中納言
Excelによる集計
- ピボットテーブル
- 文字列関数・XLOOKUP関数

形態素解析
- Web茶まめ

↑

「中納言」アカウントについて†

「中納言」オンライン利用申込み
- 他のコーパス無含めて今後も利用したい場合は下記から個人でアカウントを取得してください
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
ワープロWord	「スタイル」を利用したレポート作成
Web茶まめ	形態素解析

↑

09/19　第0回　休講†

初回から申し訳ありませんが、国際会議（EAJRS, TEI）出張のため休講です。
9月16日分のリンク先を見て、この授業で使うコーパスについて予習をしておいてください。

成蹊2025/日本語学講義Ｄ の履歴(No.13)