成蹊2025/応用日本語講座
Top
/
成蹊2025
/
応用日本語講座
成蹊2025
応用日本語講座
†
2025年度前期・金曜2限:
10:40~12:20
教室:7号館303
Mail:
ogiso@ogiso.net
シラバス
CoursePower授業ページ
↑
05/23 さまざまな集計方法 / コーパスの紹介
†
↑
複数の検索結果を結合する
†
一度の検索では探せない語群の集計、または後から検索結果を追加する場合
「幸せ」「倖せ」「仕合わせ」
一度にピボットテーブルで集計できるように検索結果1の表の下に検索結果2(列名なし)を貼り付けて一つの表にまとめる
※必ず表をくっつけること(空行を入れるとそこで表が切れていると認識される)
ショートカットキーを活用すると便利
コピーした表を既存の表の下に貼り付け
Ctrl+↓(表の一番下の行に移動), ↓(1行下へ), Ctrl+V(貼り付け)
↑
作品数の調査(用例数ではなく作品数で調査する)
†
たとえば人称代名詞のように、一つの作品に偏って大量に用例がある場合
sample
↑
テキストエディタで「ひまわり」の検索結果を加工する
†
例:正規表現をつかった置換で前後文脈を整える
↑
「ひまわり」で利用可能なその他のデータについて
†
『青空文庫』パッケージ( 小説以外を含む15000作品以上を収録)
『国会会議録』パッケージ
『名大会話コーパス』パッケージ
近代語のコーパス
↑
国語研のコーパスと「中納言」の紹介
†
コーパス検索アプリケーション「中納言」
アカウントについて
↑
国立国語研究所のコーパス
†
コーパス開発センター
「現代日本語書き言葉均衡コーパス」
「日本語歴史コーパス」
「日本語日常会話コーパス」
「昭和・平成書き言葉コーパス」
↑
青空文庫の集計結果との比較例
†
明治大正時代の変化はその後どうなったか:BCCWJとの比較
それぎり
心持ち
近代の雑誌や教科書ではどうなっているか:CHJ(雑誌・教科書)との比較
明治大正より前(江戸時代以前)はどうなっているか:CHJ(江戸時代以前)との比較
↑
05/16 検索結果のExcelによる集計
†
↑
(復習)Excelの基本操作
†
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル【重要】
ピボットグラフ
↑
(復習)ピボットテーブルの使い方・生年代による集計
†
ピボットテーブル
ピボットグラフ
例:「気持ち」「心持ち」
↑
分類用の列を作って集計する
†
入力用の列を作り手作業で意味分類する
例:「新聞紙」の意味・用法の変化
↑
ランダムサンプリング調査
†
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =RAND()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
05/09 「ひまわり」の利用と検索結果のExcelでの集計/正規表現小テスト
†
↑
「ひまわり」とその使い方(復習)
†
ひまわりの動作確認
検索方法の説明
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
ふりがな(ルビ)の検索
↑
ひまわり検索結果をExcelで扱う
†
例:「それきり」「それぎり」
(作家/作品別の比較)
↑
Excelの基本操作
†
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル【重要】
ピボットグラフ
↑
生年代による集計(通時的変化)
†
文字列処理関数の利用
例: =LEFT(<文字列>,<文字数>)
*1
生年代: =LEFT(<生年月日が入っているセル>,3)*10
生年月日データの書式について
下記の手順で「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ必要がある
Excelでは1900年以前の年月日は文字列、それ以降は日付として認識されるため
Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
Excelに貼り付ける
↑
正規表現小テスト
†
↑
05/02 高度な正規表現/全文検索システム「ひまわり」
†
↑
タグ付き正規表現
†
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現:カッコ(半角丸カッコ)と$1
*2
($2,$3…)を使う
授業資料/タグつき正規表現
↑
最長一致の原則(greedy matching)
†
正規表現は、パターンが一致する最も長い範囲にマッチする
例:
あ+
→
【$1】
ああああああああ → 【ああああああああ】 そのせいで…
例:
「(.+)」
→
【$1】
「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
括弧の組ごとに置換するためには
「([^」]+)」
→
【$1】
のように書かなければならない
「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
よりかんたんに指定するには(最短一致,ものぐさ指定)
「(.+?)」「(.*?)」
のように、繰り返し指定の+*の後に「?」をつける
(参考)タグ付き正規表現の応用:
grepと置換でKWICを作る
↑
検索文字列の中での後方参照
†
検索語の中で\1
*3
を使う
(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
(..)\1\1
(...)\1
↑
正規表現に関する参考資料
†
正規表現に関する本
amazonで検索
↑
補足:Wordのワイルドカードと正規表現
†
https://note.com/jinbunxshakai/n/n8070db080041
↑
「ひまわり」の準備
†
全文検索システム「ひまわり」
↑
「ひまわり」のインストール
†
ひまわり のダウンロードページ
からプログラム本体(zipファイル)をダウンロード
zipファイルを右クリックしてプロパティを見る→「セキュリティ」の右の「許可する」をチェックして「OK」
ダブルクリックして開き、中のフォルダをまるごと(USBメモリに)コピー
フォルダ内のhimawari.exeをダブルクリックで起動(MacはHimawari.jar、または最初からMac版をインストール)
↑
「青空文庫パッケージ」のインストール
†
青空文庫パッケージのダウンロード
ひまわり用「青空文庫」パッケージのダウンロードページ
から「日本文学/小説(ndc913) 」をUSBメモリに直接ダウンロードして保存(サイズが大きいので大学のPCではダウンロードできない)
himawari.exeを起動
Himawari画面のファイル→インストールをえらび、青空文庫パッケージのzipファイルを指定
しばらく待つと完了(場合によっては数分から10分程度はかかる)
要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する
↑
全文検索システム「ひまわり」
†
全文検索システム「ひまわり」
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
自分で専用のデータを作ることもできるが、できあがって公開されているパッケージを利用するのが普通
↑
「ひまわり」とその使い方
†
ひまわりの動作確認
検索方法の説明
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
ふりがなの検索
↑
04/25 テキストエディタと正規表現
†
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
テキストエディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
特殊な文字(メタ文字)はすべて半角
↑
正規表現のいろいろ
†
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
正規表現の応用
†
カタカナ語
カタカナ(外来語)の形容動詞語幹
送りがなの揺れ(行う/行なう)
会話文中("「"で始まる文中)の用例を検索する
同一文中での共起
全然~ない。
もし~なら(ば)
↑
04/18 テキストデータと文字コード
†
↑
文字コード
†
授業資料/文字コード関連リンク
↑
テキストデータ
†
すべての基本となる文字が並ぶだけのデータ
授業資料/テキストデータとは
バイナリデータとテキストデータ
テキストデータとテキストファイル
TXT,CSV,HTM…
ファイルの種類と拡張子 参考:
拡張子辞典
拡張子(wikipedia)
授業で使うテキストデータ
授業資料/テキストデータ紹介
↑
テキストエディタ
†
テキストエディタとはどんなものか
授業資料/テキストエディタ
↑
テキストエディタのダウンロードとインストール
†
フリーソフトウェア(無償)のMicrosoft
Visual Studio Code
(VSCode)を使います。
↑
インストールと最初の設定
†
VS Codeのインストール
WindowsのスタートメニューからMicrosoft Storeを起動
VSCodeを検索
インストール をクリック
または
ブラウザで
https://code.visualstudio.com/
へ
Download for Windowsをクリック
~.exeをダブルクリックして指示に従う
最初の設定
拡張機能 Japanese Language Packの追加
参考:
https://zenn.dev/ayatokura/articles/vscode-article-2
ファイルオープン時にエンコーディングを自動判別するよう設定
参考:
https://www.javadrive.jp/vscode/setting/index3.html
↑
テキストエディタを使ってみる
†
テキストエディタの設定
行の折り返し Alt+Z
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石 こころ.txt)
sample.zip
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
↑
ショートカットキー
†
Windowsの主なショートカットキー
授業資料/覚えておきたいショートカットキー
Macのショートカットキー
https://support.apple.com/ja-jp/HT201236
↑
テキストデータ(青空文庫の夏目漱石作品)の配布
†
★
soseki2.zip
(今日の授業で使います)
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
参考
†
授業資料/テキストエディタと正規表現
↑
USBメモリの準備について
†
↑
04/11 イントロダクション
†
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
https://www.ninjal.ac.jp/
言語資源開発センター
シラバス確認
この授業の
シラバス
この授業の目的
授業の進め方
評価方法
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
or
VisualStudio Code
テキストデータの作成・整備、正規表現を使った検索など
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
文書構造を意識したレポート作成
↑
授業で利用する主なデータ
†
青空文庫
の近代の小説
国立国語研究所のコーパス
「現代日本語書き言葉均衡コーパス」
「日本語日常会話」
「昭和・平成書き言葉コーパス」
「日本語歴史コーパス」
↑
デモ
†
テキストエディタとgrep, 正規表現
全文検索システム
ひまわり
Excel(ピボットテーブル)
形態素解析:
Web茶まめ
現代語コーパス
少納言
OGISO.NET
自己紹介
OGISO.NET mail
Private
最新の10件
2025-05-16
成蹊2025/応用日本語講座
2025-05-14
九大2025講習会
2025-05-12
総研大2025/言語資源学
総研大2025/言語研究基礎論ⅢA
総研大2025
2025-04-10
成蹊2025
2025-02-03
総研大2024/言語資源学演習1
2025-01-17
成蹊2024/日本語学講義D
2024-12-23
授業資料/PythonでXML
2024-12-13
授業資料/XLOOKUP関数
*1
LEFTのような関数名は小文字でも構わないが、記号も含め、必ず半角
*2
VSCodeでは$1、サクラエディタなどでは\1でもいい
*3
後方指定ではVSCodeも\1
Last-modified: 2025-05-16 (金) 19:25:18