成蹊2025

応用日本語講座

05/23 さまざまな集計方法 / コーパスの紹介

複数の検索結果を結合する

一度にピボットテーブルで集計できるように検索結果1の表の下に検索結果2(列名なし)を貼り付けて一つの表にまとめる

ショートカットキーを活用すると便利

作品数の調査(用例数ではなく作品数で調査する)

テキストエディタで「ひまわり」の検索結果を加工する

「ひまわり」で利用可能なその他のデータについて

国語研のコーパスと「中納言」の紹介

国立国語研究所のコーパス

青空文庫の集計結果との比較例

05/16 検索結果のExcelによる集計

(復習)Excelの基本操作

(復習)ピボットテーブルの使い方・生年代による集計

分類用の列を作って集計する

ランダムサンプリング調査

05/09 「ひまわり」の利用と検索結果のExcelでの集計/正規表現小テスト

「ひまわり」とその使い方(復習)

ひまわり検索結果をExcelで扱う

Excelの基本操作

生年代による集計(通時的変化)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

正規表現小テスト

05/02 高度な正規表現/全文検索システム「ひまわり」

タグ付き正規表現

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

補足:Wordのワイルドカードと正規表現

「ひまわり」の準備

「ひまわり」のインストール

  1. ひまわり のダウンロードページからプログラム本体(zipファイル)をダウンロード
  2. zipファイルを右クリックしてプロパティを見る→「セキュリティ」の右の「許可する」をチェックして「OK」
  3. ダブルクリックして開き、中のフォルダをまるごと(USBメモリに)コピー
  4. フォルダ内のhimawari.exeをダブルクリックで起動(MacはHimawari.jar、または最初からMac版をインストール)

「青空文庫パッケージ」のインストール

  1. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「日本文学/小説(ndc913) 」をUSBメモリに直接ダウンロードして保存(サイズが大きいので大学のPCではダウンロードできない)
  2. himawari.exeを起動
    1. Himawari画面のファイル→インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(場合によっては数分から10分程度はかかる)
  3. 要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する

全文検索システム「ひまわり」

Himawari_SS.png

「ひまわり」とその使い方

04/25 テキストエディタと正規表現

grepと置換でKWIC(CSVファイル)を作る(簡易版)

正規表現とは

正規表現のいろいろ

正規表現の応用

04/18 テキストデータと文字コード

文字コード

テキストデータ

テキストエディタ

テキストエディタのダウンロードとインストール

インストールと最初の設定

  1. 拡張機能 Japanese Language Packの追加
  2. ファイルオープン時にエンコーディングを自動判別するよう設定

テキストエディタを使ってみる

ショートカットキー

テキストデータ(青空文庫の夏目漱石作品)の配布

正規表現を使ってみる

参考

USBメモリの準備について

04/11 イントロダクション

授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ
or
VisualStudio Code
テキストデータの作成・整備、正規表現を使った検索など
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord文書構造を意識したレポート作成

授業で利用する主なデータ

デモ


*1 LEFTのような関数名は小文字でも構わないが、記号も含め、必ず半角
*2 VSCodeでは$1、サクラエディタなどでは\1でもいい
*3 後方指定ではVSCodeも\1

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2025-05-16 (金) 19:25:18