成蹊2022

応用日本語講座(日本語・日本文学のためのコンピュータ)


レポート提出について

07/22 レポートテーマの予備調査結果発表(続き)/Wordでレポートを書く

Wordでレポートを書く

文書の構造化とWordの使い方(レポートの書き方)

レポートの構成について

07/15 レポートテーマの予備調査結果発表(ライトニングトーク)

07/08 コーパスと形態素解析(「Web茶まめ」の利用)/レポートテーマの調査と質問

【前回補足】「中納言」の利用:形態論情報を使った検索

この授業ではごく簡略に使い方を説明します(本格的な利用法は成蹊2022/日本語学講義Dで)

品詞体系と見出し語の階層

「Web茶まめ」の利用

Excel文字列関数の利用

集計に必要な情報を既存のデータから取り出して集計に使う

07/01 (休み)学内運動競技大会

06/24 レポートについて/コーパスの使い方

レポートテーマ案

「中納言」の紹介

青空文庫の集計結果との比較例

ひまわり+Excelの復習

06/17 さまざまな集計方法(2)/コーパスの紹介

作品数の調査(用例数ではなく)

テキストエディタで「ひまわり」の検索結果を加工する

「ひまわり」で利用可能なその他のデータについて


国立国語研究所のコーパス

「中納言」の紹介


【次回予告】レポートテーマ案について

06/10 さまざまな集計方法/レポートについて

課題(復習)

Himawari+青空文庫(文学作品)パッケージを使って、「悲し」と「哀し」を検索し、検索結果にExcel上で作家の生年代(10年刻み)を付与したうえで、ピボットテーブルで集計して、生年代別に「悲し」「哀し」の用例数を示す表と使用割合を示すグラフを作成しなさい。

分類用の列を作って集計する

サンプリング調査

複数の検索結果を結合する

一度にピボットテーブルで集計できるように検索結果1の表の下に検索結果2(列名なし)を貼り付けて一つの表にまとめる

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home*4(表の左上へ移動), ↓(列名は選択しないようにするため1行下へ),Shift+Ctrl+End, Ctrl+C(コピー)
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓(表の一番下の行に移動), ↓(1行下へ), Ctrl+V(貼り付け)

レポートテーマについて(予告)

06/03 検索結果のExcelによる集計(2)

(復習)ピボットテーブルの使い方

ひまわり検索結果をExcelで扱う

生年代による集計(通時的変化)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

05/27 検索結果のExcelによる集計

正規表現小テスト:答え合わせ

「ひまわり」とその使い方

ひまわり検索結果をExcelで扱う

Excelの基本操作

05/20 全文検索システム「ひまわり」

全文検索システム「ひまわり」について

Himawari_SS.png

「ひまわり」のインストール

  1. ひまわり のダウンロードページからプログラム本体(zipファイル)をダウンロード
  2. zipファイルを右クリックしてプロパティを見る→「セキュリティ」の右の「許可する」をチェックして「OK」
  3. ダブルクリックして開き、中のフォルダをまるごと(USBメモリに)コピー
  4. フォルダ内のhimawari.exeをダブルクリックで起動(MacはHimawari.jar、または最初からMac版をインストール)

「青空文庫パッケージ」のインストール

  1. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「日本文学/小説(ndc913) 」をダウンロードして保存
  2. himawari.exeを起動
    1. Himawari画面上にダウンロードしたzipファイルをドラッグ&ドロップ*6
    2. しばらく待つと完了(数分から10分程度はかかる)
  3. 要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」とその使い方


前回補足:Wordのワイルドカードと正規表現

正規表現小テスト

05/13 正規表現の応用/タグ付き正規表現

ゲームの紹介

正規表現の応用

タグ付き正規表現

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

「ひまわり」の準備

05/06 正規表現

正規表現を使ってみる

正規表現とは

正規表現のいろいろ

04/29(授業実施日) テキストエディタの利用

放送予定

テキストデータ(青空文庫)の配布

復習

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る(簡易版)

04/22 テキストデータと文字コード

文字コード

テキストデータ

テキストエディタ

サクラエディタのダウンロードとインストール

フリーソフトウェア(無償)のエディタを使います。(PC教室のパソコンにはインストール済み)

(以下は自分のPCで使う場合)

テキストエディタを使ってみる

04/15

イントロダクション

授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord文書構造を意識したレポート作成

授業で利用する主なデータ

デモ


*1 Macの場合はCommand
*2 EndキーはノートPCではしばしばFn+→
*3 EndがFn+→の場合は、Shift+Ctrl+Fn+→を同時押し
*4 EndキーはノートPCではしばしばFn+←
*5 LEFTのような関数名は小文字でも構わないが、記号も含め、必ず半角
*6 または、メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-07-24 (日) 19:19:53