2019清泉女子大学 集中講義



9月2日(月)

第1回 イントロダクション

自己紹介

授業内容の紹介

授業で利用する主なソフトウェア・Webアプリケーション

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
コーパス検索アプリケーション「中納言」コーパスの検索
Web茶まめ形態素解析

デモ

シラバス確認

受講者アンケート

国語研のコーパス利用申し込み(「中納言」)

第2回 電子化テキストとテキストエディタ

テキストデータとは

テキストエディタ

準備

テキストエディタの基本

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る(簡易版)

第3回 テキストエディタと正規表現 

正規表現を使ってみる

正規表現とは

正規表現のいろいろ


「ひまわり」データを持ち帰りたい人(特に近代文学に関心のある人)は明日、USBメモリ(空き2GB)を持ってきてください。

9月3日(火)

「中納言」申し込み状況の確認

前回補足

正規表現の応用

青空文庫のテキストデータ(全)

第4回 タグ付き正規表現

タグ付き正規表現とは

検索文字列の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する参考資料

#amazon(4873114500) #amazon(4873113598)

第5回 全文検索ソフト「ひまわり」

全文検索システム「ひまわり」について

himawari_aozora.png

「ひまわり」と「青空文庫パッケージ」のインストール

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」の使い方

第6回 Excelによる検索結果の集計(ピボットテーブル)

ひまわりの検索結果をExcelに

Excelの基本操作

ひまわり検索結果をExcelで扱う

生年代による集計(通時的変化)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. 新しいExcelのシートで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

分類用の列を作って集計する

サンプリング調査

ひまわりで利用可能なデータについて

9月9日(月)

第7回 日本語コーパスの紹介

資料配布(「中納言」の使い方,「中納言」による検索):明日以降も必ず持ってきてください。

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

「日本語歴史コーパス」(CHJ)の構成

第8回 Web版コーパス検索ツールの利用(1)

BCCWJ, CHJの検索ツール

コーパスの形態論情報:短単位と長単位

品詞体系と見出し語の階層

第9回 Web版コーパス検索ツールの利用(2)

「中納言」の利用

形態論情報を使った検索のまえに

レポートテーマについて

9月10日(火)

第10回 Web版コーパス検索ツールの利用(3)

形態論情報を使った検索

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

第11回 検索結果の集計と分析

「中納言」検索結果のダウンロードとExcelでの利用

Excelの基礎ふたたび(略)

複数の検索結果の結合

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓, ↓, Ctrl+V, Ctrl+Home

集計用の列を自分で用意する

「検索課題」

第12回 レポートテーマ探索と調査

(現代語の場合)

表記

類義語・対義語

語形、語法

新語・意味変化

検索の例

明日までにレポートテーマを考えてくること。

9月11日(水)

第13回 データの加工と集計 (Excel)

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプル(作品)の数を調べたい場合

Excelの文字列関数とIF関数

【参考】 授業資料/EXCELの文字列関数

ランダムサンプリング調査(Excelでの集計)ふたたび

BCCWJ利用の落とし穴

調整頻度の計算

発展(Excelの活用)

第14回 レポートテーマの確認と調査

レポートテーマに関する調査と質問対応

第15回 Wordでレポートを書く(文書の構造化)

Wordを使ってレポートを書く

レポートテーマに関する調査と質問対応

レポート提出について

授業で紹介したコーパス・データとコンピュータの技術を用いて、言葉の用例に基づく(実証的な)調査結果と考察をまとめなさい。時代・分野は問いません。

10月31日 締め切り


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-09-11 (水) 10:40:17