FrontPage

2018清泉女子大学 集中講義

  • 10:00 - 15:30
  • 412教室


7月30日(月)

第1回 イントロダクション

自己紹介

授業内容の紹介

授業で利用する主なソフトウェア・Webアプリケーション

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
コーパス検索アプリケーション「中納言」コーパスの検索
Web茶まめ形態素解析

デモ

  • テキストエディタとgrep
  • 全文検索システムひまわり

シラバス確認

受講者アンケート

  • 関心分野・時代
  • PC歴

国語研のコーパス利用申し込み(「中納言」)

第2回 電子化テキストとテキストエディタ

テキストデータとは

テキストエディタ

準備

  • zipファイルの展開(解凍)
    • 解凍しないままでも開けるが必ず解凍すること
  • テキストエディタの設定
    • 行の折り返し
    • 行番号表示
      • スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)

テキストエディタの基本

  • 検索・置換、grep
    • 検索で初出行を調べる
    • 置換で用例数を数える
    • grepで用例リストを作る
    • タグジャンプで文脈を確認する
    • サブフォルダのgrep

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る(簡易版)

  • CSVファイルとは:テキストファイルで表を表現する 用語:CSVファイル
  • KWIC:KeyWord In Context

第3回 テキストエディタと正規表現 

正規表現を使ってみる

  • 文字クラス
    • 例:読[まみむめもん]
      • 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

正規表現とは

  • 正規表現 >用語
    • 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
    • エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ−ションやコンピュータ言語で利用されている)
    • 特殊な文字(メタ文字)はすべて半角

正規表現のいろいろ

  • 授業資料/正規表現
    • 文字クラス [ ]
    • 文字クラスの否定(補集合)[^ ]
    • 繰り返し ? + *
    • グループ化 ()
    • or(論理和) |
    • 文頭 ^、文末 $

「ひまわり」データを持ち帰りたい人(特に近代文学に関心のある人)は明日、USBメモリ(空き2GB)を持ってきてください。

7月31日(火)

「中納言」申し込み状況の確認

前回補足

正規表現の応用

  • カタカナ語
    • カタカナ(外来語)の形容動詞語幹
  • 送りがなの揺れ(行う/行なう)
  • 会話文中("「"で始まる文中)の用例を検索する
  • 同一文中での共起
    • 全然〜ない。
    • もし〜なら(ば)

青空文庫のテキストデータ(全)

  • aozoradoc2.zip(青空文庫全テキスト・参考)
    • 必要な人のみダウンロードしてUSBメモリで持ち帰ってください

第4回 タグ付き正規表現

タグ付き正規表現とは

  • 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
    • 次のように置換するととんでもないことに…
      • 検索文字列:走[らりるれろっ]
      • 置換文字列:★走[らりるれろっ]
  • タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
  • 授業資料/タグつき正規表現

検索文字列の中での後方参照

  • 検索語の中で\1を使う
    • (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
    • (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ

最長一致の原則(greedy matching)

  • 正規表現は、パターンが一致する最も長い範囲にマッチする
    • 例:あ+【\1】
      • ああああああああ → 【ああああああああ】 そのせいで…
    • 例:「(.+)」【\1】
      • 「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
    • 括弧の組ごとに置換するためには「([^」]+)」【\1】 のように書かなければならない
      • 「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
  • よりかんたんに指定するには(最短一致,ものぐさ指定)
    • 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける

正規表現に関する参考資料

第5回 全文検索ソフト「ひまわり」

全文検索システム「ひまわり」について

himawari_aozora.png

「ひまわり」と「青空文庫パッケージ」のインストール

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」の使い方

  • 振り仮名の検索

第6回 Excelによる検索結果の集計(ピボットテーブル)

ひまわりの検索結果をExcelに

  • 検索結果のコピー
    1. すべて選択>コピー(列名を含む)
    2. Excelを起動して貼り付け

Excelの基本操作

  • 並べ替え(ソート)
  • フィルター(絞り込み)
    • テキストフィルター
    • 多重フィルター(複数の条件指定)
  • ピボットテーブル★
    • ピボットグラフ

ひまわり検索結果をExcelで扱う

  • ピボットテーブルとピボットグラフ
    • 例:「気持ち」「心持ち」
    • 例:「それきり」「それぎり」
    • 例:「〜的な」「〜的の」
      • ※「目的」「標的」などをフィルタで除去

生年代による集計(通時的変化)

  • 文字列処理関数の利用
    • 例: =left(<文字列>,<文字数>)
      • 生年代: =left(<生年月日が入っているセル>,3)*10
  • 生年月日データの書式について
    • 「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ
      • 1900年以前の年月日は文字列、それ以降は日付として認識される
  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

資料配布(「中納言」の使い方,「中納言」による検索):明日、必ず持ってきてください。

8月1日(水)

前回補足

分類用の列を作って集計する

  • 入力用の列を作り手作業で意味分類する
    • 例:「新聞紙」の意味・用法の変化

サンプリング調査

  • 大量に用例があり、調査内容からすべて対象にできない場合
  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =RAND()
    • ランダムな数字の列をコピーして値として貼り付けると数字が固定される

ひまわりで利用可能なデータについて

  • 現代語のデータ
    • 国会会議録データ
    • 法令データベース
    • 口コミサイト
  • 近代語のデータ
    • 太陽コーパス
    • 近代女性雑誌コーパス
    • 明六雑誌コーパス
    • 国定高等小学読本
  • 古典文学作品のデータ

第7回 日本語コーパスの紹介

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
  • この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

  • (スライド参照) コーパスの設計とサンプリング
  • 均衡コーパス(Balanced corpus)
    • 「バランスがとれている」「代表性」とは?
    • コーパスの母集団の設定とサンプリング
    • BCCWJのサブコーパス
    • 可変長と固定長
  • 著作権をめぐる問題

「日本語歴史コーパス」(CHJ)の構成

第8回 Web版コーパス検索ツールの利用(1)

BCCWJ, CHJの検索ツール

  • BCCWJ少納言
    • 登録不要
    • 文字列検索のみ
    • 500例まで表示
  • 中納言(BCCWJ, CHJほか)
    • 要登録
    • 形態論情報を使った検索
    • 全件(一度に最大10万例まで)ダウンロード可

コーパスの形態論情報:短単位と長単位

  • (スライド参照) 短単位と長単位
  • 配布資料参照

品詞体系と見出し語の階層

  • BCCWJ,CHJはUniDicの品詞体系にもとづく

第9回 Web版コーパス検索ツールの利用(2)

「中納言」の利用

  • 資料「中納言の使い方」参照

形態論情報を使った検索のまえに

  • まずは文字列検索で確認する

レポートテーマについて

  • 次回までにレポートテーマを考えてくること

8月2日(木)

第10回 Web版コーパス検索ツールの利用(3)

形態論情報を使った検索

  • 資料「中納言の使い方」参照

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

第11回 検索結果の集計と分析

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎ふたたび(略)

  • 並べ替え
    • 反転前文脈の使い方
  • フィルタ
    • テキストフィルタ
  • ピボットテーブル
  • ピボットグラフ

複数の検索結果の結合

  • 例:蒲公英・向日葵・菫

ショートカットキーを活用すると便利

  • Ctrl+End ファイルの末尾/表のいちばん右下に移動
  • Shift+Ctrl+End 〃範囲を選択
  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

集計用の列を自分で用意する

  • 例:表記(ひらがな・かたかな・漢字)別集計
  • 例:用法分類

「検索課題」

  • 配付資料参照

第12回 レポートテーマ探索と調査

  • 普段から見聞きする言葉に気をつけるとともに、図書館も活用すること
  • ひとつの言葉から、同種の別の語や違う観点からの観察などへと膨らませていく

(現代語の場合)

表記

  • 「雀」「すずめ」「スズメ」動植物名の表記・・・レジスター別用例数、文体差
  • 「卵」「玉子」「たまご」「タマゴ」・・・意味の違い?文体差?
  • 「斡旋」「あっ旋」「あっせん」、「石鹸」「石けん」「せっけん」・・・常用漢字表外字を含む漢語の表記の揺れ

類義語・対義語

  • 「奇麗」と「美しい」・・・連体修飾する名詞の違い(→意味の違い)
  • 「うるさい」「やかましい」「さわがしい」「かしましい」「かまびすしい」類義語・・・共起語、文体差
  • 「男性」と「女性」(「男」と「女」)・・・語彙の非対称性、社会言語学的分析

語形、語法

  • 「好ましい」「好もしい」・・・語形の揺れと文体差
  • 「煙草を吸う」と「煙草をのむ」・・・用例数の割合、「煙草をのむ」の出現条件

新語・意味変化

  • 「断トツ」「定番」「夜ご飯」・・・新語の広がり
  • 「役不足」「確信犯」・・・”誤用”と”正用”

検索の例

明日までにレポートテーマを考えてくること。

8月3日(金)

第13回 データの加工と集計 (Excel)

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプル(作品)の数を調べたい場合

  • たとえば一人称代名詞など、サンプル毎に偏って多数現れる語の調査 「データ」→「重複の削除」

Excelの文字列関数とIF関数

  • 例:ジャンル(NDC)の整理
    • 先頭の文字を取り出す(NDCの一次区分(=類))
      • =LEFT(ジャンルのセル,1)
    • スラッシュで区切られた最初の部分(ジャンルの大分類)
      • =LEFT(ジャンルのセル,SEARCH("/",ジャンルのセル)-1)
  • 集計用に用意した列で文字列処理関数を利用する
    • LEFT
    • RIGHT
    • MID
    • LEN
    • SEARCH
    • SUBSTITUTE
  • 条件わけ:IF
  • エラー対応:IFERROR
  • 応用例:品詞の大分類を使う
    • =IFERROR(LEFT(品詞,SEARCH("-",品詞)-1),品詞)

【参考】 授業資料/EXCELの文字列関数

ランダムサンプリング調査(Excelでの集計)ふたたび

  • 大量に用例があり、調査内容からすべて対象にできない場合
  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =RAND()
    • ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
  • ex.「全然」

BCCWJ利用の落とし穴

  • BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
    • レジスターによって母集団の年が違っている
      • レジスターの偏りを年代の偏りと勘違いしないこと
    • 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ
  • もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
    • cf.人口あたりの事故件数,1平方キロあたりの…etc.

調整頻度の計算

  • 粗頻度を総語数で割る
    • レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
      • 語数ファイルをピボットテーブルで集計して分母に
  • 調整頻度には100万語あたりの頻度(pmw)が比較的よく使われる
    • 粗頻度/コーパス総語数*1000000
      • 数字が小さくなりすぎないようにするため
  • ※割合の違いを比較するだけなら調整頻度を出す必要はない。

発展(Excelの活用)

第14回 レポートテーマの確認と調査

レポートテーマに関する調査と質問対応

  • 考えてきたテーマについて、実際に用例を検索してレポート作成を進めます。
  • 積極的に質問して下さい。

第15回 Wordでレポートを書く(文書の構造化)

Wordを使ってレポートを書く

  • 図表の取り扱い
    • 「形式を選択して貼り付け」
    • 図表番号、キャプション
  • 文書の構造化
    • 章・節番号
    • 「スタイル」「ナビゲーション ウィンドウ」(見出しマップ)の活用
  • 図表番号と相互参照
    • 脚注、文末脚注
    • 目次、図表目次

レポートテーマに関する調査と質問対応

  • 考えてきたテーマについて、実際に用例を検索してレポート作成を進めます。
  • 積極的に質問して下さい。

レポート提出について

授業で紹介したコーパス・データとコンピュータの技術を用いて、言葉の用例に基づく(実証的な)調査結果と考察をまとめなさい。時代・分野は問いません。

  • 「学びの泉」で期限までに提出してください。
  • 分量:A4用紙で3〜10枚(4枚以上を推奨)
  • ファイルに氏名・学籍番号を明記すること。
    • Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ってください。

9月20日 締め切り


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS