成蹊2016

日本語・日本文学のためのコンピュータ

  • 日本語学・日本文学を研究していく上で必要なコンピュータの知識・技術(テキストエディタ・正規表現・表計算ソフト・文書の構造化)を学びます。 
  • 前期2限
  • 7号館3階 301パソコン教室
  • ogiso@ogiso.net ←@を@に直してください

期末レポートについて

  • 締切:8月5日(金)
  • 提出先:メールで直接送付(必ず返信を確認すること)
  • 分量:A4用紙で3〜10枚
    • メール・Wordファイルの両方に氏名・学籍番号を明記すること
    • Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ってください

2016/7/22

レポートの作成と質問

  • レポート完成に向けて作業を進めながら積極的に質問してください。

「中納言」の紹介

2016/7/15

レポートテーマ予備調査結果発表(ライトニングトーク)残り

Wordでレポートを書く

文書の構造化とWordの使い方(レポートの書き方)

  • 文書の構造化*
    • スタイルと見出し
    • ナビゲーション ウィンドウ(見出しマップ)の使い方
    • 章・節番号
  • 図表の貼り込み*
    • 「形式を選択して貼り付け」
    • 図表番号とキャプション
  • 脚注
    • 脚注と文末脚注
  • 相互参照
    • 節番号、図表番号と相互参照
    • 目次、図表目次
  • ページ番号*
  • PDFとして保存(ブックマークを付加)*

2016/7/8

レポートテーマ予備調査結果発表(ライトニングトーク)

レポートテーマに関する調査(2)

2016/7/1

レポートテーマに関する調査

  • 各自のレポートテーマ(先週のものから変えても可)について調査してください。
  • 個別に見て回ります。積極的に質問してください。
  • 注意
    • パソコン・ネットだけでは十分な調査はできません。図書館を利用してください。(参考文献は明記すること)
    • 最低限『日本国語大辞典』等のしっかりした辞典にあたっておくこと。

2016/6/24

現代語との比較 ―BCCWJ少納言

  • 「気持ち」「心持」を例に、青空文庫の集計結果と比較
    • BCCWJ内部でも生年による違いがある

形態素解析

  • 形態素解析結果の集計・分析

2016/6/17

レポートテーマについて

調整頻度の計算

  • たとえば一つの語の用例数を作家別で比較するとき、単純な用例数(粗頻度)では、作家ごとに文章量が大きく違うので、直接比べられない。
  • 一定の文字数ごとの頻度のような調整頻度に直して比較する
    • 本来なら語数が望ましいが、青空文庫データでは語数がわからないので文字数を使う
      • =用例数/作品の総語数*1000000 (100万文字あたり何回出現するか)

※「それきり」「それぎり」のように割合を作家ごとに比較する場合には調整頻度は必要ない

  • 作品別の用例数と作品の総文字数の入ったリストは、「ひまわり」で検索した後にメニューの「ツール」→「統計」→「キー,作品」で取得できる
    • このリストをピボットテーブルで集計することで、作家別の調整頻度を計算することができる

2016/6/10 Excelによる集計(2)

分類用の列を作って集計する

  • 入力用の列を作り手作業で意味分類する
    • 例:「新聞紙」の意味・用法の変化

サンプリング調査

  • 大量に用例があり、調査内容からすべて対象にできない場合
  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =RAND()
    • ランダムな数字の列をコピーして値として貼り付けると数字が固定される

ひまわりで利用可能なデータについて

  • 現代語のデータ
    • 国会会議録データ
    • 法令データベース
    • 口コミサイト
  • 近代語のデータ
    • 太陽コーパス
    • 近代女性雑誌コーパス
    • 明六雑誌コーパス
    • 国定高等小学読本
  • 古典文学作品のデータ

調査例:「障碍」「障害」 ケーススタディ/障がい

レポートについて

  • レポートテーマ確認(第1回)来週

2016/6/3 Excelによる集計

(復習)ひまわり検索結果をExcelで扱う

  • ピボットテーブルとピボットグラフ
    • 例:「それきり」「それぎり」
    • 例:「〜的な」「〜的の」
      • ※「目的」「標的」などをフィルタで除去

ひまわりによる検索・補足

生年代による集計(通時的変化)

  • 文字列処理関数の利用
    • 例: =left(<文字列>,<文字数>)
      • 生年代: =left(<生年月日が入っているセル>,3)*10
  • 生年月日データの書式について
    • 「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ
      • 1900年以前の年月日は文字列、それ以降は日付として認識される
  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

レポートテーマについて(予告)

  • 授業で紹介したエディタや表計算ソフトの使い方を活かして、たとえば次のようなテーマでレポートをまとめてもらいます。データは授業で配布・紹介したものを自由に利用してください。
    • 例:作家ごとの言葉の使い方の違い
    • 例:類義語の意味の違い
    • 例:語の用法の変化
    • 例:語形・(表記)のゆれ
    • などなど

2016/5/20

前回小テスト解説

「ひまわり」とその使い方

  • ひまわりの動作確認
  • 検索方法の説明

ひまわり検索結果をExcelで扱う

  • 例:
    • 「気持ち」「心持ち」

Excelの基本操作

  • 並べ替え(ソート)
  • フィルター(絞り込み)
    • テキストフィルター
    • 多重フィルター(複数の条件指定)
  • ピボットテーブル★
    • ピボットグラフ

「ひまわり」と「青空文庫パッケージ」のインストールまとめ

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

2016/5/13

ひまわり

  • 青空文庫パッケージのインストール

「ひまわり」とその使い方

himawari_aozora.png

ひまわり検索結果をExcelで扱う

  • ピボットテーブルを使ってみる

正規表現小テスト

2016/5/6

  • 今回からUSBメモリが必須です。忘れた場合は次回までに今日の内容と同じ処理を自分でしておいて下さい。

タグ付き正規表現(再掲)

  • 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
    • 次のように置換するととんでもないことに…
      • 検索文字列:走[らりるれろっ]
      • 置換文字列:★走[らりるれろっ]
  • タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
  • 授業資料/タグつき正規表現

検索文字列の中での後方参照

  • 検索語の中で\1を使う
    • (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
    • (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ

最長一致の原則(greedy matching)

  • 正規表現は、パターンが一致する最も長い範囲にマッチする
    • 例:あ+【\1】
      • ああああああああ → 【ああああああああ】 そのせいで…
    • 例:「(.+)」【\1】
      • 「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
    • 括弧の組ごとに置換するためには「([^」]+)」【\1】 のように書かなければならない
      • 「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
  • よりかんたんに指定するには(最短一致,ものぐさ指定)
    • 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける

正規表現に関する参考資料

全文検索システム「ひまわり」について

「ひまわり」の導入

  • 動作確認

2016/4/29(祝日/授業実施日)

正規表現

  • 今日の練習用テキストデータ

テキストエディタ・正規表現(文字クラス)の復習

  • 文字クラス
    • 例:読[まみむめもん]

grepと置換でKWIC(CSVファイル)を作る(簡易版)

  • CSVファイルとは:テキストファイルで表を表現する 用語:CSVファイル
  • KWIC:KeyWord In Context

正規表現のいろいろ

  • 授業資料/正規表現
    • 文字クラス [ ]
    • 文字クラスの否定(補集合)[^ ]
    • 繰り返し ? + *
    • グループ化 ()
    • or(論理和) |
    • 文頭 ^、文末 $

正規表現の応用

  • カタカナ語
    • カタカナ(外来語)の形容動詞語幹
  • 送りがなの揺れ(行う/行なう)
  • 会話文中("「"で始まる文中)の用例を検索する
  • 同一文中での共起
    • 全然〜ない。
    • もし〜なら(ば)

タグ付き正規表現

  • 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
    • 次のように置換するととんでもないことに…
      • 検索文字列:走[らりるれろっ]
      • 置換文字列:★走[らりるれろっ]
  • タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
  • 授業資料/タグつき正規表現

2016/4/22  テキストエディタの利用

  • 今回からUSBメモリを利用します。

  • テキストデータ(青空文庫)の配布
    • ダウンロードしてUSBメモリに展開(解凍)してください
  • 検索・置換、grep
    • 検索で初出行を調べる
    • 置換で用例数を数える
    • grepで用例リストを作る
    • タグジャンプで文脈を確認する
    • サブフォルダのgrep

ショートカットキー

正規表現を使ってみる

  • 文字クラス
    • 例:読[まみむめもん]
      • 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

正規表現とは

  • 正規表現 >用語
    • 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
    • エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ−ションやコンピュータ言語で利用されている)
    • 特殊な文字(メタ文字)はすべて半角

2016/04/15 テキストデータとテキストエディタ

  • USBメモリの準備
    • 次回の授業からUSBメモリを使います。2GB(できれば4GB)以上の空きのあるUSBメモリを用意してください。

テキストデータ

テキストエディタ

  • zipファイルの展開(解凍)
    • 解凍しないままでも開けるが必ず解凍すること
  • テキストエディタの設定
    • 行の折り返し
    • 行番号表示
      • スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
  • 練習用サンプルデータ(漱石+芥川)

2016/04/08 イントロダクション

  • デモ
    • テキストエディタとgrep
    • 全文検索システムひまわり
    • Excel(ピボットテーブル)
    • 形態素解析:Web茶まめ
  • シラバス確認
    • シラバス(PDF)
    • この授業の目的
    • 授業の進め方
    • 評価方法

授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ sakura2正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS