*コーパスを用いた近代日本語の調査法 **教室変更のお知らせ -4/23より''206教室''(PC教室)に変更になりました。 #br **2010/05/07 「ひまわり」の使い方と正規表現 **[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]の検索オプション -フィルタ -検索オプション -検索キーワードと前後文脈の使い分け **ひまわりで利用できる正規表現 -正規表現とは[[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] -[[授業資料/正規表現]] -[[授業資料/Himawariの正規表現]] **例題 -「みたようだ」と「みたいだ」をピボットテーブルで集計 -表記のバリエーションに正規表現で対応 --[見み]た[やよ]う[だなに] [見み]た[様樣][だなに] ---%%[見み]た([やよ]う|[様樣])[だなに]%%(ひまわりは非対応) -活用形別に集計(Right関数で) |前文脈|キー|後文脈|雑誌名|年|号|題名|著者|位置|欄名|ジャンル|文体|話者|種別| **参考:太陽コーパス以外のひまわり用データ -青空文庫 -新潮文庫の百冊 -国会会議録 -法令データベース -etc. -ミニコーパスを自作する #br **2010/04/30 &color(red){休講}; #br **2010/04/23 「太陽コーパス」のプログラムとデータ形式 -ディスクの中に何が入っているか **収録されているプログラム -[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] ---XML形式のデータの全文検索ツール ---あらかじめインデックス(suffix arrayによる)を作るので検索が高速 -[[XMLデータを直接扱うツール>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]] --[[変換ツール「プリズム」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]] ---XSLTスタイルシートで形式を変換したり情報を抽出したりする ---テキストファイルやHTMLなどに変換できる --[[検索ツール「たんぽぽ」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9]] ---ルビを開いた検索ができる ---XMLを直接上からなめて行くので遅いが、XMLへの修正は即座に反映される -多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する --(XSLTについては後日) **とりあえずの使い方(「ひまわり」) -【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う -Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある([[ver.1.3>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.3]]) +ひまわりを起動 +検索 +検索結果をExcelにコピー +ゴミを削除後ピボットテーブルで集計 -検索結果画面でダブルクリックすると本文が見られる -検索には正規表現が利用可能(制限あり) --(正規表現については後日) **データの形式 -XML形式の[[文書定義>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9%A4%CE%CA%B8%BD%F1%C4%EA%B5%C1]] -XMLとは --[[Extensible Markup Language>http://ja.wikipedia.org/wiki/Extensible_Markup_Language]] (Wikipedia) -参考 --[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]] --[[授業資料/コンピュータ言語]] **2010/04/16 イントロダクション ***[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] -国語研コーパスの紹介([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) ---[[近代女性雑誌コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%B6%E1%C2%E5%BD%F7%C0%AD%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9]] --通時コーパス(設計中) ---cf.[[Oxford>http://vsarpj.orinst.ox.ac.uk/index.html]] ***デモンストレーション -[[太陽コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9]]([[プリズム>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]) -[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]](形態素解析)+Excel -利用例 --[[東京外大2009-12-02]] ***授業について -[[シラバス>http://syllabus.tufs.ac.jp/syllabus/querymaster.php]] -受講者アンケート --専門・関心領域 --PCスキル