[[阪大2013]]

*12月18日

#contents

***''今日''の授業で利用する主なソフトウェア [#i06478d2]

|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索|
|[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム|
|[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書|

&br;
#hr

*構造化文書とタグ付きコーパス

**太陽コーパス
-[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]]

&ref(Taiyo190101.jpg,,50%);

-スライド

*全文検索ソフト:「ひまわり」
-「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]★
--プレーンテキストではなく、XML形式にして、インデックスを付けた専用のデータを利用

-近代女性雑誌コーパス
--http://www.ninjal.ac.jp/corpus_center/cmj/woman-mag/
--列名(近代女性雑誌コーパス)★
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|文体|話者|種別|位置|

-「ひまわり」で青空文庫を検索
--[[ひまわり用「青空文庫」パッケージのダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]]
--列名★
|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|文字遣い|作品ID|人物ID|生年月日|没年月日|文字数|メモ1|メモ2|


***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]のようなもの。
--例:[寂淋]し
--前文脈/後文脈:ほぼ全ての正規表現
-[あ-う]のような範囲指定はモード切替で(インデックスが使えないので遅い)

*検索結果の集計:Excelとピボットテーブル


***Excelの基礎
-並べ替え(ソート)
-フィルター(絞り込み)
--テキストフィルター
--多重フィルター(複数の条件指定)
-ピボットテーブル
--ピボットグラフ

***Excelを使った集計 [#l7da4009]

-ピボットテーブル・ピボットグラフを使う
---それきり・それぎり
--参考:http://office.microsoft.com/ja-jp/excel/CH062528071041.aspx
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.aspx
--扱う対象・方法に適したグラフを選択する 上記URL参照


-用例の分類と集計
++ピボットテーブルで自分で用意した列名を使う
---ミタヨウダ/ミタイダ
++分類記号を入れる列を用意し、自分で入力する
---新聞紙

-関数を使う
--[[NDC>http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%8D%81%E9%80%B2%E5%88%86%E9%A1%9E%E6%B3%95]]の最上位だけを取り出すには
--生年を10年ごとの生まれた年代に変換するには
---=LEFT(TEXT(生年月日,"yyyy"),3)*10


***ランダムサンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND() 
---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される


***テキストエディタと組み合わせて使う [#uc1f5bff]
-Excelの列をテキストエディタに貼り付けて編集することができる
-エディタと組み合わせて工夫することでExcelだけでは簡単にできない処理が可能
--特定の列をエディタにコピーして正規表現を使った置換を行う
---例:前文脈を「.+。」→「」置換、後文脈を「。.+」→「。」に置換

**えだまめによるミニコーパス作成

-テキストデータを「ひまわり」で利用するには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]]
--同等機能が最新版「ひまわり」(1.5)に内蔵された

&br;
#hr
*形態素解析

#include(授業資料/形態素解析,notitle)

&br;
#hr

--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]]


***授業用UniDic+MeCabパッケージのダウンロード

-https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip

***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する

-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較

**歴史的資料を対象とした形態素解析
-http://www.ninjal.ac.jp/corpus_center/unidic/

***形態素解析結果を使って索引を作る

-「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発
--&ref(JMC2010_concorcance.pdf);


*形態論情報付きの近代語コーパス

-(国定)高等小学読本コーパス
-明六雑誌コーパス

**明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]]
--http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf

-Excelによる集計(ピボットテーブル)


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS