[[阪大2013]] *12月18日 #contents ***''今日''の授業で利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索| |[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム| |[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書| &br; #hr *構造化文書とタグ付きコーパス **太陽コーパス -[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]] &ref(Taiyo190101.jpg,,50%); -スライド *全文検索ソフト:「ひまわり」 -「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] -「ひまわり」で青空文庫を検索 --[[ひまわり用「青空文庫」パッケージのダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]] ***「ひまわり」で使用できる正規表現 [#t52b1fee] -[[授業資料/Himawariの正規表現]] -検索語/キー:普通の文字と、列挙型の文字クラス([あいう]のようなもの。 --例:[寂淋]し --前文脈/後文脈:ほぼ全ての正規表現 -[あ-う]のような範囲指定はモード切替で(インデックスが使えないので遅い) *検索結果の集計:Excelとピボットテーブル ***Excelの基礎 -並べ替え -オートフィルタ --オートフィルタの「オプション」 ***Excelを使った集計 [#l7da4009] -ピボットテーブル・ピボットグラフを使う --参考:http://office.microsoft.com/ja-jp/excel/CH062528071041.aspx -グラフの種類について --http://office.microsoft.com/ja-jp/help/HA012337371041.aspx --扱う対象・方法に適したグラフを選択する 上記URL参照 -用例の分類と集計 ++分類記号を入れる列を用意し、自分で入力する ---新聞紙 ++ピボットテーブルで入力した分類を使う ---ミタヨウダ/ミタイダ -関数を使う --[[NDC>http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%8D%81%E9%80%B2%E5%88%86%E9%A1%9E%E6%B3%95]]の最上位だけを取り出すには --生年を10年ごとの生まれた年代に変換するには ---=left([生没年],3)*10 ***(補足)テキストエディタと組み合わせて使う [#uc1f5bff] -Excelの列をテキストエディタに貼り付けて編集することができる -エディタと組み合わせて工夫することでExcelだけでは簡単にできない処理が可能 --特定の列をエディタにコピーして正規表現を使った置換を行う **えだまめによるミニコーパス作成 -テキストデータを「ひまわり」で利用するには --[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]] --同等機能が最新版「ひまわり」(1.5)に内蔵された &br; #hr #include(授業資料/形態素解析,notitle) &br; #hr --形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***授業用UniDic+MeCabパッケージのダウンロード -https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる --ブログのテキストと新聞記事のテキストの解析結果を比較 **歴史的資料を対象とした形態素解析 -http://www.ninjal.ac.jp/corpus_center/unidic/ ***形態素解析結果を使って索引を作る -「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発 --&ref(JMC2010_concorcance.pdf); **形態論情報付きの近代語コーパス -(国定)高等小学読本コーパス -明六雑誌コーパス ***明六雑誌コーパス -[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]] --http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf -Excelによる集計(ピボットテーブル)