阪大2013

12月18日

今日の授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ sakura2正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
形態素解析器MeCab形態素解析を実行するプログラム
形態素解析辞書UniDicBCCWJやCHJと同じ短単位で解析できる辞書



構造化文書とタグ付きコーパス

太陽コーパス

Taiyo190101.jpg

全文検索ソフト:「ひまわり」

「ひまわり」で使用できる正規表現

検索結果の集計:Excelとピボットテーブル

Excelの基礎

Excelを使った集計

ランダムサンプリング調査

テキストエディタと組み合わせて使う

えだまめによるミニコーパス作成



形態素解析

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き



授業用UniDic+MeCabパッケージのダウンロード

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

歴史的資料を対象とした形態素解析

形態素解析結果を使って索引を作る


*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-12-18 (水) 16:09:54