阪大2013

12月20日

現代日本語書き言葉均衡コーパス(BCCWJ)

BCCWJについて

BCCWJ 少納言 http://shonagon.ninjal.ac.jp

コーパス管理システム「茶器」の利用

  1. MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
  2. UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
  3. ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
  4. データの解析と取り込み
  5. 茶器による検索
    1. 文字列検索
    2. 正規表現検索
    3. タグ検索(形態論情報を利用した検索)
  6. ワードリスト
  7. 解析結果の修正

コーパスを利用した研究例

近代編

形容動詞連体形の話

中古編

文体別の特徴語

コロケーション強度の利用

まとめ

  1. できたものを利用
    • BCCWJ中納言 + Excelピボットテーブル
  2. 自分でデータをなんとかする
    テキストのレベルツール必要な技術
    プレーンテキストレベルテキストエディタgrepと正規表現
    タグ付きテキストレベルひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
    形態素解析済みテキストレベルUniDic+MeCab→ChaKiChaKiの使い方

発展

(おまけ)Wordでレポートや論文を書く


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS