FrontPage

コーパス日本語学のためのテキスト処理入門

2014/09/30 小木曽智信

自分でデータをなんとかする

テキストのレベル処理ツール利用ツール必要な知識対応するコーパス例
プレーンテキストテキストエディタgrep正規表現いろいろなテキストデータ集
(文書構造)タグ付きテキストXMLエディタ等ひまわりXMLの基礎太陽コーパス等
形態素解析済みテキストMeCab (+UniDic)ChaKi/中納言*1検索方法もそれなりに難しいBCCWJ等
係り受け解析済みテキストCaboChaChaKi

テキストの前処理

量が多くなければテキストエディタと正規表現でも何とかなる

  • 形態素解析の前処理
    • 形態素解析システムの入力は「文」なのでテキストを文末(のみ)で改行するように整えてから形態素解析に回す
    • 単語の境界に入り込むようなタグ(ルビなど)や余計なテキストは解析前に外す
    • MeCabでは半角スペースで境界を(手動で)指定できる
      • 「形態論情報データベース」(大納言のシステム)では、XML文書を入力として、sentenceタグをもとに文単位に区切り、全てのタグを取り外した*2テキストを形態素解析した後、タグを元の位置に戻している。XSLTとPerlで処理。
  • 係り受け解析の前処理
    • 形態素解析済みの表形式テキスト
    • 形態素解析のエラーは係り受け解析にも引きずるので、全体を人手で直すなら「茶器」などで形態素解析結果を直した後で係り受け解析にかける

コーパス管理システム「茶器」

「茶器」と関連ツールのインストール

  1. 「茶器」本体
    1. ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
  2. 形態素解析
    1. MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
    2. UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
  3. 係り受け解析
    1. CaboCha https://code.google.com/p/cabocha/
      • UniDicモデル :chakiのページからダウンロード可能(標準のIPAdicのモデルでも十分)

「茶器」の利用

「茶器」では形態素解析まで行ったテキストでも、さらに係り受け解析まで行ったテキストでも取り扱える

  1. データの解析と取り込み
    • 付属のText2Corpus(形態素解析・係り受け解析まで手軽にやってくれる。ただし辞書変更の自由がきかない。)
    • 茶まめ(手軽に形態素解析のみ。標準では出力形式があわない。要望があれば何とかします)
  2. 茶器による検索
    • 文字列検索
    • 正規表現検索
    • タグ検索(形態論情報を利用した検索)
    • 係り受け検索
  3. ワードリスト
  4. コロケーション強度
  5. 解析結果の修正

sample


*1 中納言は個人でデータを登録するのは無理
*2 必ず単位境界になるタグは半角スペースで残す

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS