[[FrontPage]]

*コーパス日本語学のためのテキスト処理入門
RIGHT:2014/09/30 小木曽智信


**自分でデータをなんとかする
|テキストのレベル|処理ツール|利用ツール|必要な知識|対応するコーパス例|h
|プレーンテキスト|テキストエディタ|grep|正規表現|いろいろなテキストデータ集|
|(文書構造)タグ付きテキスト|XMLエディタ等|ひまわり|XMLの基礎|太陽コーパス等|
|形態素解析済みテキスト|MeCab (+UniDic)|ChaKi/中納言((中納言は個人でデータを登録するのは無理))|検索方法もそれなりに難しい|BCCWJ等|
|係り受け解析済みテキスト|CaboCha|ChaKi|~||


**テキストの前処理
量が多くなければテキストエディタと正規表現でも何とかなる

-形態素解析の前処理
--形態素解析システムの入力は「文」なのでテキストを文末(のみ)で改行するように整えてから形態素解析に回す
--単語の境界に入り込むようなタグ(ルビなど)や余計なテキストは解析前に外す
--MeCabでは半角スペースで境界を(手動で)指定できる
---[[「形態論情報データベース」>http://ci.nii.ac.jp/naid/130004566474]](大納言のシステム)では、XML文書を入力として、sentenceタグをもとに文単位に区切り、全てのタグを取り外した((必ず単位境界になるタグは半角スペースで残す))テキストを形態素解析した後、タグを元の位置に戻している。XSLTとPerlで処理。

-係り受け解析の前処理
--形態素解析済みの表形式テキスト
--形態素解析のエラーは係り受け解析にも引きずるので、全体を人手で直すなら「茶器」などで形態素解析結果を直した後で係り受け解析にかける


*コーパス管理システム「茶器」
**「茶器」と関連ツールのインストール
+「茶器」本体
++ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
+形態素解析
++MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
++UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
---あるいは歴史的資料を対象としたUniDic http://www2.ninjal.ac.jp/lrc/index.php?UniDic
+係り受け解析
++CaboCha https://code.google.com/p/cabocha/
---UniDicモデル :chakiのページからダウンロード可能(標準のIPAdicのモデルでも十分)

**「茶器」の利用
「茶器」では形態素解析まで行ったテキストでも、さらに係り受け解析まで行ったテキストでも取り扱える
+データの解析と取り込み
--付属のText2Corpus(形態素解析・係り受け解析まで手軽にやってくれる。ただし辞書変更の自由がきかない。)
--茶まめ(手軽に形態素解析のみ。標準では出力形式があわない。要望があれば何とかします)
+茶器による検索
--文字列検索
--正規表現検索
--タグ検索(形態論情報を利用した検索)
--係り受け検索
+ワードリスト
+コロケーション強度
+解析結果の修正

-[[茶器上のUniDic属性]]

**sample
-[[murasaki.db>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=murasaki.db&refer=Q%B8%A62014]]


#**疑問点等
#-UniDic属性対応表がほしい
#-Text2corpus
#--UniDic CaboChaのインストールパスが不明
#--辞書フォルダ指定機能がほしい
//**疑問点等
//-UniDic属性対応表がほしい
//-Text2corpus
//--UniDic CaboChaのインストールパスが不明
//--辞書フォルダ指定機能がほしい

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS