Q研2014 - OGI-Wiki

コーパス日本語学のためのテキスト処理入門

2014/09/30 小木曽智信

自分でデータをなんとかする

テキストのレベル	処理ツール	利用ツール	必要な知識	対応するコーパス例
プレーンテキスト	テキストエディタ	grep	正規表現	いろいろなテキストデータ集
(文書構造)タグ付きテキスト	XMLエディタ等	ひまわり	XMLの基礎	太陽コーパス等
形態素解析済みテキスト	MeCab (+UniDic)	ChaKi/中納言*1	検索方法もそれなりに難しい	BCCWJ等
係り受け解析済みテキスト	CaboCha	ChaKi	検索方法もそれなりに難しい

テキストの前処理

量が多くなければテキストエディタと正規表現でも何とかなる

形態素解析の前処理
- 形態素解析システムの入力は「文」なのでテキストを文末(のみ)で改行するように整えてから形態素解析に回す
- 単語の境界に入り込むようなタグ（ルビなど）や余計なテキストは解析前に外す
- MeCabでは半角スペースで境界を（手動で）指定できる
  - 「形態論情報データベース」（大納言のシステム）では、XML文書を入力として、sentenceタグをもとに文単位に区切り、全てのタグを取り外した*2テキストを形態素解析した後、タグを元の位置に戻している。XSLTとPerlで処理。

係り受け解析の前処理
- 形態素解析済みの表形式テキスト
- 形態素解析のエラーは係り受け解析にも引きずるので、全体を人手で直すなら「茶器」などで形態素解析結果を直した後で係り受け解析にかける

コーパス管理システム「茶器」

「茶器」と関連ツールのインストール

「茶器」本体
1. ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
形態素解析
1. MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
2. UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
  - あるいは歴史的資料を対象としたUniDic http://www2.ninjal.ac.jp/lrc/index.php?UniDic
係り受け解析
1. CaboCha https://code.google.com/p/cabocha/
  - UniDicモデル：chakiのページからダウンロード可能（標準のIPAdicのモデルでも十分）

「茶器」の利用

「茶器」では形態素解析まで行ったテキストでも、さらに係り受け解析まで行ったテキストでも取り扱える

データの解析と取り込み
- 付属のText2Corpus（形態素解析・係り受け解析まで手軽にやってくれる。ただし辞書変更の自由がきかない。）
- 茶まめ（手軽に形態素解析のみ。標準では出力形式があわない。要望があれば何とかします）
茶器による検索
- 文字列検索
- 正規表現検索
- タグ検索（形態論情報を利用した検索）
- 係り受け検索
ワードリスト
コロケーション強度
解析結果の修正

茶器上のUniDic属性

sample

murasaki.db

OGISO.NET

最新の10件

2025-07-11

成蹊2025/応用日本語講座

2025-06-16

総研大2025/言語資源学

2025-06-03

総研大2025/言語研究基礎論ⅢA

2025-05-19

九大2025講習会

2025-05-12

総研大2025

2025-04-10

成蹊2025

2025-02-03

総研大2024/言語資源学演習1

2025-01-17

成蹊2024/日本語学講義Ｄ

2024-12-23

授業資料/PythonでXML

2024-12-13

授業資料/XLOOKUP関数

*1 中納言は個人でデータを登録するのは無理
*2 必ず単位境界になるタグは半角スペースで残す

Last-modified: 2014-12-07 (日) 12:09:24