*近代文語形態素解析 [#s6771027]

-博報・ことばと文化研究助成
--(学習用)コーパス、解析システム整備
-科研・若手B
--辞書整備(エントリ追加・付加情報の充実)


**Taiyoインデックス・unidic登録候補の選定 [#e83f31d8]
**Taiyoインデックスのunidic登録[#e83f31d8]

***作業の流れ [#jc5b90c0]
+短単位選定【済】
+品詞付与(まもなく済)
++再チェック(不要なエントリの除去、品詞確認)
+unidic登録候補の選定+unidic語彙素への修正
++unidic登録候補の最終チェック
+DBへ一括登録

***unidic登録候補の選定 [#da72dbf9]
-原則として「辞書に載せるべきもの」を選定する
--ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する

-次のようなものは選定しない
--ふりがな付き出現形で、ふりがなと見出しが違うもの
--誤字と考えられるもの(当該出現形が辞書になく、似た出現形が辞書にある)
--無理に分割して作られた見出し(例:過日[このあひだ]→日=あひだ)
--語形変化を起こしており、出現形の仮名と見出しにずれがあるもの
--辞書になく、語義・用法が判別不能な語
--辞書になく、品詞すら判別不能な語

-注意すべきもの
--語彙素(代表形)はunidicにあわせて登録する必要がある(※unidicの語彙素は、なるべく漢字を使った長い形で入れてある)
---語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける
--同じ語彙素の異語形→語形レベルでまとめる必要がある


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS