*近代文語形態素解析 [#s6771027] -博報・ことばと文化研究助成 --(学習用)コーパス、解析システム整備 -科研・若手B --辞書整備(エントリ追加・付加情報の充実) **Taiyoインデックスのunidic登録[#e83f31d8] ***作業の流れ [#jc5b90c0] +短単位選定【済】 +品詞付与(まもなく済) ++再チェック(不要なエントリの除去、品詞確認) +unidic登録候補の選定+unidic語彙素への修正 ++unidic登録候補の最終チェック +DBへ一括登録 ***unidic登録候補の選定 [#da72dbf9] -原則として「辞書に載せるべきもの」を選定する --ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する -次のようなものは選定しない --誤字と考えられるもの(当該出現形が辞書になく、似た出現形が辞書にある) --無理に分割して作られた見出し(例:過日[このあひだ]→日=あひだ) --語形変化を起こしており、出現形の仮名と見出しにずれがあるもの --辞書になく、品詞すら判別不能な語 -注意すべきもの --語彙素(代表形)はunidicにあわせて登録する必要がある(※unidicの語彙素は、なるべく漢字を使った長い形で入れてある) ---語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける --同じ語彙素の異語形→語形レベルでまとめる必要がある