*近代文語形態素解析 [#s6771027] -博報・ことばと文化研究助成 --(学習用)コーパス、解析システム整備 -科研・若手B --辞書整備(エントリ追加・付加情報の充実) **Taiyoインデックス・unidic登録候補の選定 [#e83f31d8] -原則として「辞書に載せるべきもの」を選定する --ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する -次のようなものは選定しない --ふりがな付き出現形で、ふりがなと見出しが違うもの --誤字と考えられるもの(当該出現形が辞書になく、似た出現形が辞書にある) --無理に分割して作られた見出し(例:過日[このあひだ]→日=あひだ) --語形変化を起こしており、出現形の仮名と見出しにずれがあるもの --辞書になく、語義・用法が判別不能な語 -注意すべきもの --語彙素(代表形)はunidicにあわせて登録する必要がある(※unidicの語彙素は、なるべく漢字を使った長い形で入れてある) ---語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける --同じ語彙素の異語形→語形レベルでまとめる必要がある