*近代文語形態素解析 [#s6771027]
*近代文語文の形態素解析:近代文語UniDic[#s6771027]

-博報・ことばと文化研究助成
--(学習用)コーパス、解析システム整備
-科研・若手B
--辞書整備(エントリ追加・付加情報の充実)
-国語研究所 ''[[言語データベースとソフトウェア>http://www.kokken.go.jp/lrc/]]''の一角で公開を開始しています。
-[[こちらのページ>http://www.kokken.go.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]]をご覧ください。

//--現在、Ver.0.8を公開中です。
//-''2008/11/30 [[近代文語UniDic Ver.0.9を公開>http://www.kokken.go.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]]しました。'' [#mcd654a5]
-''2009/03/31 [[近代文語UniDic Ver.1.0を公開>http://www.kokken.go.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]]しました。''

**Taiyoインデックスのunidic登録[#e83f31d8]
-[[日本語学会デモのスライド>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=20080518_unidic-mlj_demo.pdf&refer=%B6%E1%C2%E5%B8%EC%B2%F2%C0%CF]]

***作業の流れ [#jc5b90c0]
+短単位選定【済】
+品詞付与(まもなく済)
++再チェック(不要なエントリの除去、品詞確認)
+unidic登録候補の選定+unidic語彙素への修正
+DBへ一括登録

***unidic登録候補の選定 [#da72dbf9]
-原則として「辞書に載せるべきもの」を選定する
--ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する
//:[[博報「ことばと文化・教育」研究助成>http://www.hakuhodo.co.jp/foundation/subsidy/list_02.html]](2007)|
//近代日本語の文語文を対象とした形態素解析システムの構築と活用
//--学習用コーパスの整備
//---[[学習用コーパスのファイル一覧>近代語解析/学習用コーパス]]
//--解析システムの整備
//---活用表・語彙表展開システムの整備
//---[[解析用GUI「茶まめ」の機能拡張>近代語解析/近代茶まめ]]

-次のようなものは選定しない
--誤字と考えられるもの(当該出現形が辞書になく、似た出現形が辞書にあるなど)
--無理に分割して作られた見出し(例:過日[このあひだ]→日=あひだ)
--語形変化を起こしており、出現形の仮名と見出しにずれがあるもの
--辞書になく、品詞すら判別不能な語
//:科研・若手B(2007-2008)|
//近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用
//--辞書の整備(エントリ追加・付加情報の充実)
//---太陽インデックスの登録(2006,2007)
//---学習用コーパスの未知語登録(2007)

-注意すべきもの
--語彙素(代表形)はunidicにあわせて登録する必要がある&br;(※unidicの語彙素は、なるべく漢字を使った長い形で入れてある)
---語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける
---同じ語彙素の異語形→語形レベルでまとめる必要がある
**関連ページ[#scc84609]
-devel以下は開発用非公開ページです。
#ls2


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS