[[成蹊2011]] --金曜4限 --資料は[[IT's Class>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]の教材のページを見てください。 --http://www.cc.seikei.ac.jp/ --''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]'' //***日本語の文字コードとコーパス //-文字化けのいろいろ //-文字集合と文字符号化方式 //-包摂規準 // //-参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/article/NPC/20080116/291169/]](日経パソコンPC online) // **2011/05/06 日本語コーパスの紹介(2) 均衡コーパスとサンプリング -(スライド参照)IT's Class >日本語学講義E>教材>スライド>5月6日 均衡コーパスとサンプリング --「バランスがとれている」とは? --コーパスの母集団とサンプリング -著作権をめぐる問題 -参考 --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] **2011/04/29 日本語コーパスの紹介(1)コーパスとはどんなものか -''(スライド参照): IT's Class >日本語学講義E>教材>スライド>4月29日コーパスとは'' :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 -この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」 --もうひとつの授業「日本語日本文学のためのコンピュータ」で扱っているデータは後者 -日本語コーパス以前のデータとBCCWJの違いは -コーパスを使ってみる [[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]] --お試し版=各種制限有り(文字列検索のみ,表示は500例まで) **2011/04/22 イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ -コーパスとは ---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/kotonoha/]] ---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]] ---[[形態素解析辞書UniDic>http://download.unidic.org/]] -[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=2011%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1E.pdf&refer=%C0%AE%EC%FE2011%2F%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1E]]確認 --この授業の目的 --授業の進め方 --評価方法 -デモ --''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]'' --形態素解析