[[東京外大2013]] *日本語教育学研究 **コーパス日本語研究入門 -授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください -[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=501M0900.pdf&refer=%C5%EC%B5%FE%B3%B0%C2%E72013]] -中納言: https://chunagon.ninjal.ac.jp **2013/06/14 ***形態素解析とUniDic ---- #include(授業資料/形態素解析,notitle) ---- --形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる --ブログのテキストと新聞記事のテキストの解析結果を比較 **2013/06/07 -中納言新システムの再確認 --キャッシュに注意 ***短単位と長単位(復習) -新参考配付資料 ***中納言検索課題 -前回配布プリント参照 ***Excelの文字列関数とif関数 -集計用に用意した列で文字列処理関数を利用する -left,right,mid,len,search,substitute -応用例:品詞の大分類を使う =LEFT(<品詞>,SEARCH("-",<品詞>)-1) **2013/05/31 -中納言契約書返却 ***中納言システムアップデート(5月30日)について -中納言のシステムが新しくなりました -新機能の紹介 --検索対象の指定が柔軟にできるようになった --短単位検索の条件指定において「検索キーの位置をずらす」指定ができるようになった --検索キーの前後位置に条件指定を行ったとき、キーに条件を指定しない検索ができるようになった --検索キーの前後の単位を結合してKWICキーに指定することができるようになった --検索結果のダウンロード時に圧縮の有無や文字コードを指定できるようになった --文字列検索で(解析単位ではなく)検索文字列をキーにしたKWIC表示ができるようになった --サーバの負荷状況が表示されるようになった ***Excelによる集計・つづき -ピボットテーブル --ピボットグラフ -複数の検索結果の結合 -集計用の列を自分で用意する **2013/05/24 ***長単位と短単位 -スライド参照 --複合辞 --可能性に基づく品詞付与ではなく、出現例に則した品詞付与 --可能動詞の語彙素 ***「中納言」検索結果の利用 -検索結果のダウンロード ++ダウンロード ++アーカイブの展開(解凍) ++インポート -中納言の検索結果をExcelで利用する --前々回資料(4.)参照 ***Excelの利用 -Excelの基本 --フィルタ ---テキストフィルタ --並べ替え ---ユーザー設定の並べ替え -ピボットテーブルとピボットグラフ --ピボットテーブル ---Excelのバージョンによってかなり操作方法が違うので注意 --ピボットグラフ **2013/05/17 ***中納言によるコーパスの検索方法(つづき) -中納言の使い方(つづき) -配布資料:''UniDicマニュアル 解説編'' ***BCCWJの形態論情報 -[[UniDic>http://download.unidic.org]]の品詞体系 --品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(>細分類)) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 ***学校文法との違い --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う --サ変動詞は語幹と「する」に分かれる **2013/05/10 ***「中納言」の利用 -アカウント作成とログイン ***中納言によるコーパスの検索方法 -配布資料:''中納言の使い方'' &br;(次回も持ってきてください) **2013/04/26 -中納言申込み確認 ***コーパスの設計とサンプリング --「バランスがとれている」とは? --現代日本語の書き言葉の縮図としてのコーパスを作る --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス(レジスター) --可変長と固定長 -著作権をめぐる問題 -参考リンク --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ --[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]] --[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]] ***「少納言」を使ってみる -[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]] ------ ***テキストエディタ [#q7ae852c] 前回つづき -サクラエディタのダウンロードとインストール --[[サクラエディタのダウンロード:sakura2.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura2.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考) サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -サンプルテキストデータ --[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sample.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] **2013/04/19 //***授業の進め方 //-発表について ***「中納言」利用申込み -申込用紙を配布します。 ------ ***コーパスとは -スライド参照 --コーパスとはどんなものか --日本語コーパス以外(以前)の電子資料 :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***参考リンク -[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]] ***テキストエディタ [#q7ae852c] -テキストエディタとはどんなものか --[[授業資料/テキストエディタ]] **4/12 第1回 イントロダクション/日本語コーパスの紹介 -[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] --[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]] -国語研のコーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] ---[[少納言>http://shonagon.ninjal.ac.jp]] ---[[中納言>http://chunagon.ninjal.ac.jp]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) --日本語歴史コーパス(平安時代編先行公開版) ---[[CHJ 中納言>http://maro.ninjal.ac.jp]] -受講者アンケート --専門・関心領域 --PCスキル -授業の進め方について --受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。