[[上智2017]] *国語学演習Ⅲa -[[中納言>http://chunagon.ninjal.ac.jp]] **2017/06/09 ***「中納言」検索結果のダウンロードとExcelでの利用 +ダウンロード //+アーカイブの展開(解凍) +Excelでインポート ***Excelの基礎 -並べ替え --反転前文脈の使い方 -フィルタ --テキストフィルタ ***【重要】ピボットテーブルの使い方 -ピボットテーブル -ピボットグラフ **2017/06/02 ***形態論情報を使った検索 つづき -資料「中納言の使い方」参照 ***検索条件式の利用 キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF" **2017/05/26 -短単位・長単位課題解答 ***「中納言」の利用:形態論情報を使った検索 -配布資料「『中納言』の使い方」 --この資料は次回以降も使いますので必ず持ってきてください。 **&color(red){2017/5/19(休講)}; -出張のため休講とします。 **2017/05/12 ***日本語コーパスの形態論情報 -短単位と長単位(スライド・配付資料) ***品詞体系と見出し語の階層 -BCCWJ,CHJはUniDicの品詞体系にもとづく -[[授業資料/UniDicの品詞体系]] -[[授業資料/UniDicの見出し語階層]] ***UniDicによる形態素解析 --[[MeCab(解析器)>http://taku910.github.io/mecab/]]と[[UniDic(辞書)>http://sourceforge.jp/projects/unidic/]] --Web茶まめ http://chamame.ninjal.ac.jp/ ***形態論情報を使った検索(詳しくは次回) -まずは文字列検索を行って形態論情報がどうなっているか確認する **2017/04/28 ***BCCWJの紹介 コーパスの設計とサンプリング -''(スライド参照)'' // [[第3回コーパスの設計とサンプリング>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2017%BE%E5%C3%D2_%C2%E83%B2%F3BCCWJ%A5%B3%A1%BC%A5%D1%A5%B9%A4%CE%C0%DF%B7%D7%A4%C8%A5%B5%A5%F3%A5%D7%A5%EA%A5%F3%A5%B0.pptx&refer=%BE%E5%C3%D22017%2F%B9%F1%CA%B8%B3%D8%B1%E9%BD%AC%AD%B7a]] -均衡コーパス(Balanced corpus) --「バランスがとれている」「代表性」とは? --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題 ***参考リンク -英語のコーパス リファレンス --[[ブラウンコーパス マニュアル>http://www.hit.uib.no/icame/brown/bcm.html]] http://www.hit.uib.no/icame/brown/bcm.html --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ -現代日本語書き言葉均衡コーパス(BCCWJ) --[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html]] --[[現代日本語書き言葉均衡コーパス:サンプリング>http://pj.ninjal.ac.jp/corpus_center/bccwj/sampling.html]] **2017/04/21 ***「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」と ※当面、BCCWJを中心に解説し、その後CHJ明治大正編に -BCCWJとCHJ、これらを利用するインターフェイスについて、まず最小限のことを説明します。 -[[少納言>http://shonagon.ninjal.ac.jp]] BCCWJ --登録不要 --文字列検索のみ --500例まで表示 -[[中納言>http://chunagon.ninjal.ac.jp]] BCCWJ,CHJほか --要登録 --形態論情報を使った検索 --全件(一度に最大10万例まで)ダウンロード可 ***「中納言」オンライン利用申込み -https://chunagon.ninjal.ac.jp/useraccount/register ***日本語コーパスの紹介(1)コーパスとはどんなものか :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 -この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」 -「コーパス」以前の日本語研究用データとの違いは -''(スライド参照)'' --第2回コーパスとは **2017/04/14 ***イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ --[[国立国語研究所コーパス開発センター>http://pj.ninjal.ac.jp/corpus_center/]] -デモ --「[[現代日本語書き言葉均衡コーパス(BCCWJ)>http://pj.ninjal.ac.jp/corpus_center/bccwj/]]」 --「[[日本語歴史コーパス(CHJ)>http://pj.ninjal.ac.jp/corpus_center/chj/]]」 ---BCCWJ[[少納言>http://shonagon.ninjal.ac.jp]] ---[[中納言>http://chunagon.ninjal.ac.jp]] --Excelによる集計(ピボットテーブル) --形態素解析 ---[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]] ---[[Web茶まめ>http://chamame.ninjal.ac.jp]] -シラバス確認 --[[この授業のシラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2017_Sophia_syllabus.pdf&refer=%BE%E5%C3%D22017%2F%B9%F1%CA%B8%B3%D8%B1%E9%BD%AC%AD%B7a]] --この授業の目的 --授業の進め方 --評価方法