*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22] -授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください -授業フォルダ \\Linkstation\share\日本語コーパス //--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]] -BCCWJ中納言: https://chunagon.ninjal.ac.jp/ **2012/11/16 ***「中納言」検索結果のダウンロード +ダウンロード +アーカイブの展開(解凍) +インポート ***中納言の検索結果をExcelで利用する -前々回資料(4.)参照 ***Excelの基本 -フィルタ --テキストフィルタ -並べ替え --ユーザー設定の並べ替え ***Excel:ピボットテーブルとピボットグラフ -ピボットテーブル --Excelのバージョンによってかなり操作方法が違うので注意 -ピボットグラフ ***利用例:「訊く」の話 -現代書き言葉における動詞「聞く」の表記をBCCWJ中納言で検索 キー: 語彙素 = "聞く" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" --「訊く」のレジスタ別分布(コアデータのみ)&br; &ref("kiku_bccwj_core.png"); --用法分類は(手作業で行わない限り)できない --割合と粗頻度について -参考blog ++[[なぜ広まった? 「『訊く』が正しい」という迷信 - アスペ日記>http://d.hatena.ne.jp/takeda25/20121113/1352799353]] ++[[「訊く」という表記について - 蟹亭奇譚>http://d.hatena.ne.jp/kanimaster/20121113/1352815776]] ++[[「訊く」のこと - あくまのぬいぐるみ>http://d.hatena.ne.jp/YMZ/20121115/p1 ]] **2012/11/09 -契約書返却 **検索条件式 キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" **BCCWJの形態論情報 -[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料) //--IT's Class >日本語学講義E>教材>その他の教材>UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 ***学校文法との違い -形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う -サ変動詞を 名詞+動詞スル として扱う -活用語に助動詞「う」が付いた形を意志推量形として扱う ***長単位の品詞 -短単位との違い --可能性に基づく品詞付与ではなく、出現例に即した品詞付与 --複合辞 --可能動詞の扱い **2012/10/26 ***「中納言」の利用 -アカウント作成とログイン ***中納言によるコーパスの検索方法 -★配布資料:中納言の使い方 **2012/10/19 -受講者の専門分野・関心領域 -「中納言」アカウント確認 ***コーパスの設計とサンプリング -★スライド参照(授業フォルダ) --「バランスがとれている」とは? --現代日本語の書き言葉の縮図としてのコーパスを作る --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題 -参考リンク --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ --[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]] --[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]] **2012/10/12 コーパスとは ***はじめに -「中納言」利用申込み用紙回収 --申込用紙と契約書を回収します。 -授業フォルダの説明 -- \\Linkstation\share\日本語コーパス ***コーパスとは -★スライド参照(授業フォルダ) --コーパスとはどんなものか --日本語コーパス以外(以前)の電子資料 :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***「少納言」を使ってみる -[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]] ***参考リンク -[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]] **2012/10/05 イントロダクション [#p494942d] -[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] -国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] ---[[検索デモサイト>http://shonagon.ninjal.ac.jp]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) --通時コーパス(設計中) -授業の進め方について --受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。 --シラバス確認 https://mercas.hit-u.ac.jp/ -受講者アンケート --専門・関心領域 --PCスキル -デモンストレーション --BCCWJ中納言+Excel --茶まめ(形態素解析) --ひまわり ***授業で利用する主なソフトウェア [#i06478d2] |名前|種類|利用目的|h |''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''◎|表計算ソフト|集計・分析・グラフ作成| |''[[Word>http://office.microsoft.com/ja-jp/word/default.aspx]]''|ワープロ|レポート作成| |''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索システム|検索・集計| |''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器|形態素解析| |''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|~| |''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサービス(文字列検索)|コーパス検索| |''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Webサービス(単語情報付き検索)|~|