*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22] -授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください -授業フォルダ \\Linkstation\share\日本語コーパス //--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]] -BCCWJ中納言: https://chunagon.ninjal.ac.jp/ **2012/11/16 ***「中納言」検索結果のダウンロード +ダウンロード +アーカイブの展開(解凍) +インポート ***中納言の検索結果をExcelで利用する -前々回資料(4.)参照 ***Excelの基本 -フィルタ --テキストフィルタ -並べ替え --ユーザー設定の並べ替え ***Excel:ピボットテーブルとピボットグラフ -ピボットテーブル -ピボットグラフ **2012/11/09 -契約書返却 **検索条件式 キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" **BCCWJの形態論情報 -[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料) //--IT's Class >日本語学講義E>教材>その他の教材>UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 ***学校文法との違い --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う ***長単位の品詞 --可能性に基づく品詞付与ではなく、出現例に則した品詞付与 --短単位との違い --複合辞 **2012/10/26 ***「中納言」の利用 -アカウント作成とログイン ***中納言によるコーパスの検索方法 -★配布資料:中納言の使い方 **2012/10/19 -受講者の専門分野・関心領域 -「中納言」アカウント確認 ***コーパスの設計とサンプリング -★スライド参照(授業フォルダ) --「バランスがとれている」とは? --現代日本語の書き言葉の縮図としてのコーパスを作る --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題 -参考リンク --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ --[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]] --[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]] **2012/10/12 コーパスとは ***はじめに -「中納言」利用申込み用紙回収 --申込用紙と契約書を回収します。 -授業フォルダの説明 -- \\Linkstation\share\日本語コーパス ***コーパスとは -★スライド参照(授業フォルダ) --コーパスとはどんなものか --日本語コーパス以外(以前)の電子資料 :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***「少納言」を使ってみる -[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]] ***参考リンク -[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]] **2012/10/05 イントロダクション [#p494942d] -[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] -国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] ---[[検索デモサイト>http://shonagon.ninjal.ac.jp]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) --通時コーパス(設計中) -授業の進め方について --受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。 --シラバス確認 https://mercas.hit-u.ac.jp/ -受講者アンケート --専門・関心領域 --PCスキル -デモンストレーション --BCCWJ中納言+Excel --茶まめ(形態素解析) --ひまわり ***授業で利用する主なソフトウェア [#i06478d2] |名前|種類|利用目的|h |''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''◎|表計算ソフト|集計・分析・グラフ作成| |''[[Word>http://office.microsoft.com/ja-jp/word/default.aspx]]''|ワープロ|レポート作成| |''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索システム|検索・集計| |''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器|形態素解析| |''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|~| |''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサービス(文字列検索)|コーパス検索| |''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Webサービス(単語情報付き検索)|~|