日本語教育学研究
コーパス日本語学入門
教室変更のお知らせ
- 4月20日からは323教室(マルチメディア室)で行います。
2012/07/06
発表3:中納言とBCCWJの活用
形態素解析とその仕組み
2012/06/22
発表2:中納言とBCCWJの活用
2012/06/22
発表1:中納言とBCCWJの活用
NINJAL LWP for BCCWJ
相対頻度
2012/06/15
補足
- 連体修飾(である可能性が高いもの)の検索と集計
- Zipf則
検索・集計の事例
- 「寂しい」「寂し」を同一視するには
- 長単位と短単位の仕様の違い
Excelの文字列関数とif関数
- left,right,mid,len,search,substitute
2012/06/08
検索課題
検索・集計の事例
2012/06/01
検索条件式を使う(復習)
キー: 語彙素 = "奇麗" IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
「中納言」検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
中納言の検索結果をExcelで利用する
Excelの基本的な使い方
- フィルタ
- 並べ替え
- ピボットテーブル
- ピボットグラフ
2012/05/25
(休講)
2012/05/18
コーパスの形態論情報
- UniDicの品詞体系
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う
長単位の品詞
- 可能性に基づく品詞付与ではなく、出現例に則した品詞付与
- 短単位との違い
- 複合辞
2012/05/11
「中納言」の利用
中納言によるコーパスの検索方法
2011/04/27
「中納言」利用申込み用紙回収
コーパスの設計とサンプリング
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
2012/04/20
授業の進め方
コーパスとは
- スライド参照
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
「中納言」利用申込み
- 申込用紙を配布します。次の回に記入・押印して必ず持ってきてください。
「少納言」を使ってみる
参考リンク
2012/04/13 イントロダクション
- 日本語話し言葉コーパス(CSJ)
- 太陽コーパス(明治・大正期の総合雑誌)
- 通時コーパス(設計中)
- 授業の進め方について
- 受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。