上智2015

国語学演習IIIa / コーパス日本語学入門

期末レポートについて

2015/07/17 最終回

Wordでレポートを書く

2015/7/9

小レポート講評・質問対応

レポート作成のためのコーパス検索・調査

NINJAL LWP for BCCWJの紹介


6/26, 7/3の休講の代替措置について

  1. 6/26までに期末レポートに向けた調査テーマを決め、メールで連絡する
    • どのような語を調査するのかできるだけ具体的に書くこと
    • テーマについて質問がある場合や、複数のテーマを検討中の場合にはメールで相談すること
  2. 7/6までに上記のテーマの調査結果(小レポート)をメールに添付して送付する
    • 小レポートにはコーパスの調査結果(検索結果をピボットテーブルで集計したものなど)を必ず含めてください。
    • Wordではファイルサイズが大きくなるため、PDF形式で保存したものを送ってください。

2015/6/19

BCCWJ利用の落とし穴

調整頻度の計算

ランダムサンプリング調査

重複の削除

2015/6/12

Excelによる集計・つづき

Excelの文字列関数とIF関数

レポートテーマについて

表記

類義語・対義語

語形、語法

新語・意味変化

2015/6/5

復習

  1. 「中納言」による検索
  2. Excelでインポート
  3. ピボットテーブルで集計

検索の例

キー: (語彙素 LIKE "[男女]" AND (語彙素読み="オトコ" OR 語彙素読み = "オンナ")) 
WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND  tglFixVariable="2"
キー: (語彙素="男性" OR 語彙素 = "女性") 
WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") 
AND 後方共起: (語彙素 = "男性" OR 語彙素 = "女性") ON 1 WORDS FROM キー 
WITH OPTIONS unit="2" AND tglWords="10" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") 
AND 後方共起: (語彙素 LIKE "[男女]" AND (語彙素読み="オトコ" OR 語彙素読み = "オンナ")) ON 1 WORDS FROM キー 
WITH OPTIONS unit="2" AND tglWords="10" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"

2015/5/29

検索結果をExcelで利用する

Excelの基礎

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート
キー: 品詞 LIKE "矢張り" 
WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0"
AND endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND  tglFixVariable="2"
キー: 品詞 LIKE "形容詞%" AND 前方共起: 語彙素 = "割合" ON 2 WORDS FROM キー
 WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0"
 AND endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"

【重要】ピボットテーブルの使い方

2015/5/22

「中納言」の利用(続き)

検索条件式の利用

キー: 語彙素 = "玉葱" WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" 
AND endOfLine="CRLF" AND tglKugiri="|" AND  encoding="UTF-16LE" AND tglFixVariable="2"

2015/5/15

「中納言」の利用:形態論情報を使った検索

2015/5/8

「中納言」アカウント確認

コーパスの形態論情報

短単位と長単位

品詞体系


UniDicの品詞体系

品詞分類

unidic_pos.png

活用型

unidic_cType.png

活用形

unidic_cForm.png

学校文法との主な違い


UniDic見出し語の階層構造

見出し語の階層構造

unidic_hierarchy.png

各レベルが持つ情報*2

※語彙素読み・語形・発音形はカタカナ表記。語彙素は漢字を多用した「代表表記」。

基本形と出現形

語形以下のレベルでは、基本形(辞書見出し形=終止形)と出現形(実際の活用形)の別があり、活用語では違う形になる

例:アザラシが泳ぎます

見出し語の例とBCCWJ中の用例数


形態論情報を活かした検索

2015/05/01

BCCWJ「中納言」アカウントについて

日本語コーパスの紹介(2) コーパスの設計とサンプリング

参考リンク

2015/04/24

BCCWJ「中納言」申込み

下記の書類は授業で配布しますが、書き損じた場合などには下記のリンク先のファイルを利用してください。

現代日本語書き言葉均衡コーパス(BCCWJ)とは

日本語コーパスの紹介(1)コーパスとはどんなものか

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

2015/04/17

イントロダクション


*1 「行く」は「た」「て」に続く連用形がイ音便ではなく促音便になる
*2 一部のみ。「中納言」で使えるのは更にこの一部分。
*3 この場合、活用形としては「連用形」

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-05-12 (木) 23:13:27