上智2015/国語学演習IIIb
Top
/
上智2015
/
国語学演習IIIb
上智2015
コーパスにもとづく日本語史研究
後期・金曜4限
ogiso@ogiso.net ←@を@に直してください
CHJ中納言
https://chunagon.ninjal.ac.jp/
↑
レポート提出について
締切:2月5日(金) 24:00
提出先:メールで直接送付(必ず受取確認のメールを確認すること)
分量:A4用紙で3~10枚(4枚以上を推奨)
メール・Wordファイルの両方に氏名・学籍番号を明記すること
Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ること
↑
2016/01/22
↑
最終回:レポートの完成へ
↑
発展
Excelの活用
vlookup関数
データベースの利用(Access)
クエリによる集計
↑
国語研のコーパス
『現代日本語書き言葉均衡コーパス』BCCWJ
『日本語歴史コーパス』CHJの拡張 2016.3
形態論情報付き「近代雑誌コーパス」の統合(『太陽』はコアのみで残りは2016年度中)
「平安時代編」への『大鏡』『蜻蛉日記』の追加
「鎌倉時代編Ⅰ説話・随筆」
「室町時代編Ⅰ狂言」長単位
『日本語話し言葉コーパス』CSJ
↑
2016/01/08
↑
レポートテーマ調査報告 のこり
↑
Wordを使ってレポートを書く
図表の取り扱い
「形式を選択して貼り付け」
図表番号、キャプション
文書の構造化
章・節番号
「スタイル」「ナビゲーション ウィンドウ」(見出しマップ)の活用
図表番号と相互参照
脚注、文末脚注
目次、図表目次
↑
レポート作成のためのコーパス調査・質問(3)
↑
2015/12/17
↑
レポートテーマ調査報告(2)
スライドを使った短い発表(ライトニングトーク)+コメント
↑
レポート作成のためのコーパス調査・質問(2)
↑
2015/12/11
↑
レポートテーマ調査報告
スライドを使った短い発表(ライトニングトーク)+コメント
↑
レポート作成のためのコーパス調査・質問
考えてきたテーマについて、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
↑
2015/12/04
↑
コロケーション強度の話
単純な用例数では危険
もともと頻度が高いもの同士のつながりは多くて当たり前
コロケーション強度には様々なものがある
ダイス係数
Tスコア
MIスコア(相互情報量)
ダイス係数=2×(ABの用例数/(Aの用例数+Bの用例数))
「つ」の前の動詞の場合
AB= 「動詞+つ」の用例数
A=当該動詞の用例数
B=「つ」の用例数
tスコア=(ABの用例数 - Aの用例数×Bの用例数/コーパスの総語数)/√ABの用例数
MIスコア(相互情報量)=log[2]ABの用例数×コーパスの総語数/Aの用例数×Bの用例数
【参考資料】
助動詞と上接動詞のコロケーション
↑
レポートテーマについて
レポートテーマについて全員に聞き、コメントします。
その後、次回以降に小発表できるだけの調査を行ないます。積極的に質問して下さい。
↑
2015/11/27
Excelによる集計のテクニック(ひまわり/中納言共通)
↑
複数の検索結果をまとめる
一つの表に貼り付けて集計する
↑
分類用のフィールドを作って集計する
例:「新聞紙」の意味・用法の変化
データ:
https://dl.dropboxusercontent.com/u/134600/sinbunsi.xlsx
↑
サンプリング調査
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =rand()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
関数の利用
文字列処理関数
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
(注意)ひまわりの検索結果をExcelに貼り付けるとき
生年月日がくる列全体のセルの書式を「文字列」としたうえで貼り付ける
1900年以前の日付が正しく変換されず不統一になるのを防ぐため
↑
日本語歴史コーパス「中納言」補足
地の文・会話文
発話者
↑
レポートテーマについて
次回までにレポートテーマを考えてくること(全員に聞きます)
↑
2015/11/20
↑
短単位について
資料参照
PDF
↑
品詞体系
BCCWJと同様、UniDicの品詞体系↓ にもとづく
授業資料/UniDicの品詞体系
授業資料/UniDicの見出し語階層
↑
中納言の使い方(続き)
資料参照
PDF
4.「検索結果のダウンロード」から
↑
2015/11/13
↑
(補足)研究例
漢語サ変動詞の可能の形
形容動詞の連体修飾の形
↑
(補足)さまざまな「ひまわり」用データ
形態論情報付きの「ひまわり」用データ
「明六雑誌コーパス」
http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/
「洒落本コーパス」「人情本コーパス」試作版
http://pj.ninjal.ac.jp/corpus_center/chj/edo.html
利用可能なデータについて
近代語のデータ
太陽コーパス◎
近代女性雑誌コーパス◎
明六雑誌コーパス◎
国民之友コーパス◎
国定高等小学読本
国会会議録データ
法令データベース
青空文庫◎
口コミサイト
古典文学作品のデータ
↑
『日本語歴史コーパス』(CHJ)を使う
『日本語歴史コーパス』
http://www.ninjal.ac.jp/corpus_center/chj/
中納言
https://chunagon.ninjal.ac.jp
↑
中納言の使い方
資料参照
PDF
4.「検索結果のダウンロード」まで【済】
↑
2015/11/06
↑
青空文庫の「ひまわり」データ
ひまわり『青空文庫』パッケージ
↑
ピボットテーブル(復習)
調査例
「~に/を信頼する」
「それきり」「それぎり」
「気持ち」「心持ち」
「~的の/な」
↑
関数の利用
文字列処理関数
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
↑
参考文献
国立国語研究所編(2005)『雑誌『太陽』による確立期現代語の研究―『太陽コーパス』研究論文集』博文館新社
#amazon(4861151554)
田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書店
#amazon(4000286269)
近藤泰弘・田中牧郎・小木曽智信編(2015)『コーパスと日本語史研究』 (ひつじ研究叢書 言語編 第127巻)
#amazon(4894767511)
↑
中納言ログイン
↑
2015/10/30
↑
「太陽コーパス」
授業用データ
↑
「ひまわり」検索結果をExcelで扱う
ケーススタディ/障がい
↑
Excelの基本操作
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル★
ピボットグラフ
↑
2015/10/23
↑
近代雑誌コーパスと「ひまわり」
近代語のコーパス
「太陽コーパス」(販売中)
「近代女性雑誌コーパス」(公開中)
「明六雑誌コーパス」(公開中)〈形態論情報付き〉
「国民之友コーパス」(公開中)〈形態論情報付き〉
↑
全文検索システム「ひまわり」について
全文検索システム「ひまわり」
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
ひまわり のダウンロードページ
プログラム本体
ひまわり用「青空文庫」パッケージのダウンロードページ
検索対象のデータセット
↑
「ひまわり」の導入
「近代女性雑誌コーパス」のインストールと動作確認
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
↑
2015/10/16
今回からUSBメモリを使います。
日本語歴史コーパス(CHJ)中納言は登録手続き中です。
前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。
↑
テキストエディタ
テキストデータ(青空文庫)の配布
soseki2.zip
(今日の授業で使います)
aozoradoc2.zip
(青空文庫全テキスト・参考)
ダウンロードしてUSBメモリに展開(解凍)してください
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
サブフォルダのgrep
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
記号はすべて半角
記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
文字クラス [ ]
文字クラスの補集合(それ以外の文字)[^ ]
授業資料/正規表現
↑
2015/10/9
次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。
↑
日本語歴史コーパス(CHJ)の登録
申込用紙・契約書2枚
次回、押印して持ってきてください
↑
「コーパス」について
†
狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
Web上のデータ
検索サイトの利用
WAC(Web as Corpus)
↑
紙の資料からコーパスまで
(紙の)本文テキスト
(紙の)総索引
電子テキスト
構造化テキスト
形態論情報付きコーパス
↑
総索引から電子化テキストへ(国語史資料の電子化の歴史)
戦後、総索引が整備されはじめる
1929~31『万葉集総索引』
1952『源氏物語用語索引』
1955『徒然草総索引』
1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
総索引作成のための電子化テキスト利用など
1990年代、電子化テキストの利用が広がる
『源氏物語』テキストデータベース(長瀬1990)
国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
日本文学等テキストファイル(岡島)
http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm
J-TEXT日本文学電子図書館(菊池・深沢)
http://www.j-texts.com/
青空文庫 1997~
http://www.aozora.gr.jp/
この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
↑
テキストファイル
テキストデータとはどんなものか
授業資料/テキストデータとは
授業資料/テキストデータ紹介
(広義のコーパス)
テキストエディタ
授業資料/テキストエディタ
サクラエディタのダウンロードとインストール
サクラエディタのダウンロード:sakura2.zip
(参考) サクラエディタホームページ:
http://sourceforge.net/projects/sakura-editor/
zipファイルの展開(解凍)
解凍しないままでも開けるが必ず解凍すること
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石+芥川)
sample.zip
↑
プレーンテキストからタグ付きテキストへ
2000年代(タグ付きテキスト「コーパス」へ)
狭義の「コーパス」登場
『太陽コーパス』2005
↑
2015/10/02
↑
イントロダクション
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
http://www.ninjal.ac.jp/
コーパスとは
国立国語研究所コーパス開発センター
↑
デモ
テキストエディタ
ひまわり
Excelによる集計(ピボットテーブル)
「日本語歴史コーパス(CHJ)」
CHJ
中納言
形態素解析:茶まめ/MeCab+UniDic
形態素解析辞書UniDic
http://www2.ninjal.ac.jp/lrc/index.php?UniDic
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
sakura2
正規表現を使ったテキストの検索・整形
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成
↑
シラバス確認
シラバス
この授業の目的
授業の進め方
評価方法
OGISO.NET
自己紹介
OGISO.NET mail
Private
最新の10件
2024-04-29
総研大2024
総研大2024/言語研究基礎論ⅢA
2024-04-26
成蹊2024/応用日本語講座
学習院2024
2024-04-20
自己紹介
2024-04-16
成蹊2024
2024-01-19
成蹊2023/日本語学講義D
2023-08-09
日本語テキスト処理基礎講座2023
2023-08-08
日本語テキスト処理基礎講座2023/④コマンドラインの基礎
2023-08-04
日本語テキスト処理基礎講座2023/③XMLの基礎
Last-modified: 2016-01-22 (金) 13:43:37