[[上智2014]]

*コーパスにもとづく日本語史研究

-後期・金曜4限
-ogiso@ogiso.net ←@を@に直してください

-CHJ中納言 https://maro.ninjal.ac.jp/


//**「ひまわり」検索結果をExcelで扱う
//
//-列名
//|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|文字遣い|作品ID|人物ID|生年月日|没年月日|文字数|
//
//
//***Excelの基本操作
//
//-並べ替え(ソート)
//-フィルター(絞り込み)
//--テキストフィルター
//--多重フィルター(複数の条件指定)
//-ピボットテーブル★
//--ピボットグラフ
//


***''&color(red){10/28みなし金曜日 の授業は休講です};''

**2014/10/24

**「ひまわり」の利用


***正規表現を使ってみる [#u471d57b]
-文字クラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

***正規表現とは [#d216d4e0]

-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]]
--文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
--エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
--記号はすべて半角
--記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2

-文字クラス [ ]
--文字クラスの補集合(それ以外の文字)[^ ]

------
-[[授業資料/正規表現]]
-ひまわりの正規表現について([[授業資料/Himawariの正規表現]])



***ひまわりで利用可能なデータについて
◎を授業で取り上げます。

-現代語のデータ
--国会会議録データ
--法令データベース
--青空文庫
--口コミサイト
-[[近代語のデータ>http://www.ninjal.ac.jp/corpus_center/cmj/]]
--太陽コーパス◎
--近代女性雑誌コーパス◎
--明六雑誌コーパス◎
--国民之友コーパス◎
--国定高等小学読本◎
-古典文学作品のデータ


**2014/10/17

-今回からUSBメモリを使います。
-日本語歴史コーパス(CHJ)中納言は登録手続き中です。
--前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。

***近代雑誌コーパスと「ひまわり」

-[[近代語のコーパス>http://www.ninjal.ac.jp/corpus_center/cmj/]]
--「太陽コーパス」(販売中)
--「近代女性雑誌コーパス」(公開中)
--「明六雑誌コーパス」(公開中)〈形態論情報付き〉
--「国民之友コーパス」(公開中)〈形態論情報付き〉

***全文検索システム「ひまわり」について
&ref(himawari_aozora.png,,50%);

-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]
--ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用



***「ひまわり」の導入
+「ひまわり」のダウンロード
--[[ひまわり のダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.3]] プログラム本体
+「近代女性雑誌コーパス」のダウンロード
--[[近代女性雑誌コーパス>http://www.ninjal.ac.jp/corpus_center/cmj/woman-mag/]]
+インストール
--ダウンロードした二つのZIPファイルを右クリックして、[プロパティ] > [全般]でセキュリティのブロックが解除(必須)
--Himawariフォルダ内のCorporaフォルダが重なる(上書きされる)形で、コーパスのフォルダをコピー
+動作確認
--Himawari.exeをダブルクリックして起動,configファイルを選択

***Himawariの使い方
-使い方の説明

**2014/10/10

-次回以降、USBメモリ(2GB以上)を持ってきてください。

***日本語歴史コーパス(CHJ)の登録
-申込用紙・契約書2枚
-次回、押印して持ってきてください。

-----

***「コーパス」について [#k44345b6]

:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
--BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
--さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
--Web上のデータ
---検索サイトの利用
---WAC(Web as Corpus)


***総索引から電子化テキストへ(国語史資料の電子化の歴史)

-戦後、総索引が整備されはじめる
--1929~31『万葉集総索引』
--1952『源氏物語用語索引』
--1955『徒然草総索引』
-1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
--金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
--総索引作成のための電子化テキスト利用など
-1990年代、電子化テキストの利用が広がる
--『源氏物語』テキストデータベース(長瀬1990)
--国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
---日本文学等テキストファイル(岡島)http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm
---J-TEXT日本文学電子図書館(菊池・深沢)http://www.j-texts.com/
--青空文庫 1997~ http://www.aozora.gr.jp/
--この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』


***テキストファイル
-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]](広義のコーパス)
-テキストエディタ
--[[授業資料/テキストエディタ]]

***プレーンテキストからタグ付きテキストへ
-2000年代(タグ付きテキスト「コーパス」へ)
--狭義の「コーパス」登場
---『太陽コーパス』2005




**2014/10/03
***イントロダクション

-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/
-コーパスとは
--[[国立国語研究所コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]]
--[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]]
---http://www2.ninjal.ac.jp/lrc/index.php?UniDic

-デモ
-「日本語歴史コーパス(CHJ)」
--CHJ[[中納言>http://maro.ninjal.ac.jp]]
--Excelによる集計(ピボットテーブル)
-ひまわり(「太陽コーパス」)
-形態素解析:茶まめ/MeCab+UniDic


-シラバス確認
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=%A5%B7%A5%E9%A5%D0%A5%B9%C5%D0%CF%BF%20%5BLOYOLA%5D%B8%E5%B4%FC.pdf&refer=%BE%E5%C3%D22014%2F%B9%F1%B8%EC%B3%D8%B1%E9%BD%ACIb]]
--この授業の目的
--授業の進め方
--評価方法

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS