[[一橋2008]]
-授業に関するメールはこちらへ。小木曽 智信: ogiso@ogiso.net
-[[授業資料/用語集リンク]] (わからないコンピュータ用語を調べてください)
-授業フォルダ \\Servercai-1\SharedDocs\cai_share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]]

*日本語学講義(I) 日本語コーパス研究 [#nfef3a22]

**第5回 2008/10/31 正規表現の応用・タグ付き正規表現 [#g825db8a]
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--グループ化  ()
--or(論理和)  |
--文頭 ^、文末 $
-最長一致の原則(greedy matching)

-応用例
--会話文(''「''で始まる)

***タグ付き正規表現を使った置換 [#c0c09730]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらいいか
--次のように置換するととんでもないことに
---検索文字列:走[らりるれろ] 
---置換文字列:★走[らりるれろ] 
-カッコ(半角丸カッコ)と$1($2,$3…)を使う

-例
--「ー」で終わるカタカナ語の「ー」を削除する
--動詞「表わす」の表記を「表す」に統一する
-授業資料/タグつき正規表現

***タグ付き正規表現の応用 [#j53c023d]
-参考:[[grepと置換でKWICを作る>授業資料/grepと置換でKWICを作る]]

-正規表現に関する本 [[amazonで検索>http://www.amazon.co.jp/s/ref=nb_ss_gw?__mk_ja_JP=%83J%83%5E%83J%83i&url=search-alias%3Daps&field-keywords=%90%B3%8BK%95%5C%8C%BB&Go.x=0&Go.y=0&Go=Go]]

#amazon(4873111706)
#amazon(4873113598)
#clear

**第4回 2008/10/24 正規表現 [#g825db8a]
-[[秀丸エディタの使い方(PDF)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%BD%A8%B4%DD%A5%A8%A5%C7%A5%A3%A5%BF%A4%CE%BB%C8%A4%A4%CA%FD.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]]

***メタ文字 ― ワイルドカードと正規表現 [#s632d4fa]
-''ワイルドカード'' [[>用語>http://e-words.jp/w/E383AFE382A4E383ABE38389E382ABE383BCE38389.html]]  cf.トランプのJoker
--主にファイル名の指定で使う
--文字を表すための文字(メタ文字) ?と* ((ワイルドカードの「?」「*」は、後で説明する正規表現の「?」「*」とは意味が違うので注意。ワイルドカードの「?」は正規表現で「.」、「*」は「.*」。))

|?|任意の1文字|
|*|任意の長さの文字列|

***正規表現とは [#o846fab3]
***正規表現とは [#o846fab3]ー [#z8bcb0c3]

-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]]
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2

***正規表現のいろいろ: [#q514651f]
-[[授業資料/正規表現]]
--繰り返し
--グループ化
-最長一致の原則(greedy matching)
-文字クラス [ ]
-文字クラスの否定(補集合)[^ ]
-繰り返し ? + *

-正規表現に関する参考資料
--K2Editorでの正規表現の解説 http://www4.ocn.ne.jp/~kaerume/k2e/regex_top.html
--正規表現に関する本 [[amazonで検索>http://www.amazon.co.jp/s/ref=nb_ss_gw?__mk_ja_JP=%83J%83%5E%83J%83i&url=search-alias%3Daps&field-keywords=%90%B3%8BK%95%5C%8C%BB&Go.x=0&Go.y=0&Go=Go]]

#amazon(4873111706)
#amazon(4873113598)
#clear
***正規表現の応用 [#c7a3ea2d]
-課題
--カタカナ語
--送りがなの揺れ(行う/行なう)
--''私は''で始まり''した。''で終わる行
--会話(''「''で始まる)
--''全然~ない''

-参考:[[grepと置換でKWICを作る>授業資料/grepと置換でKWICを作る]]

**第3回 2008/10/17 テキストエディタを使う [#wb9e8a55]
//出席11名
-テキストエディタの基礎
--スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
--ファイルの作成と保存
--検索と置換
-grepとその応用
--grep
--タグジャンプ
--grep結果の保存
-応用
--検索で初出行を調べる
--置換で用例数を数える

***grepと置換でCSVファイルを作る [#u3ab2d6f]
-grep結果の置換による整形
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://e-words.jp/w/CSV.html]]
-CSVファイルをExcelで開く
-KWIC:KeyWord In Context

***テキストファイルと拡張子 [#c15ea011]
-[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E5%AD%90]]
-拡張子辞典:http://jisyo.com/viewer/list/list.html
-TXT,CSV,HTM・・・

***ショートカットキー [#f0022be4]
-[[授業資料/覚えておきたいショートカットキー]]
//テキストエディタとは、から

**第2回 2008/10/10 テキストデータとテキストエディタ [#g53e1e46]

-共有フォルダの確認

//-出席
//--名前・学籍番号と、専門分野またはこの授業で取り組みたい課題を書き込んでください。
//- まだ未定ですが、年少者教育について興味があります。私はパソコンに弱いので、基礎から教えていただきたいです。 -- [[永渕泰子・LM082005]] &new{2008-10-10 (金) 10:55:06};
//- 日本語・中国語の対照研究。モダリティに関わる表現(終助詞など)。 -- [[LM082006 中村紗弥子]] &new{2008-10-10 (金) 10:55:36};
//- 専門分野は文章理解なので、この授業で何をやりたいのかはまだ決まっていません。でも、コーパスにも興味があるので、コーパス関係で何かやるかもしれません。 -- [[ポクロフスカ・オーリガ LA080002]] &new{2008-10-10 (金) 10:56:42};
//- 第二言語の語彙習得を専門にしています。特に連語(コロケーション)の習得について扱っていますので、この授業でも語の共起について取り組みたいと考えています。 -- [[阿保きみ枝 LD072001]] &new{2008-10-10 (金) 10:57:10};
//- 見送る、見逃すなど見ると組み合わせする複合動詞 -- [[LM072004 黄嘉韻]] &new{2008-10-10 (金) 10:57:16};
//- 研究テーマはまだ決まっていないのですが、外来語(カタカナ語)について興味を持っております。 -- [[黎嘉欣(レイカキン) [カミラ] LM082008]] &new{2008-10-10 (金) 10:57:40};
//- 初級日本語段階からのビデオ視聴授業 -- [[史文華 lm082002]] &new{2008-10-10 (金) 10:57:46};
//- 専門分野:平安時代の作品を中心に、言葉の検索、分析などのコーパスを学びたいです -- [[周静]] &new{2008-10-10 (金) 10:58:10};
//- 異文化コミュニケーション研究。企業における異文化摩擦の動向など。 -- [[lm081012姜景字]] &new{2008-10-10 (金) 10:58:27};
//- "明治大正期の音楽教育”国樂概念、唱歌歌詞(文語から口語へ)。 太陽コーパスを使って幾つかの語彙の意味内容変遷をみたいです。よろしくお願いします。 -- [[LM082001 佐川祥予]] &new{2008-10-10 (金) 10:59:07};
//- 研究テ―マはまだ決まっていないのですが、専門は日本語教育なんです -- [[沈衛傑]] &new{2008-10-10 (金) 10:59:33};
//
//#comment
//

***授業で利用する主なソフトウェア [#i06478d2]
|''[[秀丸エディタ>http://hide.maruo.co.jp/software/hidemaru.html]]''|テキストエディタ|検索・整形|
|''[[ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索ソフト|検索・分析|
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析ソフト|形態素解析|
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|形態素解析|
|''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''|表計算ソフト|集計・分析・グラフ作成|
|''[[Access>http://office.microsoft.com/ja-jp/access/default.aspx]]''|データベースソフト|集計・分析|

最初に、テキストエディタを使ってテキストデータを扱うことからはじめます。

***テキストデータ [#wee47413]

テキストデータ≒テキストファイル≒電子化テキスト

-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]]
---参考 [[『国会会議録を使った日本語研究』>http://www.hituzi.co.jp/books/299.html]]

--[[授業資料/文字コード関連リンク]]

***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]


**2008/10/03 イントロダクション [#wa4a4b4f]
-[[自己紹介]]
-国語研コーパスの紹介

-授業の進め方について
--シラバス確認
//・・手を動かすこと、実用

-デモ
--形態素解析+Excel

-受講者アンケート
--専門・関心領域
--PCスキル


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS