-授業に関するメールはこちらへ。小木曽 智信: ogiso@ogiso.net
-[[授業資料/用語集リンク]] (わからないコンピュータ用語を調べてください)
-授業フォルダ \\Servercai-1\SharedDocs\cai_share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]]

*日本語学講義(I) 日本語コーパス研究 [#nfef3a22]

**第8回 2008/11/21 形態素解析 [#g825db8a]
-新・授業フォルダ(NAS)
-配付資料
--シリーズ国語研究の現場から「日本語研究と自動形態素解析」
--BCCWJモニター版案内

***復習:Excelでの集計 [#d6dbde64]
+ひまわりで検索する
--正規表現
+Excelに貼り付ける
+列を整える
--文字列関数
+ピボットテーブルで集計する

***形態素解析とは [#yda847af]
-形態素解析器(解析エンジン・プログラム)
--茶筌(ChaSen)
--和布蕪(MeCab)
-解析辞書
--NAIST-jdic (IPADIC)
--UniDic
---近代文語UniDic
-茶まめ(解析用GUIツール)

***茶まめで形態素解析 [#ia7f85e4]
+茶まめで解析してみる(解析器・MeCab+解析辞書・UniDic)
+Excelに出力する
+ピボットテーブルで集計する
//ローカルでの解析は来週までに準備

***後半に向けて [#p5ac4a6d]
-発表順決め
-発表テーマの検討

**第7回 2008/11/14 Excelでの集計 [#g825db8a]

***持ち帰り用データ [#x85be6ee]
-授業フォルダの「持ち帰り用」フォルダ内にあるHimawariとそのデータ、青空文庫のテキストはコピーして持ち帰ってかまいません。

***Excel [#q2eb40c2]
-ピボットテーブルを使う
--参考:http://office.microsoft.com/ja-jp/excel/CH062528071041.aspx

-関数を使う
--=left([文字列],[文字数])
--生没年(1867-1916)から10年ごとの生まれた年代(1860)を取り出すには
---=left([生没年],3)*10

-用例の分類と集計
++分類記号を入れる列を用意し、自分で入力する
++ピボットテーブルで入力した分類を使う

-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.aspx
--扱う対象・方法に適したグラフを選択する 上記URL参照

-Excelの使い方全般について
--[[Excel 2003 のヘルプと使い方>http://office.microsoft.com/ja-jp/excel/FX100646961041.aspx]]
--[[Excelトレーニング(Microsoft)>http://office.microsoft.com/ja-jp/training/CR061831141041.aspx]]


***後半の発表・レポートに向けて [#ce526738]
-あと2回ほどで前半(ツールとその使い方に関する説明)を終えます。
-後半の発表とレポートに向けて、どのような資料を使い、どのようなテーマを扱うか考えておいてください。

***おすすめエディタ [#oa8d82a7]
-フリーウェア
--K2Editor http://k2top.jpn.org/index.php?K2Editor 【SJIS】
--Apsalyテキストエディタ http://www.vector.co.jp/soft/win95/writing/se423509.html 【SJIS】
--サクラエディタ http://sakura-editor.sourceforge.net/ 【SJIS】unicode版開発中
-シェアウェア
--EmEditor http://jp.emeditor.com/ 4,200円
--秀丸エディタ http://hide.maruo.co.jp/software/hidemaru.html 4,200円

**第6回 2008/11/7 「ひまわり」とExcel [#g825db8a]
***正規表現・補足 [#r122bdea]
-(参考)タグ付き正規表現の応用:[[grepと置換でKWICを作る>授業資料/grepと置換でKWICを作る]]

***全文検索ソフト「ひまわり」の利用 [#ubf60277]
-「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]
-「ひまわり」を授業フォルダに入れ、青空文庫を検索できるようにしてあります。

***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]のようなもの。[あ-う]は不可)
-前文脈/後文脈:ほぼ全ての正規表現

-応用:「ひまわり」の検索結果を正規表現を使った置換で加工する

|前文脈|キー|後文脈|タイトル|著者|著者ID|生没年|原著者|原著者ID|仮名遣い|

***表計算ソフト Excel入門 [#k88c28d1]
-並べ替え
-オートフィルタ
--オートフィルタの「オプション」

***発展:「ひまわり」用のデータを作るには [#l26f68db]
-XML形式について
-[[ひまわり用データ作成ツール「えだまめ」>http://www.kokken.go.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]]
-[[ソフトウェア/しおまめ]](新潮文庫の100冊シリーズ変換)
-[[青空文庫のDVD-ROMを変換>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%C0%C4%B6%F5%CA%B8%B8%CB%A4%CE%CA%B8%BD%F1%A4%F2%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%A4%C7%CD%F8%CD%D1%A4%B9%A4%EB%CA%FD%CB%A1%A3%B2]]

**第5回 2008/10/31 正規表現の応用・タグ付き正規表現 [#g825db8a]
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--グループ化  ()
--or(論理和)  |
--文頭 ^、文末 $
-最長一致の原則(greedy matching)

-応用例
--会話文(''「''で始まる)

***タグ付き正規表現を使った置換 [#c0c09730]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらいいか
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ] 
---置換文字列:★走[らりるれろ] 
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
-[[授業資料/タグつき正規表現]]

-利用例
--「ー」で終わるカタカナ語の「ー」を削除する
--動詞「表わす」の表記を「表す」に統一する

***正規表現に関する本 [#a3414e4f]
-[[amazonで検索>http://www.amazon.co.jp/s/ref=nb_ss_gw?__mk_ja_JP=%83J%83%5E%83J%83i&url=search-alias%3Daps&field-keywords=%90%B3%8BK%95%5C%8C%BB&Go.x=0&Go.y=0&Go=Go]]

#amazon(4873111706)
#amazon(4873113598)
#clear

**第4回 2008/10/24 正規表現 [#g825db8a]
-[[秀丸エディタの使い方(PDF)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%BD%A8%B4%DD%A5%A8%A5%C7%A5%A3%A5%BF%A4%CE%BB%C8%A4%A4%CA%FD.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]]

***メタ文字 ― ワイルドカードと正規表現 [#s632d4fa]
-''ワイルドカード'' [[>用語>http://e-words.jp/w/E383AFE382A4E383ABE38389E382ABE383BCE38389.html]]  cf.トランプのJoker
--主にファイル名の指定で使う
--文字を表すための文字(メタ文字) ?と* ((ワイルドカードの「?」「*」は、後で説明する正規表現の「?」「*」とは意味が違うので注意。ワイルドカードの「?」は正規表現で「.」、「*」は「.*」。))

|?|任意の1文字|
|*|任意の長さの文字列|

***正規表現とは [#d216d4e0]

-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]]
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2

-文字クラス [ ]
-文字クラスの否定(補集合)[^ ]
-繰り返し ? + *

***正規表現の応用 [#c7a3ea2d]
--カタカナ語
--送りがなの揺れ(行う/行なう)
--''全然~ない。''

**第3回 2008/10/17 テキストエディタを使う [#wb9e8a55]
//出席11名
-テキストエディタの基礎
--スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
--ファイルの作成と保存
--検索と置換
-grepとその応用
--grep
--タグジャンプ
--grep結果の保存
-応用
--検索で初出行を調べる
--置換で用例数を数える

***grepと置換でCSVファイルを作る [#u3ab2d6f]
-grep結果の置換による整形
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://e-words.jp/w/CSV.html]]
-CSVファイルをExcelで開く
-KWIC:KeyWord In Context

***テキストファイルと拡張子 [#c15ea011]
-[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E5%AD%90]]
-拡張子辞典:http://jisyo.com/viewer/list/list.html
-TXT,CSV,HTM・・・

***ショートカットキー [#f0022be4]
-[[授業資料/覚えておきたいショートカットキー]]
//テキストエディタとは、から

**第2回 2008/10/10 テキストデータとテキストエディタ [#g53e1e46]

-共有フォルダの確認

//-出席
//--名前・学籍番号と、専門分野またはこの授業で取り組みたい課題を書き込んでください。
//- まだ未定ですが、年少者教育について興味があります。私はパソコンに弱いので、基礎から教えていただきたいです。 -- [[永渕泰子・LM082005]] &new{2008-10-10 (金) 10:55:06};
//- 日本語・中国語の対照研究。モダリティに関わる表現(終助詞など)。 -- [[LM082006 中村紗弥子]] &new{2008-10-10 (金) 10:55:36};
//- 専門分野は文章理解なので、この授業で何をやりたいのかはまだ決まっていません。でも、コーパスにも興味があるので、コーパス関係で何かやるかもしれません。 -- [[ポクロフスカ・オーリガ LA080002]] &new{2008-10-10 (金) 10:56:42};
//- 第二言語の語彙習得を専門にしています。特に連語(コロケーション)の習得について扱っていますので、この授業でも語の共起について取り組みたいと考えています。 -- [[阿保きみ枝 LD072001]] &new{2008-10-10 (金) 10:57:10};
//- 見送る、見逃すなど見ると組み合わせする複合動詞 -- [[LM072004 黄嘉韻]] &new{2008-10-10 (金) 10:57:16};
//- 研究テーマはまだ決まっていないのですが、外来語(カタカナ語)について興味を持っております。 -- [[黎嘉欣(レイカキン) [カミラ] LM082008]] &new{2008-10-10 (金) 10:57:40};
//- 初級日本語段階からのビデオ視聴授業 -- [[史文華 lm082002]] &new{2008-10-10 (金) 10:57:46};
//- 専門分野:平安時代の作品を中心に、言葉の検索、分析などのコーパスを学びたいです -- [[周静]] &new{2008-10-10 (金) 10:58:10};
//- 異文化コミュニケーション研究。企業における異文化摩擦の動向など。 -- [[lm081012姜景字]] &new{2008-10-10 (金) 10:58:27};
//- "明治大正期の音楽教育”国樂概念、唱歌歌詞(文語から口語へ)。 太陽コーパスを使って幾つかの語彙の意味内容変遷をみたいです。よろしくお願いします。 -- [[LM082001 佐川祥予]] &new{2008-10-10 (金) 10:59:07};
//- 研究テ―マはまだ決まっていないのですが、専門は日本語教育なんです -- [[沈衛傑]] &new{2008-10-10 (金) 10:59:33};
//
//#comment
//

***授業で利用する主なソフトウェア [#i06478d2]
|''[[秀丸エディタ>http://hide.maruo.co.jp/software/hidemaru.html]]''|テキストエディタ|検索・整形|
|''[[ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索ソフト|検索・分析|
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析ソフト|形態素解析|
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|形態素解析|
|''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''|表計算ソフト|集計・分析・グラフ作成|
|''[[Access>http://office.microsoft.com/ja-jp/access/default.aspx]]''|データベースソフト|集計・分析|

最初に、テキストエディタを使ってテキストデータを扱うことからはじめます。

***テキストデータ [#wee47413]

テキストデータ≒テキストファイル≒電子化テキスト

-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]]
---参考 [[『国会会議録を使った日本語研究』>http://www.hituzi.co.jp/books/299.html]]

--[[授業資料/文字コード関連リンク]]

***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]


**2008/10/03 イントロダクション [#wa4a4b4f]
-[[自己紹介]]
-国語研コーパスの紹介

-授業の進め方について
--シラバス確認
//・・手を動かすこと、実用

-デモ
--形態素解析+Excel

-受講者アンケート
--専門・関心領域
--PCスキル


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS