[[成蹊2009]]

*日本語学講義B(後期) [#v96d1a69]
--月曜5限
--資料は[[IT's Class>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]の教材のページを見てください。
--http://www.cc.seikei.ac.jp/

-''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]''

**お知らせ
//-次回(11/2)の授業時にUSBメモリ(1GB以上)を持ってきてください。
-Web Collaborationで形態素解析用のソフトウェアを配布しています。自分のUSBメモリにコピーして使ってください。(空き容量が約400MB必要です)
-出席について:情報教育用施設の出席管理システムで毎回確認しています。
-授業中に案内したアカウントで[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]が使えます。詳しい使い方は授業終盤で説明しますが、レポートテーマの検討のためあらかじめ利用してみてください。

-12/24は休講とします。次回までにレポートテーマを考えておいてください。
------

***1/18 第13回 レポートテーマの決定、レポート作成

-期末レポート
-''締め切り:1月31日 24:00''
-''提出先(メール):ogiso@ogiso.net''
-A4用紙3枚以上(目安)
--''提出先(メール): ogiso@ogiso.net ''
--A4用紙3枚以上(目安)

***1/9(土) 第12回 中納言によるコーパスの検索と結果の集計/レポートテーマ確認
-中納言の使い方
--コーパスの検索(復習)
---全文検索と短単位検索
---前後の語を組み合わせた検索
--検索結果の集計
---Excel
---Access(発展)

-レポートテーマの確認
++形態素解析結果の集計・比較
++コーパスの利用(中納言)

***12/21 第11回 集計結果の利用/小テスト
-異なり語数とのべ語数
--UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型でグループ化することで(表記違いや活用形違いをまとめ上げた)語数の集計ができる
-異なり語数/のべ語数:TTR(Type-Token Ratio)
--語彙の豊かさの指標の一つ
-名詞率
--要約的な文章ほど高い
-MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb)
で割った比率(Ratio)
--高「ありさま描写的」<--->低「動き描写的」といわれる

&ref(compare.jpg);

***12/14 第10回 形態素解析結果をデータベースで扱う(Access)(2)
--表の結合 
---内部結合と外部結合
---表を結合して選択
--集計 
---合計・平均・・・
-連続する語を取り出す・集計する
++次の語の連番を付ける 
+++列を用意する
+++更新クエリ
++連続する語を抜き出す 
+++解析結果テーブル自身を1行ずらして結合する
+++前後の語で条件指定した選択クエリ

[[参考資料:形態素解析結果をAccessで使う(PDF)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%B7%C1%C2%D6%C1%C7%B2%F2%C0%CF%B7%EB%B2%CC%A4%F2Access%A4%C7%BB%C8%A4%A6.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]]

***12/07 第9回 形態素解析結果をデータベースで扱う(Access)

-データベースに取り込む:
++Accessで新規データベースを作成(mdbファイル)
++インポート
---文字コード(コードページをUTF-8に指定する)
++連番を付ける

-データを取り出す・集計する
--選択クエリ 
---列を選択
---行を選択
--集計 
---カウント(何例あるか)

***11/30 第8回 形態素解析結果の集計(Excel)(2)
-前回収集したデータを茶まめ(UniDic+MeCab)で解析し、Excelで集計します。
-Excelのピボットテーブルが使いこなせるようになってください。

+茶まめの使い方(復習)
--複数のファイルを解析する
--ファイルに出力する
---タブ区切りテキスト
+Excelとピボットテーブル
--解析結果の取り込み
--語種別の集計
--品詞別の集計
---品詞大分類で集計(関数の利用)


***11/16 第7回 形態素解析結果の集計
-今回から実習的な内容が多くなります。
-茶まめ(UniDic+MeCab)で解析した結果をExcelで集計します。
-自分で形態素解析が行えるようにしてください。

+茶まめの使い方
--複数のファイルを解析する
--ファイルに出力する
---タブ区切りテキスト
+Excelとピボットテーブル

***11/09 第6回 形態素解析
-形態素解析とは
-UniDicの概要
-茶まめで形態素解析を行う
--パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]])
-配付資料:小木曽(2007)「日本語研究と自動形態素解析」

***11/02 第5回 文字コード
-文字の符号化と文字集合
--パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]])
-形態素解析用ソフトウェア(配布と動作確認)

***10/26 第4回 コーパスのデータ形式
-構造化文書とXML
--パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]])

***10/19 第3回 均衡コーパス
-コーパスの設計とサンプリング
--パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]])

***10/12(体育の日・開講日) 休講

***10/5 第2回 利用可能な言語資源とコーパス
-前回補足
--形態素解析のデモンストレーション(兼 環境チェック)

(以下パワーポイント参照)
-紙の資料からコーパスまで
--コーパスとは
---広義のコーパス/狭義のコーパス
---コーパス,テキストデータの紹介

***9/28 第1回 ガイダンス
-[[自己紹介]]
--独立行政法人国立国語研究所 http://www.kokken.go.jp/ → 大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/
--[[日本語コーパスKOTONOHA>http://www2.kokken.go.jp/kotonoha/]]
--[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]]
--[[形態素解析辞書UniDic>http://download.unidic.org/]]

-[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=2009%A5%B7%A5%E9%A5%D0%A5%B9%A1%A6%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1B.pdf&refer=%C0%AE%EC%FE2009%2F%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1B]]確認
--この授業の目的
--授業の進め方
--評価方法

-デモ

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS