日本語学講義(I) 日本語コーパス研究


お知らせ

持ち帰り用データ

【補足資料】

第15回(補講) 2008/07/17 形態素解析結果とデータベース

復習:形態素解析のためのツール

データベースに取り込む

データを取り出す

連続する形態素を抜き出す

第14回 2008/07/10 発表と討議(5)

発表2件

  1. 順序をあらわす接続語に関する一考察
    • 3タイプ:第一に/最初に/まず cf.石黒(2005)日本語教育125
    • 日本語母語話者/中国人学習者作文の比較
  2. 二字漢語の形容詞用法と名詞用法の名詞修飾
    • ナ形容詞(~な~)、名詞(~の~)
    • 中国語ではともに「的」
    • 両用可能 普通・無限・透明

データベース

第13回 2008/07/03 発表と討議(4)

発表(2件)

  1. ら抜き言葉の使用傾向
  2. 日本語と中国語との補文関係を持つVV型複合動詞

第12回 2008/06/26 発表と討議(3)

発表(3件)

  1. コミックに見る人称代名詞
  2. 強調を表すとりたて助詞(「も」)「まで」「さえ」
  3. KYコーパスを用いた中国人中上級学習者の条件表現の研究

第11回 2008/06/19 発表と討議(2)/形態素解析結果とデータベース(2)

発表

  1. 小説に見られる「外国人」の発話表記
  2. 講義における指示表現の分析
  3. 自動詞・他動詞による共起する語の範囲の違い

形態素解析結果とデータベース

第10回 2008/06/12 発表と討議(1)/形態素解析結果とデータベース(1)

発表

  1. テイル/テイタの用法(小説・新聞社説)
  2. マニュアルの日本語の特徴(機械の説明書のネイティブチェック,ミニ対訳コーパス)

関係データベース

第9回 2009/06/05 形態素解析

形態素解析とは

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

インストールの方法

第8回 2009/05/30 ミニコーパスを作る

「ひまわり」用のデータを作るには

既存のデータを「ひまわり」用に変換する

第7回 2009/05/22 「ひまわり」とExcelの利用(2) / 発表課題の検討

Excelを使った集計

発表課題について

第6回 2009/05/15 「ひまわり」とExcelの利用(1)

全文検索ソフト「ひまわり」の利用

「ひまわり」で使用できる正規表現

前文脈キー後文脈タイトル著者著者ID生没年原著者原著者ID仮名遣いコーパス名

表計算ソフト Excel入門

Excelを使った集計

テキストエディタと組み合わせて使う

第5回 2009/05/08 高度な正規表現

タグ付き正規表現(復習)

検索語の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

おすすめテキストエディタ

全文検索ソフト「ひまわり」の利用


第4回 2009/05/01  正規表現

正規表現とは

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

第3回 2009/04/24  テキストエディタの利用

grepと置換でKWIC(CSVファイル)を作る

テキストファイルと拡張子

ショートカットキー

正規表現とは

(続きは次回)

第2回 2009/04/17  テキストデータとテキストエディタ

コーパスについて

この授業ではBCCWJ(モニター公開版)・太陽コーパスのほか、青空文庫・国会会議録などの広義のコーパスも取り扱う。

授業で利用する主なソフトウェア

秀丸エディタテキストエディタ検索・整形
ひまわり全文検索ソフト検索・分析
MeCab形態素解析器形態素解析
UniDic形態素解析辞書
Excel表計算ソフト集計・分析・グラフ作成
Accessデータベースソフト集計・分析
Wordワープロレポート作成

このほかにWeb上で利用できるサービスも取り上げます。

最初に、テキストエディタを使ってテキストデータを扱うことからはじめます。

テキストデータ

全ての基本。テキストデータ≒テキストファイル≒電子化テキスト

#amazon(4894762994)

テキストエディタ

テキストエディタの基礎

2009/04/10 イントロダクション


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-05-07 (月) 00:29:08