日本語学講義(I) 日本語コーパス研究


お知らせ

後半の発表・レポートに向けて

持ち帰り用データ


今後の予定(あくまでも予定です)


第10回 2008/06/12 発表と討議(1)/形態素解析結果とデータベース(1)

発表

  1. テイル/テイタの用法(小説・新聞社説)
  2. マニュアルの日本語の特徴(機械の説明書のネイティブチェック,ミニ対訳コーパス)

関係データベース

第9回 2009/06/05 形態素解析

形態素解析とは

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

インストールの方法

第8回 2009/05/30 ミニコーパスを作る

「ひまわり」用のデータを作るには

既存のデータを「ひまわり」用に変換する

第7回 2009/05/22 「ひまわり」とExcelの利用(2) / 発表課題の検討

Excelを使った集計

発表課題について

第6回 2009/05/15 「ひまわり」とExcelの利用(1)

全文検索ソフト「ひまわり」の利用

「ひまわり」で使用できる正規表現

前文脈キー後文脈タイトル著者著者ID生没年原著者原著者ID仮名遣いコーパス名

表計算ソフト Excel入門

Excelを使った集計

テキストエディタと組み合わせて使う

第5回 2009/05/08 高度な正規表現

タグ付き正規表現(復習)

検索語の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

おすすめテキストエディタ

全文検索ソフト「ひまわり」の利用


第4回 2009/05/01  正規表現

正規表現とは

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

第3回 2009/04/24  テキストエディタの利用

grepと置換でKWIC(CSVファイル)を作る

テキストファイルと拡張子

ショートカットキー

正規表現とは

(続きは次回)

第2回 2009/04/17  テキストデータとテキストエディタ

コーパスについて

この授業ではBCCWJ(モニター公開版)・太陽コーパスのほか、青空文庫・国会会議録などの広義のコーパスも取り扱う。

授業で利用する主なソフトウェア

秀丸エディタテキストエディタ検索・整形
ひまわり全文検索ソフト検索・分析
MeCab形態素解析器形態素解析
UniDic形態素解析辞書
Excel表計算ソフト集計・分析・グラフ作成
Accessデータベースソフト集計・分析
Wordワープロレポート作成

このほかにWeb上で利用できるサービスも取り上げます。

最初に、テキストエディタを使ってテキストデータを扱うことからはじめます。

テキストデータ

全ての基本。テキストデータ≒テキストファイル≒電子化テキスト

#amazon(4894762994)

テキストエディタ

テキストエディタの基礎

2009/04/10 イントロダクション


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS