成蹊2008/日本語学講義B

形態素解析と結果の利用

期末小レポートの素材作成

  1. テキストの収集
    • インターネット上からテキストを集めてくる
      • あとでグループにして比較できるように二つ以上のジャンルから
    • メモ帳などに貼り付けて1文ごとに改行されるように整形
    • グループ毎にまとめられるファイル名をつけて保存(例:新聞・社会1.txtなど)
  2. 茶まめを使って解析
    • ファイルから解析
      • ~*.txt(フォルダ内のテキストファイルを全て解析)
    • 解析オプション
      • 半角文字を全角に変換:ON
      • 数字処理:簡易モード
    • 単一ファイルに出力(merge):ON
    • 表に列名を出力:ON
  3. データベースへの取り込み(Access)
    • 空のデータベースを作る
    • 解析結果の取り込み(=インポート)
      • merge.txtを指定
      • 文字コードをUTF-8に変更
      • 先頭行をフィールド名にする:ON
    • 品詞リストの取り込み
  4. クエリの作成(Access)
    • 語種別の集計(延べ語数)
    • 異なり語リストの作成
    • 品詞別の集計(テーブルの結合)
    • 語種別の集計(異なり語数)(クエリをもとにしたクエリ)
  5. グラフの作成(Excel)
    • 必要な結果をコピー&ペーストしてグラフ作成
      • Access上でグラフを作ることもできるがコピーなどができなくて不便
      • ExcelからAccessのデータベースに接続して、クエリ結果をExcelの表として扱うこともできる(応用レベル)

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-05-07 (月) 00:33:35