日本語学講義(I) 日本語コーパス研究入門

レポートについて

2013/02/25 総まとめ

まとめ

  1. できたものを利用
    • BCCWJ中納言 + Excelピボットテーブル
  2. 自分でデータをなんとかする
    テキストのレベルツール必要な技術
    プレーンテキストレベルテキストエディタgrepと正規表現
    タグ付きテキストレベルひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
    形態素解析済みテキストレベルUniDic,MeCab→ChaKiChaKiの使い方

発展

質問

2013/01/18 特別授業@国語研(ChaKi)

  1. MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
  2. UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
  3. ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
  4. データの解析と取り込み
  5. 茶器による検索
    1. 文字列検索
    2. 正規表現検索
    3. タグ検索(形態論情報を利用した検索)
  6. ワードリスト
  7. 解析結果の修正

2013/01/11 Wordでレポートや論文を書く

ひまわり補足

Wordでレポートや論文を書く

サンプルファイル:中納言概説

質問

2012/12/21 ひまわり

ひまわり

Excelを使った集計(補足)

2012/12/14 文字列検索と正規表現 (少納言,テキストエディタ)

レポートテーマ

少納言

テキストエディタ

正規表現

2012/12/7 UniDicによる形態素解析


形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

新しい形態素解析器

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き


茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

2012/11/30

復習と補足

ショートカットキー

長単位と短単位の仕様の違い

集計のための処理

利用例:「訊く」の話

2012/11/16

「中納言」検索結果のダウンロード

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. インポート

中納言の検索結果をExcelで利用する

Excelの基本

Excel:ピボットテーブルとピボットグラフ

2012/11/09

検索条件式

キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
 後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true"
 WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true" 
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"

BCCWJの形態論情報

学校文法との違い

長単位の品詞

2012/10/26

「中納言」の利用

中納言によるコーパスの検索方法

2012/10/19

コーパスの設計とサンプリング

2012/10/12 コーパスとは

はじめに

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

「少納言」を使ってみる

参考リンク

2012/10/05 イントロダクション

授業で利用する主なソフトウェア

名前種類利用目的
Excel表計算ソフト集計・分析・グラフ作成
Wordワープロレポート作成
ひまわり全文検索システム検索・集計
MeCab形態素解析器形態素解析
UniDic形態素解析辞書
BCCWJ:小納言Webサービス(文字列検索)コーパス検索
BCCWJ:中納言Webサービス(単語情報付き検索)

*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-01-25 (金) 10:32:06