日本語学講義(I) 日本語コーパス研究入門

レポート提出について

今後のテーマ

Wordで論文を書く(スタイルと見出し機能)


2012/01/20 ミニコーパスを作る

「ひまわり」で検索できるミニコーパスを作る

「ひまわり」用のデータを作るには

既存のデータを「ひまわり」用に変換する

レポートテーマについて

2012/01/06 BCCWJの設計と書誌情報

(スライド参照)

レポートテーマ

2011/12/16 BCCWJの形態論情報とUniDicによる形態素解析


形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き


茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

2011/12/09 Excelによるデータの処理

復習

応用・意味に関わる分析

相対頻度の計算

中納言の検索結果をピボットテーブルで集計する

2011/12/02 中納言

BCCWJ中納言の使い方

2011/11/25 「ひまわり」とExcelの利用(2)

前文脈キー後文脈タイトル著者著者ID生没年原著者原著者ID仮名遣いコーパス名

表計算ソフト Excel入門

Excelを使った集計

テキストエディタと組み合わせて使う

2011/11/18 「ひまわり」とExcelの利用(1)

全文検索ソフト「ひまわり」

「ひまわり」で使用できる正規表現

前文脈キー後文脈タイトル著者著者ID生没年原著者原著者ID仮名遣いコーパス名

2011/11/4(一橋祭) 復習&質問

2011/10/28  タグ付き正規表現

タグ付き正規表現

検索語の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

2011/10/21  正規表現

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

検索語の中での後方参照

最長一致の原則(greedy matching)

2011/10/14  テキストエディタの利用

復習

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る

おすすめテキストエディタ

正規表現とは

2011/10/07  テキストデータとテキストエディタ

まずは、テキストエディタを使ってテキストデータを扱うことからはじめます。

(補足)「コーパス」について

この授業ではBCCWJのほかに、青空文庫・国会会議録などの広義のコーパス、自作のミニコーパスなども取り扱います。

テキストデータ

全ての基本。テキストデータ≒テキストファイル≒電子化テキスト

#amazon(4894762994)

テキストファイルと拡張子

テキストエディタ

テキストエディタの基礎

2011/09/30 イントロダクション

授業で利用する主なソフトウェア

名前種類利用目的
秀丸エディタテキストエディタ検索・整形
Excel表計算ソフト集計・分析・グラフ作成
Access(時間があれば)データベースソフト集計・分析
Wordワープロレポート作成
ひまわり全文検索システム検索・集計
MeCab形態素解析器形態素解析
UniDic形態素解析辞書
BCCWJ:小納言Webサービス(文字列検索)コーパス検索
BCCWJ:前中納言Webサービス(単語情報付き検索)
BCCWJ:中納言Webサービス(単語情報付き検索)

*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS