東京外大2013

日本語教育学研究

コーパス日本語研究入門

2013/06/14

形態素解析とUniDic


形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き


茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

2013/06/07

短単位と長単位(復習)

中納言検索課題

Excelの文字列関数とif関数

2013/05/31

中納言システムアップデート(5月30日)について

Excelによる集計・つづき

2013/05/24

長単位と短単位

「中納言」検索結果の利用

Excelの利用

2013/05/17

中納言によるコーパスの検索方法(つづき)

BCCWJの形態論情報

学校文法との違い

2013/05/10

「中納言」の利用

中納言によるコーパスの検索方法

2013/04/26

コーパスの設計とサンプリング

「少納言」を使ってみる


テキストエディタ

前回つづき

2013/04/19

「中納言」利用申込み


コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

参考リンク

テキストエディタ

4/12 第1回 イントロダクション/日本語コーパスの紹介


*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS