上智2014

コーパス日本語学入門

2014/06/27

レポート作成のためのコーパス検索・調査(1)

考えてきたテーマについて、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。

2014/06/20

レポートテーマ案提出

形態素解析

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き



授業用UniDic+MeCabパッケージのダウンロード

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

2014/06/13

BCCWJ利用の落とし穴

調整頻度の計算

ランダムサンプリング調査(Excelでの集計・補足)

NINJAL LWP for BCCWJの紹介

レポートテーマについて

表記

類義語・対義語

語形、語法

新語・意味変化

2014/06/06

Excelによる集計・つづき

Excelの文字列関数とIF関数

2014/05/30

復習

  1. 「中納言」による検索
  2. Excelでインポート
  3. ピボットテーブルで集計

Excelの基礎

検索の例

キー: (語彙素 LIKE "[男女]" AND (語彙素読み="オトコ" OR 語彙素読み = "オンナ")) 
WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND  tglFixVariable="2"
キー: (語彙素="男性" OR 語彙素 = "女性") 
WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") 
AND 後方共起: (語彙素 = "男性" OR 語彙素 = "女性") ON 1 WORDS FROM キー 
WITH OPTIONS unit="2" AND tglWords="10" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") 
AND 後方共起: (語彙素 LIKE "[男女]" AND (語彙素読み="オトコ" OR 語彙素読み = "オンナ")) ON 1 WORDS FROM キー 
WITH OPTIONS unit="2" AND tglWords="10" AND limitToSelfSentence="0" AND 
endOfLine="CRLF" AND tglKugiri="|" AND encoding="UTF-16LE" AND tglFixVariable="2"

補足

2014/05/23

検索条件式の利用

キー: 語彙素 = "玉葱" WITH OPTIONS unit="1" AND tglWords="20" AND limitToSelfSentence="0" 
AND endOfLine="CRLF" AND tglKugiri="|" AND  encoding="UTF-8" AND tglFixVariable="2"

検索結果をExcelで利用する

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

【重要】ピボットテーブルの使い方

2014/5/16

「中納言」の利用:形態論情報を使った検索

2014/5/9

「中納言」利用申込み

コーパスの形態論情報

短単位と長単位

品詞体系


UniDicの品詞体系

品詞分類

unidic_pos.png

活用型

unidic_cType.png

活用形

unidic_cForm.png

学校文法との主な違い


UniDic見出し語の階層構造

見出し語の階層構造

unidic_hierarchy.png

各レベルが持つ情報*4

※語彙素読み・語形・発音形はカタカナ表記。語彙素は漢字を多用した「代表表記」。

基本形と出現形

語形以下のレベルでは、基本形(辞書見出し形=終止形)と出現形(実際の活用形)の別があり、活用語では違う形になる

例:アザラシが泳ぎます

見出し語の例とBCCWJ中の用例数


形態論情報を活かした検索

2014/5/2

「中納言」利用申込み

日本語コーパスの紹介(2) コーパスの設計とサンプリング

参考リンク

2014/4/25

「中納言」利用申込み

現代日本語書き言葉均衡コーパス(BCCWJ)とは

日本語コーパスの紹介(1)コーパスとはどんなものか

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

2014/04/18

イントロダクション


*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん
*3 「行く」は「た」「て」に続く連用形がイ音便ではなく促音便になる
*4 一部のみ。「中納言」で使えるのは更にこの一部分。
*5 この場合、活用形としては「連用形」

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS