名古屋大学2020・コーパス日本語学入門

もくじ

日程等

2020年9月23日(水)

第1回(3限) イントロダクション/日本語コーパスの紹介

イントロダクション

授業内容等の確認

「中納言」アカウントについて

授業で利用する主なソフトウェア・Webアプリケーション(予定)

ソフトウェアの種類・名前利用目的
コーパス検索アプリケーション「中納言」コーパスの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
Web茶まめ形態素解析
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
Rデータの統計分析

授業内容デモ

第2回(4限) コーパスの設計

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

紙の資料からコーパスまで (日本語研究資料の変遷)

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 各種の電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

コーパスに求められるもの

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

「日本語歴史コーパス」(CHJ)の構成

参考リンク

第3回(5限) コーパスの形態論情報と形態素解析

コーパスの形態論情報

コーパスへの形態論情報の付与

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

最近の形態素解析器

長単位解析器

係り受け解析器

日本語コーパスのタグ付けのレベル

テキストのレベルツール必要な技術
プレーンテキストテキストエディタgrepと正規表現
構造化テキストひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
形態素解析済みUniDic+MeCab→中納言・ChaKi形態素解析の知識,ChaKi等の使い方
係り受け情報付き+CaboChaなど→ChaKi
  1. プレーンテキスト:テキストエディタ(grepと正規表現)
  2. 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」
  3. 形態素解析済みテキスト(BCCWJ,CHJなど):「中納言」
  4. 係り受け情報・統語情報付き(NWJC,NPCMJなど):ChaKi, NPCMJ Searchなど

2020年9月24日(木)

第4回(2限) 『中納言』の使い方(基礎)

形態論情報を利用した検索

第5回(3限) 『中納言』の使い方

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

交流会(Remo)

第6回(4限) 検索結果の集計(Excelとピボットテーブル)

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎

【重要】ピボットテーブルの使い方

第7回(5限)

「検索課題」

【宿題】レポートテーマについて

*1

2020年9月25日(金)

第8回(2限) ちょっとした応用と注意点

複数の検索結果の結合

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓, ↓, Ctrl+V, Ctrl+Home

ショートカットキー

集計用の列を自分で用意する

ランダムサンプリング調査

第9回(3限) 集計のための応用(文字列関数ほか)

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

BCCWJ利用の落とし穴

調整頻度の計算

Excelの文字列関数とIF関数

EXCELの文字列関数

第10回(4限) 集計のための応用2

「中納言」インラインタグ機能の利用

VLOOKUPを用いた集計

第11回(5限) 評価のための指標

ジップ(Zipf)の法則

コロケーション強度

特徴語抽出

Rの利用

2020年9月28日(月)

2-4限


*1 実際に検索してみてできそうなものと難しそうなものが含まれています
*2 最新版はMeCab版のみ
*3 現在では動かすのがたいへん

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS