名古屋大学2020・コーパス日本語学入門

もくじ

日程等

2020年9月23日(水)

第1回(3限) イントロダクション/日本語コーパスの紹介

イントロダクション

授業内容等の確認

「中納言」アカウントについて

授業で利用する主なソフトウェア・Webアプリケーション(予定)

ソフトウェアの種類・名前利用目的
コーパス検索アプリケーション「中納言」コーパスの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
Web茶まめ形態素解析
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
Rデータの統計分析

授業内容デモ

第2回(4限) コーパスの設計

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

紙の資料からコーパスまで (日本語研究資料の変遷)

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 各種の電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

コーパスに求められるもの

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

「日本語歴史コーパス」(CHJ)の構成

参考リンク

第3回(5限) コーパスの形態論情報と形態素解析

コーパスの形態論情報

コーパスへの形態論情報の付与

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

最近の形態素解析器

長単位解析器

係り受け解析器

日本語コーパスのタグ付けのレベル

テキストのレベルツール必要な技術
プレーンテキストテキストエディタgrepと正規表現
構造化テキストひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
形態素解析済みUniDic+MeCab→中納言・ChaKi形態素解析の知識,ChaKi等の使い方
係り受け情報付き+CaboChaなど→ChaKi
  1. プレーンテキスト:テキストエディタ(grepと正規表現)
  2. 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」
  3. 形態素解析済みテキスト(BCCWJ,CHJなど):「中納言」
  4. 係り受け情報・統語情報付き(NWJC,NPCMJなど):ChaKi, NPCMJ Searchなど

2020年9月24日(木)

第4回(2限) 『中納言』の使い方(基礎)

形態論情報を利用した検索

第5回(3限) 『中納言』の使い方

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

交流会(Remo)

第6回(4限) 検索結果の集計(Excelとピボットテーブル)

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎

【重要】ピボットテーブルの使い方

第7回(5限)

「検索課題」

【宿題】レポートテーマについて

*1

2020年9月25日(金)

第8回(2限) ちょっとした応用

複数の検索結果の結合

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓, ↓, Ctrl+V, Ctrl+Home

ショートカットキー

集計用の列を自分で用意する

ランダムサンプリング調査

第9回(3限) BCCWJ利用の注意点

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

BCCWJ利用の落とし穴

調整頻度の計算

第10回(4限) 集計のための応用(文字列関数)

(補足)CHJでの復習

Excelの文字列関数

第11回(5限) 集計のための応用2(VLOOKUP関数)

(参考)ジップ(Zipf)の法則

VLOOKUPを用いた辞書引き集計

(補足)「中納言」インラインタグ機能の利用

2020年9月28日(月)

レポートテーマおよび質問について(NUCT課題)

第12回(2限) テキストエディタと正規表現

テキストデータ

テキストエディタ

サクラエディタのダウンロードとインストール

Macの場合(miのダウンロードとインストール)

テキストエディタを使ってみる

grepと置換でKWIC(CSVファイル)を作る(簡易版)

正規表現を使ってみる

第13回(3限) 正規表現

正規表現とは

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

(参考)テキストデータ(青空文庫)の配布

第14回(4限) Excel応用編 / さらなる活用に向けて

アノテーションデータとVLOOKUP

コロケーション強度

コーパスの語彙表

特徴語抽出

Rの利用

第15回(5限) レポートの書き方/ 質問コーナー

Wordでレポートを書く

文書の構造化とWordの使い方(レポートの書き方)

打ち上げ(Remo)


*1 実際に検索してみてできそうなものと難しそうなものが含まれています
*2 最新版はMeCab版のみ
*3 現在では動かすのがたいへん

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-09-28 (月) 18:09:56