コーパス言語学入門・日本語コーパスの活用

  • コーパス言語学入門(人文社会系研究科/基礎文化研究専攻言語学専門分野)
  • 人文情報学特殊講義(文学部次世代人文学開発センター)
  • 言語学特殊講義(文学部言語文化学科言語学専修課程)
  • 冬学期 4限(14:55〜16:40) 法文1号室 111教室

2017/01/17

  • 授業改善アンケート

復習と質問対応

(おまけ)Wordでレポートや論文を書く

  • 文書の構造化
    • 章・節番号
    • 「スタイル」「ナビゲーション ウィンドウ」(見出しマップ)の活用
  • 図表の取り扱い
    • 「形式を選択して貼り付け」
    • 図表番号、キャプション
  • 図表番号と相互参照
    • 脚注、文末脚注
    • 目次、図表目次

2017/01/06

レポートについて

  • 1/31〆切
  • メールで提出
  • 授業で紹介したコーパス・手法・ツールを活用した言語研究(言語処理研究)
  • A4で4枚以上

コロケーション強度

特徴語抽出

Rの利用

2016/12/16

形態素解析の実際

インストールと利用のデモ

形態素解析結果の利用

  • ピボットテーブルでの集計

テキストの性質に関する古典的な指標とその出し方

形態素解析結果を利用するツール

【補足】テキスト処理のレベルとツール

処理形態素解析(短単位)→(長単位解析)→文節係り受け解析→解析結果の管理・利用
BCCWJの場合MeCab(解析器)+UniDic(辞書)→Comainu→(大納言→)中納言
一般向けツールMeCabなど(解析器)+UniDicなど(辞書)→(Comainu)→(CaboCha)→Chaki.net

2016/12/09

自分用のミニコーパスを自分で作る

(テキストデータは別途用意するのを前提として)

  • 日本語コーパスのタグ付けのレベル
    テキストのレベルツール必要な技術
    プレーンテキストテキストエディタgrepと正規表現
    構造化テキストひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
    形態素解析済みテキストUniDic+MeCab→中納言・ChaKi形態素解析の知識,ChaKiの使い方
  1. プレーンテキスト:テキストエディタ(grepと正規表現) →前回
  2. 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」  →今回
  3. 形態素解析済みテキスト(BCCWJ,CHJなど):「中納言」相当←自分で作るには、Web茶まめ・ChaKi.net

XMLとひまわり

  • XML
    • 独自のタグが定義できる汎用のマークアップ言語
    • 多くのコーパスがXMLで記述されている。
      • 「現代日本語書き言葉均衡コーパス」(BCCWJ)も「日本語歴史コーパス」もソースはXML cf.BCCWJのタグセット

ひまわり

  • 全文検索システム「ひまわり」
  • ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
  • 基本的に文字列検索のみ(形態論情報付きデータの検索にはあまり向かない)

全文検索システム「ひまわり」について

  • 「ひまわり」の検索結果をピボットテーブルで集計する

2016/12/02

調整頻度の計算

  • 粗頻度を総語数で割る
    • レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
      • 語数ファイルをピボットテーブルで集計して分母に
  • 調整頻度には100万語あたりの頻度(pmw)が比較的よく使われる
    • 粗頻度/総語数*1000000
      • 数字が小さくなりすぎないようにするため
  • ※割合の違いを比較するだけなら調整頻度を出す必要はない。

ランダムサンプリング調査

大量に用例があり、調査内容から全てをすべて対象にできない(全てを調査する必要がない)場合

  • ランダムに並べ替え→先頭n例を調査対象に
    • ランダムな数字の列: =RAND()
    • ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
  • ex.「全然」

重複の削除

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

  • たとえば同一サンプル内での繰り返しが多いものを調査するとき(例:一人称代名詞など)
    • 「データ」→「重複の削除」

テキストエディタと正規表現

  • 前後文脈を整える
  • インラインタグを活用する

授業用サクラエディタのダウンロード

(正規表現ライブラリ同梱)

サンプルテキスト

正規表現

  • 正規表現 >用語
    • 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
    • エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ−ションやコンピュータ言語で利用されている)
    • 特殊な文字(メタ文字)はすべて半角

正規表現に関する参考資料

2016/11/25

復習:「中納言」検索結果のダウンロードとExcelでの利用

複数の検索結果の結合

  • 例:蒲公英・向日葵・菫

ショートカットキーを活用すると便利

  • Ctrl+End ファイルの末尾/表のいちばん右下に移動
  • Shift+Ctrl+End 〃範囲を選択
  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

授業資料/覚えておきたいショートカットキー

集計用の列を自分で用意する

  • 例:表記(ひらがな・かたかな・漢字)別集計
  • 例:用法分類

Excelの文字列関数とIF関数

  • 例:ジャンル(NDC)の整理
    • 先頭の文字を取り出す(NDCの一次区分(=類))
      • =LEFT(<ジャンルのセル>,1)
    • スラッシュで区切られた最初の部分(ジャンルの大分類)
      • =LEFT(<ジャンルのセル>,SEARCH("/",<ジャンルのセル>)-1)
  • 集計用に用意した列で文字列処理関数を利用する
    • LEFT
    • RIGHT
    • MID
    • LEN
    • SEARCH
    • SUBSTITUTE
  • 条件わけ:IF
  • エラー対応:IFERROR
  • 応用例:品詞の大分類を使う
    • =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

【補足】Excelの文字列関数とIF関数

  • 後文脈の「。」より後を消す(「。」がない場合はそのまま)
    =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>)))
  • 前文脈の「。」以前を消す(「。」がない場合はそのまま)*1
    =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1))

BCCWJ利用の落とし穴

  • BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査、経年調査には向かない
    • レジスターによって母集団の年が違っている
      • レジスターの偏りを年代の偏りと勘違いしないこと
    • 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ
  • もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
    • cf.人口あたりの事故件数,1平方キロあたりの…etc.
  • cf.語数について

2016/11/18

「中納言」の利用・続き

  • 配布資料:「中納言の使い方」
    • 検索条件式
    • ピボットテーブル

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
  • 複数の検索条件式の利用

「中納言」検索結果のダウンロードとExcelでの利用

  • Excelの基礎
    • 並べ替え
      • 反転前文脈の使い方
    • フィルタ
      • テキストフィルタ
  • ピボットテーブルの使い方
    • ピボットテーブル
    • ピボットグラフ

2016/11/11

(休講) シカゴに出張していました。

2016/10/28

補足

「中納言」の利用続き

  • 配布資料:「中納言の使い方」
    • 複数単位の組み合わせ(共起・連接)〜

2016/10/21

(復習)

コーパスへの形態論情報の付与

  • 短単位:MeCabとUniDicを使った形態素解析で情報付与
  • 長単位:Comainu(など)で短単位を組み上げる

形態素解析:「Mecab」と「UniDic」

形態素解析とは

  • 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
    • 「形態素解析」= "Morphological analysis"
    • morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
    • 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
  • 形態素解析の仕組み
    • 生起コストと連接コスト
      • その語はどれくらい出てくるか、どんな語とつながりやすいか
      • コーパスから統計的に取得(機械学習)
    • 経路の選択(参考:ビタビアルゴリズム

morph.png

形態素解析用ソフトウェア

主なソフトウェア

茶まめ(解析用のお助けツール)

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている
  • UniDicはChaSen, MeCabのどちらの解析器でも利用可能*2
    • 後から開発されたMeCabの方が解析精度が高いのでおすすめ

最近の動向

長単位解析器

係り受け解析器

参考図書

2016/10/14

  • 配布資料:「中納言の使い方」(次回以降も使います)

(前回補足)コーパスの設計とサンプリング

XMLによる電子化

形態論情報

  • 短単位と長単位
    • (配付資料)参照
    • (スライド)参照

2016/10/7

  • 配布資料:「仮想講義」(前川)

「コーパス」について

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

紙の資料からコーパスまで (日本語研究資料の変遷)

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 各種の電子テキスト
  4. 構造化テキスト
  5. 形態論情報付きコーパス

コーパスに求められるもの

  • コーパス以前の電子化日本語資料(とその限界)
    • 個人研究者による電子化テキスト
    • 出版社による電子出版物(CD-ROM)
      • 新潮文庫の100冊 etc.
    • 新聞のデータベース(CD-ROM)
      • 毎日新聞CD-ROM etc.
    • 研究機関のデータベース
      • 国文学資料館 大系DB etc.
    • Web上のテキストアーカイブ
      • 青空文庫 etc.
    • Webそのもの
      • Web as Corpus
  • コーパスへの要請
    • 大規模であること
    • 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
    • 著作権の問題がないこと
    • 言語研究に利用できる情報がついていること

コーパスの設計とサンプリング

  • (スライド参照)
  • 均衡コーパス(Balanced corpus)
    • 「バランスがとれている」とは?
    • コーパスの母集団の設定とサンプリング
    • BCCWJのサブコーパス
    • 可変長と固定長

参考リンク

2016/9/30

イントロダクション/日本語コーパスの紹介

  • シラバス確認
    • この授業の目的
    • 授業の進め方
    • 評価方法
  • 受講者の関心・スキルについて

「中納言」オンライン利用申込み


*1 「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字を指定
*2 最新版はMeCab版のみ

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS