第1日(7/22):文字・テキスト・検索と集計

イントロダクション

授業で利用する主なソフトウェア

K2Editorテキストエディタ検索・整形
ひまわり全文検索ソフト検索・分析
MeCab形態素解析器形態素解析
UniDic形態素解析辞書
Excel表計算ソフト集計・分析・グラフ作成
Accessデータベースソフト集計・分析

コーパスについて

この授業ではBCCWJ(モニター公開版)のほか、青空文庫・国会会議録などの広義のコーパス(テキストファイル)も視野に入れて話をしていきます。

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • Kotonoha (BCCWJ / CSJ / 太陽コーパス)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

BCCWJの紹介

上記の*印の内容については授業でも取り上げます。

文字コード

日本で広く使われてきた文字コード

(伝統的な文字コード。かつて多くのパソコンで使われてきた。現在は携帯電話でも利用される)

ユニコード

(新しい国際的な文字集合。各国のコード表を含み込んでいるので膨大な数の文字を含む。最近のパソコンの内部処理はUnicodeで行われる。)

BCCWJの文字コード

(X0213の符号化方式はShift_JISほか様々な規定があるが、今のパソコンでは使いにくい)→符号化方式としてUnicode系のUTF-16LE・UTF-8を使う(使用する文字をJIS X0213の範囲に制限)

文字コードを巡る様々な問題

(参考)今昔文字鏡

テキストファイル

テキストファイルと拡張子

テキストエディタ:K2Editor

テキストエディタを使う

ショートカットキー

(補足)おすすめテキストエディタ

正規表現

正規表現のいろいろ

正規表現の応用

タグ付き正規表現(復習)

検索語の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

全文検索ソフト:「ひまわり」

「ひまわり」で使用できる正規表現

検索結果の集計:「Excel」

表計算ソフト Excel入門

Excelを使った集計

(補足)テキストエディタと組み合わせて使う

第2日(7/23):マークアップ言語・形態素解析・データベース

マークアップ言語:XML

ミニコーパスを作る:「えだまめ」

「ひまわり」用のデータを作るには

既存のデータを「ひまわり」用に変換する

形態素解析:「Mecab」と「UniDic」

形態素解析用ソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる

UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCabがおすすめ)。

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

データベースの利用:「Access」

データベースに取り込む:

  1. Accessで新規データベースを作成(mdbファイル)
  2. インポート
    • 文字コード(コードページをUTF-8に指定する)
  3. 連番を付ける

データを取り出す・集計する

連続する形態素を取り出す・集計する

  1. 次の形態素の連番を付ける
    1. 列を用意する
    2. 更新クエリ
  2. 連続する形態素を抜き出す
    1. 解析結果テーブル自身をずらして結合する
    2. 前後の形態素で条件指定した選択クエリ

発展


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-05-07 (月) 00:33:25