*コーパスを用いた近代日本語の調査法

**教室変更のお知らせ
-4/23より''206教室''(PC教室)に変更になりました。

#br

**2010/05/28 形態素解析
-UniDicと近代文語UniDic
***形態素解析器と解析辞書
-解析器
--[[ChaSen>http://chasen-legacy.sourceforge.jp/]]
--[[MeCab>http://mecab.sourceforge.net/]]
-解析辞書
--IPADIC
--NAIST-jdic
--UniDic

(under construction)
***UniDicファミリ
-[[UniDic>http://download.unidic.org]](現代語用)
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]] ->太陽コーパスの文語文向け
-[[中古和文UniDic>http://home.ogiso.net/wiki/pukiwiki.php?%CF%C2%CA%B8UniDic]]
-その他

***ソフトウェア・資料
-授業用ソフトウェア
--&ref(tufs-unidic.zip); (要パスワード)

-配付資料:「日本語研究と自動形態素解析」

-近代文語UniDicの紹介
--[[日本語学会デモ(ppt)>http://home.ogiso.net/public/download/MLJ/20080518_unidic-mlj_demo.ppt]]
--[[日本語学会デモ(pdf)>http://home.ogiso.net/public/download/MLJ/20080518_unidic-mlj_demo.pdf]]

-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]])

&ref(morph.png,,40%);

**2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す

***太陽コーパスの記事種別分量
+プリズムで記事ごとの字数を出力(単一ファイルに出力)
+ピボットテーブルで集計
--年別
--文体別
--ジャンル別
---NDC大分類別 =mid('''NDC''',4,1)


***XSLT
-[[XSLTとは>http://e-words.jp/w/XSLT.html]]
-リンク
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
#amazon(4881662201)
--[[Studying XML for Beginners>http://www015.upp.so-net.ne.jp/StudyingXML/xml/index.html]]
---[[Studying XSLT 1.0>http://www015.upp.so-net.ne.jp/StudyingXML/xml/xslt10_1/new.html]]
--[[サンプルで覚えるXSLTプログラミング>http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xslt00.html]]

***太陽コーパス付属のXSLTをいじってみる
 <?xml version="1.0" encoding="Shift_JIS"?>
 <xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0" 
 xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
 <xsl:output method="text" omit-xml-declaration="yes"/>
 <xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/> 
 <xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>&#xA;</xsl:text>
 <xsl:apply-templates/></xsl:template>
 
 <xsl:template match="tx:記事">
 <xsl:if test='./@文体="口語"'>
 【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of
  select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>&#xA;</xsl:text>
 <xsl:apply-templates/><xsl:text>&#xA;</xsl:text>
 </xsl:if>
 </xsl:template>
 
 <xsl:template match="tx:br"><xsl:text>&#xA;</xsl:text>
 </xsl:template>
 
 <xsl:template match="*"><xsl:apply-templates/></xsl:template>
 </xsl:stylesheet>

**2010/05/14 「ひまわり」の使い方と正規表現(2)

***高度な正規表現

-検索語に使える正規表現は列挙型の文字クラスのみ
--ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
-前文脈・後文脈では自由な正規表現が利用可能
--Javaの正規表現が使えるのでunicodeブロックなども利用できる

-[[授業資料/Himawariの正規表現]]


***参考:太陽コーパス以外のひまわり用データ
-青空文庫
-新潮文庫の百冊
-国会会議録
-法令データベース
-etc.

-現代日本語書き言葉均衡コーパス(BCCWJ)[[BCCWJモニター版>http://www.ninjal.ac.jp/kotonoha/ex_8.html]]

-ミニコーパスを自作する
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]]


**2010/05/07 「ひまわり」の使い方と正規表現

**[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]の検索オプション
-フィルタ
-検索オプション
-検索キーワードと前後文脈の使い分け

**ひまわりで利用できる正規表現
-正規表現とは[[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]]
-[[授業資料/正規表現]]
-[[授業資料/Himawariの正規表現]]

**例題
-「みたようだ」と「みたいだ」をピボットテーブルで集計
-表記のバリエーションに正規表現で対応
--[見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
---%%[見み]た([やよ]う|[様樣])[だなに]%%(ひまわりは非対応)
-活用形別に集計(Right関数で)''→次回''

|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|位置|欄名|ジャンル|文体|話者|種別|

#br

**2010/04/30 &color(red){休講};

#br

**2010/04/23 「太陽コーパス」のプログラムとデータ形式
-ディスクの中に何が入っているか

**収録されているプログラム
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]
---XML形式のデータの全文検索ツール
---あらかじめインデックス(suffix arrayによる)を作るので検索が高速
-[[XMLデータを直接扱うツール>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]
--[[変換ツール「プリズム」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]
---XSLTスタイルシートで形式を変換したり情報を抽出したりする
---テキストファイルやHTMLなどに変換できる
--[[検索ツール「たんぽぽ」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9]]
---ルビを開いた検索ができる
---XMLを直接上からなめて行くので遅いが、XMLへの修正は即座に反映される

-多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
--(XSLTについては後日)

**とりあえずの使い方(「ひまわり」)
-【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
-Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある([[ver.1.3>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.3]])

+ひまわりを起動
+検索
+検索結果をExcelにコピー
+ゴミを削除後ピボットテーブルで集計

-検索結果画面でダブルクリックすると本文が見られる
-検索には正規表現が利用可能(制限あり)
--(正規表現については後日)

**データの形式
-XML形式の[[文書定義>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9%A4%CE%CA%B8%BD%F1%C4%EA%B5%C1]]
-XMLとは
--[[Extensible Markup Language>http://ja.wikipedia.org/wiki/Extensible_Markup_Language]] (Wikipedia)

-参考
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
--[[授業資料/コンピュータ言語]]

**2010/04/16 イントロダクション
***[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパスの紹介([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]])
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
---[[近代女性雑誌コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%B6%E1%C2%E5%BD%F7%C0%AD%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9]]
--通時コーパス(設計中)
---cf.[[Oxford>http://vsarpj.orinst.ox.ac.uk/index.html]]

***デモンストレーション
-[[太陽コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9]]([[プリズム>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]])
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]](形態素解析)+Excel
-利用例
--[[東京外大2009-12-02]]

***授業について
-[[シラバス>http://syllabus.tufs.ac.jp/syllabus/querymaster.php]]

-受講者アンケート
--専門・関心領域
--PCスキル


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS