東京外大2010

コーパスを用いた近代日本語の調査法

教室変更のお知らせ

 

2010/07/23

2010/07/16 検索結果の利用

レポートについて

2010/07/09 (休講)

2010/07/02 データベース検索用ツール

2010/06/25 関係データベース(3)

集計結果の利用

2010/06/18 関係データベース(2)

データ

Access

2010/06/11 形態素解析結果の利用(2) 関係データベース

データ

Access

2010/06/04 形態素解析結果の利用

茶まめで形態素解析・Excelで集計(2)

  1. 茶まめで解析(解析器はMeCab+解析辞書はUniDic)
    • 複数のファイルを一度に解析する:ワイルドカード *.txt
  2. ファイルに出力する
    • 単一ファイルに出力(merge)
  3. Excelに読み込む
  4. ピボットテーブルで集計する

データベースの利用:「Access」

2010/05/28 形態素解析

形態素解析器と解析辞書

UniDicファミリ

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる

UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCabがおすすめ)。

ソフトウェア・資料

morph.png

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す

太陽コーパスの記事種別分量

  1. プリズムで記事ごとの字数を出力(単一ファイルに出力)
  2. ピボットテーブルで集計
    • 年別
    • 文体別
    • ジャンル別
      • NDC大分類別 =mid(NDC,4,1)

XSLT

太陽コーパス付属のXSLTをいじってみる

<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0" 
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/> 
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>&#xA;</xsl:text>
<xsl:apply-templates/></xsl:template>

<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of
 select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>&#xA;</xsl:text>
<xsl:apply-templates/><xsl:text>&#xA;</xsl:text>
</xsl:if>
</xsl:template>

<xsl:template match="tx:br"><xsl:text>&#xA;</xsl:text>
</xsl:template>

<xsl:template match="*"><xsl:apply-templates/></xsl:template>
</xsl:stylesheet>

2010/05/14 「ひまわり」の使い方と正規表現(2)

高度な正規表現

参考:太陽コーパス以外のひまわり用データ

2010/05/07 「ひまわり」の使い方と正規表現

ひまわりの検索オプション

ひまわりで利用できる正規表現

例題

前文脈キー後文脈雑誌名題名著者位置欄名ジャンル文体話者種別
 

2010/04/30 休講

 

2010/04/23 「太陽コーパス」のプログラムとデータ形式

収録されているプログラム

とりあえずの使い方(「ひまわり」)

  1. ひまわりを起動
  2. 検索
  3. 検索結果をExcelにコピー
  4. ゴミを削除後ピボットテーブルで集計

データの形式

2010/04/16 イントロダクション

自己紹介

デモンストレーション

授業について


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-05-07 (月) 00:34:23