Japan Studies 2:コーパス日本語学入門
アクティブラーニングについて
レポートについて
2018/1/18 ミニコーパスを作る(2) / レポートについて
日本語のテキストの性質に関する古典的な指標とその出し方
2018/1/11 発表 第7回 / ミニコーパスを作る自分用のミニコーパスを作る(テキストデータは別途用意するのを前提として)
プレーンテキストのミニコーパス
構造化テキストのミニコーパスXMLとひまわり
ひまわり
全文検索システム「ひまわり」についてテキストデータを「ひまわり」で利用できるようにする2017/12/21 発表 第6回 / 主成分分析
主成分分析の解説
コーパスと統計的手法に関する参考資料
2017/12/14 発表 第5回
2017/12/7 発表 第4回
2017/11/30 発表 第3回特徴語抽出特定のサブコーパスに特有の語彙を抽出するための指標を使う (ミニコーパス作成に向けて)
ジップ(Zipf)の法則
特徴語抽出2017/11/16 発表 第2回2017/11/9 発表 第1回2017/11/2 対応分析(コレスポンデンス分析)前回補足・タグつき正規表現対応分析
クロス集計表からのコレスポンデンス分析
yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") #MASSパッケージを読み込む library(MASS) (yahari.ca<-corresp(yahari,nf=3)) biplot(yahari.ca) #固有値 固有値<-yahari.ca$cor^2 round(固有値,3) #累積寄与率 round(100*固有値/sum(固有値),2) 参考リンク:Rと対応分析 データをファイルから読み込む
setwd("C:/Users/ユーザー名/Desktop") x <- read.table("bccwjcore_adj_register.txt", header=T, row.names=1, sep=",", fileEncoding="UTF-8") #MASSパッケージを読み込む library(MASS) (x.ca<-corresp(x, nf=6)) #nf=行と列の数の小さいほうの値からさらに1引いた値 biplot(x.ca)
2017/10/26 テキストデータとエディタテキストエディタと正規表現
授業用サクラエディタのダウンロード
テキストエディタの基礎
正規表現
正規表現に関する参考資料 †
2017/10/19 Rを使ってみる(2)
発表順前回までの復習
2017/10/12 (前期の復習)中納言による検索と集計 / Rを使ってみる(前期の復習)中納言による検索と集計
Rを使ってみる
独立性の検定(χ二乗検定)
data <- matrix(c( 9,4,30,23,17,31), ncol=2, byrow=T) chisq.test(data) 帰無仮説(H0):二つのレジスターで「やはり」類の使用頻度には差がない 検定の結果、p<0.05であれば0.05(= 5%)水準でH0は棄却される =二つのレジスターで差がある(レジスターと関係がないのに偶然こうなる可能性は5%以下)
クラスター分析
yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") yahari <- t(yahari) #行と列を入れ替え yahari.d<-dist(yahari) #距離の計算 yahari.d result <- hclust(yahari.d, method="ward.D") #word法でクラスター分析 plot(result,hang=-1) #デンドログラムを描く 2017/10/05 イントロダクション
シラバスより
|