**Rを使ってみる -[[R>https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E]]とは --Rのダウンロード https://cran.ism.ac.jp/bin/windows/base/ -中納言でBCCWJコアの語彙素「矢張り」を検索、語形別に集計 | |雑誌|書籍|新聞|ブログ|知恵袋|白書| |ヤッパ|1|2||9|4|| |ヤッパリ|20|12|1|30|23|| |ヤハリ|31|54|13|17|31|2| ***独立性の検定(χ二乗検定) -ブログと知恵袋で「やはり」「やっぱり」「やっぱ」の使われ方に差はあるか data <- matrix(c( 9,4,30,23,17,31), ncol=2, byrow=T) chisq.test(data) 帰無仮説(H0):二つのレジスターと「やはり」類の使用頻度には差がない 検定の結果、p<0.05であれば0.05(= 5%)水準でH0は棄却される =二つのレジスターに差がある(レジスターと関係がないのに偶然こうなる可能性は5%以下) -参考:http://www.weblio.jp/content/%E7%8B%AC%E7%AB%8B%E6%80%A7%E3%81%AE%E6%A4%9C%E5%AE%9A ***クラスター分析 --「やはり」「やっぱり」「やっぱ」の使用から見たレジスター間の距離(どのレジスター同士が似ているか) yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") yahari <- t(yahari) #行と列を入れ替え yahari.d<-dist(yahari) #距離の計算 yahari.d result <- hclust(yahari.d, method="ward.D") #word法でクラスター分析 plot(result,hang=-1) #デンドログラムを描く -参考:https://www1.doshisha.ac.jp/~mjin/R/28/28.html ***クロス集計表からのコレスポンデンス分析 -「やはり」「やっぱり」「やっぱ」とレジスター yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") #MASSパッケージを読み込む library(MASS) (yahari.ca<-corresp(yahari,nf=3)) biplot(yahari.ca) #固有値 固有値<-yahari.ca$cor^2 round(固有値,3) #累積寄与率 round(100*固有値/sum(固有値),2) 参考リンク:[[Rと対応分析>https://www1.doshisha.ac.jp/~mjin/R/26/26.html]]