**コロケーション強度 共起する語(AとB)について評価するとき、単純な用例数だけでは危険 -もともと頻度が高いもの同士が共起することが多いのは当たり前だから AとBのそれぞれの頻度(やコーパスのサイズ)も考慮して、本当に共起しやすいのかを図る指標が必要 ***いろいろな指標 コロケーション強度をはかるスコアには様々なものがあり、それぞれに特徴がある(AとBが共起するものをA&Bで示す) -ダイス係数 --=2×(A&Bの用例数/(Aの用例数+Bの用例数)) ---=2*B5/(C$2+C5) -tスコア --=(A&Bの用例数 - (Aの用例数×Bの用例数/コーパスの総語数))/√A&Bの用例数 ---=B5-(C$2*C5/C$1)/SQRT(B5) -MIスコア(相互情報量) --=log[2] (A&Bの用例数×コーパスの総語数)/(Aの用例数×Bの用例数) ---=LOG((B5*C$1)/(C$2*C5),2) (例) -例:「玉葱」と共起する(3語以内)動詞の場合 --AB= 「玉葱~炒める」の用例数:46 --A=「炒める」の用例数:2069 --B=「玉葱」の用例数:2087 --ダイス係数=2*(46/(2069+2087))=0.0221 -[[サンプルデータ collocation.xlsx>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=collocation.xlsx&refer=%BC%F8%B6%C8%BB%F1%CE%C1%2F%A5%B3%A5%ED%A5%B1%A1%BC%A5%B7%A5%E7%A5%F3%B6%AF%C5%D9]] ***それぞれの数値の調べ方 ※用例数がわかればいいが、「中納言」は用例(KWIC)を取得するためのツールであるため、複数の語の用例数を求めるのに手間がかかる -BCCWJの語彙表を使えば個々の語の検索は不要 http://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html -「コーパスの総語数」は「語数について」のページを参照 --たくさんの語を中納言で一度に検索するためには、自分で作った語彙リストをエディタで整形し、検索条件式で一括検索する方法もある