*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22]

-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください
-授業フォルダ \\Linkstation\share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]]

-BCCWJ中納言: https://chunagon.ninjal.ac.jp/


**2012/12/7 UniDicによる形態素解析

----

#include(授業資料/形態素解析,notitle)

----

--MeCab(Windows用)最新版 [[Download>http://sourceforge.net/projects/mecab/files/mecab-win32/0.98/mecab-0.98.exe/download]]


***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する

-応用:テキストのジャンルと語種,品詞の割合をグラフ化してみる
---ブログのテキストと新聞記事のテキストの解析結果を比較


**2012/11/30

***復習と補足
-連体修飾(である可能性が高いもの)の検索と集計
--形容動詞(形状詞+助動詞「だ」)
-[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%83%E3%83%97%E3%81%AE%E6%B3%95%E5%89%87]]

***ショートカットキー
-[[授業資料/覚えておきたいショートカットキー]]

***長単位と短単位の仕様の違い
-複合辞
-可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(長単位)
-可能動詞の語彙素

***集計のための処理
-集計用の列を用意する
--ex.「割合が{大きい/小さい, 高い/低い, 多い/少ない}」
--[[データダウンロード>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=wariai.zip&refer=%B0%EC%B6%B62012]]
-文字列関数による置き換え
--品詞の大分類を使う
--=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
-Excelの文字列関数とif関数
--left,right,mid,len,search,substitute


***利用例:「訊く」の話
-現代書き言葉における動詞「聞く」の表記をBCCWJ中納言で検索
 キー: 語彙素 = "聞く" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
--「訊く」のレジスタ別分布(コアデータのみ)&br;
&ref("kiku_bccwj_core.png");
--用法分類は(手作業で行わない限り)できない
--割合と粗頻度について

-参考blog
++[[なぜ広まった? 「『訊く』が正しい」という迷信 - アスペ日記>http://d.hatena.ne.jp/takeda25/20121113/1352799353]]
++[[「訊く」という表記について - 蟹亭奇譚>http://d.hatena.ne.jp/kanimaster/20121113/1352815776]]
++[[「訊く」のこと - あくまのぬいぐるみ>http://d.hatena.ne.jp/YMZ/20121115/p1
]]


**2012/11/16

***「中納言」検索結果のダウンロード
+ダウンロード
+アーカイブの展開(解凍)
+インポート

***中納言の検索結果をExcelで利用する
-前々回資料(4.)参照

***Excelの基本
-フィルタ
--テキストフィルタ
-並べ替え
--ユーザー設定の並べ替え

***Excel:ピボットテーブルとピボットグラフ
-ピボットテーブル
--Excelのバージョンによってかなり操作方法が違うので注意
-ピボットグラフ


**2012/11/09

-契約書返却

**検索条件式

 キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
  後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true"
  WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"

 キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 
 後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true" 
 WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"

**BCCWJの形態論情報

-[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料)
//--IT's Class >日本語学講義E>教材>その他の教材>UniDicマニュアル
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能

***学校文法との違い
-形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う
-サ変動詞を 名詞+動詞スル として扱う
-活用語に助動詞「う」が付いた形を意志推量形として扱う

***長単位の品詞
-短単位との違い
--可能性に基づく品詞付与ではなく、出現例に即した品詞付与
--複合辞
--可能動詞の扱い

**2012/10/26
***「中納言」の利用
-アカウント作成とログイン

***中納言によるコーパスの検索方法

-★配布資料:中納言の使い方


**2012/10/19
-受講者の専門分野・関心領域
-「中納言」アカウント確認

***コーパスの設計とサンプリング
-★スライド参照(授業フォルダ)
--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題

-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/

--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]]
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]]



**2012/10/12 コーパスとは

***はじめに
-「中納言」利用申込み用紙回収
--申込用紙と契約書を回収します。

-授業フォルダの説明
-- \\Linkstation\share\日本語コーパス

***コーパスとは
-★スライド参照(授業フォルダ)
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料

:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。


***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]

***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]]



**2012/10/05 イントロダクション [#p494942d]
-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]])
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[検索デモサイト>http://shonagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--通時コーパス(設計中)

-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。
--シラバス確認 https://mercas.hit-u.ac.jp/

-受講者アンケート
--専門・関心領域
--PCスキル

-デモンストレーション
--BCCWJ中納言+Excel
--茶まめ(形態素解析)
--ひまわり

***授業で利用する主なソフトウェア [#i06478d2]
|名前|種類|利用目的|h
|''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''◎|表計算ソフト|集計・分析・グラフ作成|
|''[[Word>http://office.microsoft.com/ja-jp/word/default.aspx]]''|ワープロ|レポート作成|
|''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索システム|検索・集計|
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器|形態素解析|
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|~|
|''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサービス(文字列検索)|コーパス検索|
|''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Webサービス(単語情報付き検索)|~|

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS