[[東京外大2013]]

*日本語教育学研究
**コーパス日本語研究入門

-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=501M0900.pdf&refer=%C5%EC%B5%FE%B3%B0%C2%E72013]]
-中納言: https://chunagon.ninjal.ac.jp


//茶器の活用
//ひまわりの活用

**2013/06/28

***調整頻度
-100万語あたりの頻度
--語数データのダウンロード

***テキストエディタの活用
-前後文脈から不要な部分を消す
--正規表現を使った置換


***レポートテーマについて


***「ひまわり」を使った自作ミニコーパス作成の講習会


**2013/06/21

***コーパス開発センター:ホームページリニューアル
-http://www.ninjal.ac.jp/corpus_center/

***ランダムサンプリング調査(Excelでの集計・補足)
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND() 
---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE

--品詞の大分類を使う
 =LEFT(<品詞>,SEARCH("-",<品詞>)-1)

--後文脈の「。」より後を消す(「。」がない場合はそのまま)
 =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>)))
--前文脈の「。」以前を消す(「。」がない場合はそのまま)((「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字))
 =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1))

***NINJAL LWP for BCCWJの紹介
-http://nlb.ninjal.ac.jp/
-ワードプロファイラー
-語の振る舞いの概略を見るのに非常に便利

-注意点
--UniDic体系でない(=本来のBCCWJではない)
--データソースはBCCWJの一部だけ
--係り受け解析は誤りも多い

***レポートテーマについて
-次回、レポートテーマを聞きます!

**2013/06/14

***形態素解析とUniDic

----

#include(授業資料/形態素解析,notitle)

----

--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]]


***授業用UniDic+MeCabパッケージのダウンロード

-https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip

***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する

-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較


**2013/06/07

-中納言新システムの再確認
--キャッシュに注意

***短単位と長単位(復習)
-新参考配付資料

***中納言検索課題
-前回配布プリント参照

***Excelの文字列関数とif関数
-集計用に用意した列で文字列処理関数を利用する
-left,right,mid,len,search,substitute

-応用例:品詞の大分類を使う
 =LEFT(<品詞>,SEARCH("-",<品詞>)-1)

**2013/05/31
-中納言契約書返却

***中納言システムアップデート(5月30日)について
-中納言のシステムが新しくなりました
-新機能の紹介
--検索対象の指定が柔軟にできるようになった
--短単位検索の条件指定において「検索キーの位置をずらす」指定ができるようになった
--検索キーの前後位置に条件指定を行ったとき、キーに条件を指定しない検索ができるようになった
--検索キーの前後の単位を結合してKWICキーに指定することができるようになった
--検索結果のダウンロード時に圧縮の有無や文字コードを指定できるようになった
--文字列検索で(解析単位ではなく)検索文字列をキーにしたKWIC表示ができるようになった
--サーバの負荷状況が表示されるようになった

***Excelによる集計・つづき
-ピボットテーブル
--ピボットグラフ
-複数の検索結果の結合
-集計用の列を自分で用意する

**2013/05/24

***長単位と短単位
-スライド参照
--複合辞
--可能性に基づく品詞付与ではなく、出現例に則した品詞付与
--可能動詞の語彙素

***「中納言」検索結果の利用
-検索結果のダウンロード
++ダウンロード
++アーカイブの展開(解凍)
++インポート
-中納言の検索結果をExcelで利用する
--前々回資料(4.)参照

***Excelの利用
-Excelの基本
--フィルタ
---テキストフィルタ
--並べ替え
---ユーザー設定の並べ替え
-ピボットテーブルとピボットグラフ
--ピボットテーブル
---Excelのバージョンによってかなり操作方法が違うので注意
--ピボットグラフ

**2013/05/17

***中納言によるコーパスの検索方法(つづき)

-中納言の使い方(つづき)

-配布資料:''UniDicマニュアル 解説編''

***BCCWJの形態論情報

-[[UniDic>http://download.unidic.org]]の品詞体系
--品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(>細分類))
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能

***学校文法との違い
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
--サ変動詞は語幹と「する」に分かれる

**2013/05/10

***「中納言」の利用
-アカウント作成とログイン

***中納言によるコーパスの検索方法

-配布資料:''中納言の使い方'' &br;(次回も持ってきてください)


**2013/04/26

-中納言申込み確認


***コーパスの設計とサンプリング

--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス(レジスター)
--可変長と固定長
-著作権をめぐる問題

-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/

--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]]
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]]


***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]


------

***テキストエディタ [#q7ae852c]

前回つづき

-サクラエディタのダウンロードとインストール
--[[サクラエディタのダウンロード:sakura2.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura2.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]]
---(参考) サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/
-サンプルテキストデータ
--[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sample.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]]

 

**2013/04/19 

//***授業の進め方
//-発表について

***「中納言」利用申込み
-申込用紙を配布します。

------

***コーパスとは
-スライド参照
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料

:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]]


***テキストエディタ [#q7ae852c]

-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]



**4/12 第1回 イントロダクション/日本語コーパスの紹介

-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
--[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]]
-国語研のコーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]])
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[少納言>http://shonagon.ninjal.ac.jp]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--日本語歴史コーパス(平安時代編先行公開版)
---[[CHJ 中納言>http://maro.ninjal.ac.jp]]

-受講者アンケート
--専門・関心領域
--PCスキル

-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS