*日本言語研究(講義) **コーパス日本語学入門 -前期 金2 (2単位) -連絡先:ogiso@ogiso.net **2011/05/06 テキストファイルとテキストエディタ --[[授業資料/テキストデータ紹介]] -参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/article/NPC/20080116/291169/]](日経パソコンPC online) ***テキストエディタ [#q7ae852c] -テキストエディタとはどんなものか --[[授業資料/テキストエディタ]] -テキストエディタの準備 -圧縮ファイルの展開(解凍) --圧縮・展開ソフト(アーカイバ [[用語>http://e-words.jp/w/E382A2E383BCE382ABE382A4E38390.html]]) **テキストエディタの利用 -サンプルデータのダウンロード -テキストエディタの設定 --行の折り返し --行番号表示 ---スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号) -検索・置換、grep --検索で初出行を調べる --置換で用例数を数える ***ショートカットキー [#da449f25] -[[授業資料/覚えておきたいショートカットキー]] ***grepと置換で簡易KWIC(CSVファイル)を作る[#u3ab2d6f] -CSVファイルとは:テキストファイルで表を表現する [[用語:CSVファイル>http://www.microsoft.com/japan/Terminology/query.asp?id=3334&q=CSV&kbid=&key=&ui=L&dev=]] -KWIC:KeyWord In Context -テキストデータ(青空文庫)の配布 **2011/04/22 イントロダクション / テキストファイルとテキストエディタ -授業ページへのショートカット ***先週の補足 -コーパスとは :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***授業で利用する主なソフトウェア [#i06478d2] |テキストエディタ|検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|検索・分析| |表計算ソフト''Excel''|分析・グラフ作成| |ワープロ''Word''|「スタイル」を利用したレポート作成| -デモ --''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]'' --形態素解析 ***テキストデータ --[[授業資料/テキストデータとは]] --バイナリファイルとテキストファイル --ファイルの種類と拡張子 参考:[[拡張子辞典>http://www.jisyo.com/viewer/]] --[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E5%AD%90]] --テキストファイルとHTML -TXT,CSV,HTM・・・ //htmlのごく簡単な入門 -授業で使うテキストデータ **2011/04/15 イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ -コーパスとは ---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/kotonoha/]] ---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]] ---[[形態素解析辞書UniDic>http://download.unidic.org/]] -[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?%C5%EC%B5%FE%B3%B0%C2%E72011]]確認 --この授業の目的 --授業の進め方 --評価方法