#author("2023-05-07T13:41:27+00:00","default:ogiwiki","ogiwiki")
[[総研大2023]]

**20230508 [#t32b08bc]

***紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化 [#s7dfd61c]

+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子テキスト:テキスト (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.ninjal.ac.jp/bccwj/]]など
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/chj/]]など


***電子化とアノテーション(明六雑誌コーパスを例に) [#nb9967ee]
-明六雑誌コーパス:https://ccd.ninjal.ac.jp/cmj/meiroku/

-ファイル形式と実例
++電子テキスト:プレーンテキスト
++構造化テキスト:XMLファイル
++単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル
--(発展)XMLの限界とスタンドオフアノテーション

-それぞれの利用アプリケーション
++電子テキスト:テキストエディタ+grepなど
++構造化テキスト:全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]
++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>https://ja.osdn.net/projects/chaki/]](PC上)



**20230501(オンデマンド) テキストデータ整備の準備[#e99d6137]

-【課題1】VS codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---参考:https://web.yokkaichi-u.ac.jp/yucc/archives/1542
--ファイルオープン時にエンコーディングを自動判別するよう設定
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加

-テキストデータについて
--[[授業資料/文字コード関連リンク]]
--[[授業資料/テキストデータ紹介]]

-【課題2】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす
---練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com/s/r89ahi6goxy5a2c/kokoro.txt?dl=1]]

-正規表現について
--[[授業資料/正規表現]]
--正規表現を学ぶ狩りに出ようRegex Hunting https://www.regex-hunting.com/


-【課題3】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除
//---|?(\P{sc=Han}+)《(.+?)》

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS