#author("2025-12-03T11:46:26+09:00","default:ogiwiki","ogiwiki")
#author("2025-12-03T11:50:22+09:00","default:ogiwiki","ogiwiki")
[[総研大2025]]

*言語資源学演習1 [#hba025c6]

-月曜4限
//-10月20日(月)~
-10月27日からはオンライン(Zoom)で実施

**12月8日 XML文書の完成・検証・変換 [#r3c1047d]

***生成AIによる処理 [#lcb35cc2]
-Geminiが賢い
-画像→(OCR)→テキスト→(アノテーション)→XML文書

-追加資料


***文書型定義と検証 [#w148b144]
-文書型定義
--DTD
--XSD (XML Schema)

-TEIのスキーマで検証


***XSLTによる変換 [#nbf947ef]

-TEI-likeのXMLからコーパス用(ひまわり用)XMLに変換



**12月1日 XML文書の設計・XLST概説 [#a29fa5ac]

***データの修正・ファイルの結合 [#w39f83dd]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]]

-処理方針の統一
--ノンブル→削除
--異体字
--ふりがな→今後追加
--傍線→削除?
--図→ブロック

***XMLの基礎・復習 [#h39195f3]
-[[XMLの基礎>https://www.ogiso.net/wiki/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E5%87%A6%E7%90%86%E5%9F%BA%E7%A4%8E%E8%AC%9B%E5%BA%A72023/%E2%91%A2XML%E3%81%AE%E5%9F%BA%E7%A4%8E]]

-タグセットの設計
***タグセットの設計 [#p075e704]

-TEIについて: Text Encoding Initiative
--[[TEIガイドライン>https://tei-c.org/release/doc/tei-p5-doc/ja/html/index.html]]

-最低限必要そうなもの text/front/body/back/div/pb/lb/ruby

***コマンドラインでXML [#g28e666e]
-XML文書の整形・検証: xmllint
-XSLT: xsltproc

-文書型定義
--DTD
--XSD (XML Schema)
***「太陽コーパス」のXMLアプリとXSLT [#r70caace]

-コマンドラインでXML
--XML文書の整形・検証: xmllint
--XSLT: xsltproc

-「太陽コーパス」のXMLアプリとXSLT


**11月24日 【振替休日】 [#o79b40dd]


**11月17日 XMLファイルの整備 [#f4b57e84]

-復習:[[総研大2025/言語資源学]] 参照
--XMLとは
--正規表現の利用

-[[授業資料/コマンドラインの基礎]]つづき
--パイプ
--テキストファイルの置換(sed)
--バッチファイル


***授業用データ置き場(OneDrive) [#b3c680a7]
-[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]]

***OCR結果の修正 (!次回まで)[#w69ed099]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]]
-担当箇所
--先頭~いんげん豆:K
--燕~たねの散布:G
--松蕈~最後:O


***参考:言語処理100本ノック 2025 [#lec77f27]
-https://nlp100.github.io/2025/ja/index.html


**11月10日 OCR済みテキストの処理(コマンドラインの基礎) [#v81eb0e3]

***データ処理環境の確認 [#abf7fdbf]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]


***OCR済みテキストの整備 [#p7272e69]

-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]

-ファイルの取り扱い
-プレーンテキストからXMLへ


**10月27日 資料選定とOCR [#m88f4e63]

***資料選定 [#f238f117]

-近代・国定教科書の理科

-[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/library/textbooks/K130-K140.html]]
-[[広島大学図書館所蔵「教科書コレクション」画像データベース>https://dc.lib.hiroshima-u.ac.jp/da/ja/page/textbook_db]]


-尋常小学理科書 第六学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3549

-尋常小学理科書 第五学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3550
--https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016652/900089986.pdf#page=33.00 (明治43)
--参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076

***OCR [#f141981f]
-お手軽
--AdobeAcrobat のOCR機能
--Google Drive のOCR機能
-市販OCRソフト
--[[完全読取>https://greed-island.ne.jp/product/kzyt]]
--[[WinReader PRO>https://mediadrive.jp/support/faq/pac_wr]]
-国立国会図書館 NDLOCR
--(cli) https://github.com/ndl-lab/ndlocr_cli
--[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/2024-11-26/]] (Web版:https://ndlkotenocr-lite-web.netlify.app/ )
-最近話題のLLM系
--[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepSeek-OCR]]


**10月20日 ガイダンス [#xcb25c65]

-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]]

-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ

-整備した資料をOpenCHJの一部として公開することを検討

***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS