総研大2025
言語資源学演習1†
- 月曜4限
- 10月27日からはオンライン(Zoom)で実施
12月8日 XML文書の完成・検証・変換†
12月1日 XML文書の設計・XLST概説†
データの修正・ファイルの結合†
- 処理方針の統一
- ノンブル→削除
- 異体字
- ふりがな→今後追加
- 傍線→削除?
- 図→ブロック
XMLの基礎・復習†
- コマンドラインでXML
- XMLファイル検証: xmllint
- XSLT: xsltproc
11月24日 【振替休日】†
11月17日 XMLファイルの整備†
授業用データ置き場(OneDrive)†
OCR結果の修正 (!次回まで)†
参考:言語処理100本ノック 2025†
11月10日 OCR済みテキストの処理(コマンドラインの基礎)†
データ処理環境の確認†
- VisualStudio Code
- WSL (Ubuntu)
OCR済みテキストの整備†
10月27日 資料選定とOCR†
資料選定†
OCR†
- お手軽
- AdobeAcrobat のOCR機能
- Google Drive のOCR機能
- 市販OCRソフト
- 国立国会図書館 NDLOCR
- 最近話題のLLM系
10月20日 ガイダンス†
- 整備した資料をOpenCHJの一部として公開することを検討
データ処理環境の整備†
- VisualStudio Code
- WSL (Ubuntu)