総研大2025

言語資源学演習1

1月5日 形態論情報データベース

コーパス整備対象と担当

形態論情報データベース

VPNとデータベースアカウント

12月22日 TEIとOpenCHJ XML

テキストの抜き出しと形態素解析

python3 extract_ocx_doc.py 1911尋常小学理科書_第5学年児童用_900089986.xml 1911尋常小学理科書_第5学年児童用_900089986.txt
wget https://clrd.ninjal.ac.jp/unidic_archive/2308/unidic-kindai-bungo-v202308.zip
unzip unidic-kindai-bungo-v202308.zip

mecab -d unidic-kindai-bungo -Ochamame2 1911尋常小学理科書_第5学年児童用_900089986.txt > 1911尋常小学理科書_第5学年児童用_900089986.tsv

12月15日 CH研作戦会議

12月8日 XML文書の完成・検証・変換

生成AIによる処理

文書型定義と検証

XSLTによる変換

12月1日 XML文書の設計・XLST概説

データの修正・ファイルの結合

XMLの基礎・復習

タグセットの設計

コマンドラインでXML

「太陽コーパス」のXMLアプリとXSLT

11月24日 【振替休日】

11月17日 XMLファイルの整備

授業用データ置き場(OneDrive)

OCR結果の修正 (!次回まで)

参考:言語処理100本ノック 2025

11月10日 OCR済みテキストの処理(コマンドラインの基礎)

データ処理環境の確認

OCR済みテキストの整備

10月27日 資料選定とOCR

資料選定

OCR

10月20日 ガイダンス

データ処理環境の整備


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS