総研大2025

2025/06/16

ひまわり用データの作成(続)

XPath, XSLT

XPathを使った検索

2025/06/09

小テスト返却

XMLで言語資源を作る(続)

ひまわり用データの作成

文書型定義(DTD)と検証(validation)

tebukuro.xmlのDTDを作ってみる

  <!ELEMENT doc (title, author, body)>
  <!ATTLIST doc title CDATA #REQUIRED>
  <!ATTLIST doc author CDATA #REQUIRED>
  <!ELEMENT title (#PCDATA)>
  <!ELEMENT author (#PCDATA)>
  <!ELEMENT body (#PCDATA|speech|r|br)*>
  <!ELEMENT speech (#PCDATA|r|br)*>
  <!ATTLIST speech speaker CDATA #IMPLIED>
  <!ELEMENT r (#PCDATA)*>
  <!ATTLIST r rt CDATA #REQUIRED>
  <!ELEMENT br EMPTY>
tebukuro_schema.png

自分の研究用データのXML文書化

2025/06/02

正規表現小テスト

全文検索システム「ひまわり」とXML

「ひまわり」のインストール

  1. ひまわり のダウンロードページからプログラム本体(zipファイル)をダウンロード
  2. zipファイルを右クリックしてプロパティを見る→「セキュリティ」の右の「許可する」をチェックして「OK」
  3. ダブルクリックして開き、中のフォルダをまるごとインストール先にコピー
  4. フォルダ内のhimawari.exeをダブルクリックで起動(MacはHimawari.jar、または最初からMac版をインストール)

「青空文庫パッケージ」のインストール

  1. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「日本文学/小説(ndc913) 」をダウンロードして保存
  2. himawari.exeを起動
    1. Himawari画面のファイル→インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(場合によっては数分から10分程度はかかる)
  3. 要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する

HimawariとXMLを使ったコーパス

XMLで言語資源を作る

XMLアノテーションの実際

2025/05/26

タグ付き正規表現

正規表現の利用例:中納言の検索結果を整える

エディタに検索結果の列を貼り付けて置換で整形

正規表現に関する参考資料

マークアップ言語とXML

BCCWJのXMLタグセット

TEI (Text Encoding Initiative)

2025/05/19

VSCodeのGrep検索

  1. フォルダを開く
  2. 検索
  3. "エディターで開く"

正規表現

正規表現とは

正規表現のいろいろ


正規表現の応用

テキストデータ(青空文庫の夏目漱石作品)の配布

検索文字列の中での後方参照 (タグ付き正規表現)

2025/05/12

日本語電子化資料の歴史

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト:テキスト (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

コーパスのファイル形式とアプリケーション

テキストエディタ

インストールと最初の設定

テキストデータと文字コード

正規表現について


*1 XPath2.0でいろんな関数や正規表現が使えるようになった
*2 VS CodeでLF改行・UTF-16LEで保存すればOK

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS