総研大2023

20230605

(前回補足)Himawariのindexing

国語研・形態論情報データベース

XMLファイルと形態論情報DB

XMLファイルの形態素解析

SQLによる形態素解析済みコーパスの利用

20230529

「太陽コーパス」でのXMLの活用例

Himawariでの利用

XPath, XSLT

20230522

日本語学会シンポジウム

BCCWJのXMLタグセット

TEI (Text Encoding Initiative)

XMLアノテーションの実際

20230514

書き言葉コーパスの例(テキスト化+XMLアノテーション+形態論情報付与)

正規表現とは

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

ゲームの紹介

XML入門

20230508

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト:テキスト (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

コーパスのファイル形式とアプリケーション

20230501(オンデマンド) テキストデータ整備の準備


*1 拡張正規表現では可能

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-06-05 (月) 15:03:43