総研大2024

2024/05/20

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト:テキスト (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

コーパスのファイル形式とアプリケーション

テキストエディタ

テキストデータと文字コード

正規表現

正規表現に関する参考資料


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-05-19 (日) 19:32:27