日本語テキスト処理のためのPC基礎講座2023

はじめに

利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ Visual Studio Codeテキストデータの処理全般、正規表現、XMLなど
表計算ソフトExcelピボットテーブルによる分析、文字列関数、VLOOKUPなど
ターミナル Ubuntu (WSL)Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用

目次

DAY1 7月18日(火)①テキストエディタと正規表現

歴史を振り返る

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子化テキスト:テキストファイル (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報(201x年代~)

コーパスのファイル形式とアプリケーション

ファイル形式利用アプリケーション年代
電子テキストプレーンテキストファイル,CSVファイルテキストエディタ+grepなど199x年代~
構造化テキストXMLファイル全文検索システム「ひまわり」、XMLエディタ(Oxygen, VSCode)、XPath・XSLTなど200x年代~
単語情報付きデータ単語情報を埋め込んだXML/XMLファイル+CSVファイル中納言(オンライン)/Chaki.Net(PC上)など201x年代~

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS