総研大2025/言語資源学
をテンプレートにして作成
開始行:
[[総研大2025]]
-月曜4限
-[[シラバス>https://cplan-web.soken.ac.jp/Kyoin/web/Sylla...
*2025/06/16 (小木曽担当最終回)[#me2cea85]
***ひまわり用データの作成(続) [#b8c79696]
-例:メール文データ
***XPath, XSLT [#ue7eb930]
-[[VSCode XML Tools>https://marketplace.visualstudio.com/...
-[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/xpath.h...
--https://developer.mozilla.org/ja/docs/Web/XPath
-[[XSLT>https://atmarkit.itmedia.co.jp/aig/01xml/xslt.htm...
--https://developer.mozilla.org/ja/docs/Web/XSLT
***XPathを使った検索 [#c3a0208a]
-VSCodeのコマンドパレットから検索できる(XML拡張)
-[[Wikipedia XPath>https://ja.wikipedia.org/wiki/XML_Path...
-参考:https://www.techscore.com/tech/XML/XPath/XPath1/xp...
-参考:[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/x...
--https://developer.mozilla.org/ja/docs/Web/XPath
-XPathの構文 /軸::ノードテスト[述語]/~
--例1:/A/child::B/child::*/child::C[position()=1]
--例2:/雑誌/child::記事[@著者名="上田万年"]/descendant-o...
-省略構文 ファイルのPathに似た書き方になる。普通は省略構...
--例1:/A/B/*/C[1]
--例2:/雑誌/記事[@著者名="上田万年"]//注[@種類='誤字']
-軸 axis
--基準点(コンテクストノード)からみた方向・親子関係を指...
-ノードテスト node test
--名前またはノードの種類を指定する(要素名, *, text(), no...
-述語 predicate
--[]の中に条件を記述して対象を絞り込む。条件式や簡単な関...
*2025/06/09 [#j4df8762]
**小テスト返却 [#we91b634]
**XMLで言語資源を作る(続) [#fad826ab]
***ひまわり用データの作成 [#ud4df72b]
-本文:corpus.xml (UTF-16LE BOMつき, LF改行)((VS Codeで...
-設定ファイル:config_tebukuro.xml
#ref(config_tebukuro.xml)
-本文HTML表示用スタイルシート:xslt
-参考:[[全文検索システム『ひまわり』/簡単な検索用データ...
***文書型定義(DTD)と検証(validation) [#x9f6bd86]
-DTD (Document Type Definition)とは
--https://e-words.jp/w/DTD.html
--参考:https://www.javadrive.jp/xml/dtd/
-XML Schema (XSD)
--https://e-words.jp/w/XML_Schema.html
***tebukuro.xmlのDTDを作ってみる [#bc617b6b]
<!ELEMENT doc (title, author, body)>
<!ATTLIST doc title CDATA #REQUIRED>
<!ATTLIST doc author CDATA #REQUIRED>
<!ELEMENT title (#PCDATA)>
<!ELEMENT author (#PCDATA)>
<!ELEMENT body (#PCDATA|speech|r|br)*>
<!ELEMENT speech (#PCDATA|r|br)*>
<!ATTLIST speech speaker CDATA #IMPLIED>
<!ELEMENT r (#PCDATA)*>
<!ATTLIST r rt CDATA #REQUIRED>
<!ELEMENT br EMPTY>
--tebukuro.dtd
#ref(tebukuro.dtd)
--tebukuro.xsd
#ref(tebukuro.xsd)
--Oxygen(https://www.oxygenxml.com/)で可視化したスキーマ
#ref(tebukuro_schema.png)
***自分の研究用データのXML文書化 [#ea9798d7]
-例:メール文データ
*2025/06/02 [#ze01d462]
**&color(red){正規表現小テスト}; [#a38015c5]
**全文検索システム「ひまわり」とXML [#a2814a7f]
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
--自分で専用のデータを作ることもできるが、できあがって公...
***「ひまわり」のインストール [#o7207f74]
+[[ひまわり のダウンロードページ>https://csd.ninjal.ac.jp...
+zipファイルを右クリックしてプロパティを見る→「セキュリテ...
+ダブルクリックして開き、中のフォルダをまるごとインストー...
+フォルダ内のhimawari.exeをダブルクリックで起動(MacはHim...
***「青空文庫パッケージ」のインストール [#q65dfc0e]
+青空文庫パッケージのダウンロード
++[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
+himawari.exeを起動
++Himawari画面のファイル→インストールをえらび、青空文庫パ...
++しばらく待つと完了(場合によっては数分から10分程度はか...
+要らなくなったUSBメモリ上の青空文庫パッケージzipファイル...
***HimawariとXMLを使ったコーパス [#d295bd54]
-例:[[明六雑誌コーパス>https://clrd.ninjal.ac.jp/cmj/mei...
--https://doi.org/10.15084/00003337
**XMLで言語資源を作る [#f5fa011d]
***XMLアノテーションの実際 [#kca1a500]
--VSCodeの拡張機能 XML Language Support by Red Hatを入れ...
---https://marketplace.visualstudio.com/items?itemName=re...
-例として([[青空文庫の新美南吉「手袋を買いに」>https://w...
-タグ付き正規表現を使った置換の応用
--ただし、通常の正規表現には、XMLのような入れ子のタグを完...
*2025/05/26 [#w4fed924]
**タグ付き正規表現 [#z9ef50e5]
-走[らりるれろ] でgrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろっ]
---置換文字列:★走[らりるれろっ]
-タグ付き正規表現:カッコ(半角丸カッコ)と$1($2,$3…)...
-[[授業資料/タグつき正規表現]]
***正規表現の利用例:中納言の検索結果を整える [#mc00a8d6]
エディタに検索結果の列を貼り付けて置換で整形
-前後文脈をキーを含む文だけにする
.+# →
#.+ →
-品詞大分類だけを利用する
-.+ →
-BCCWJのジャンルを整える
--(新) 1 哲学/198.37|(旧) 1 哲学/198
-前後文脈でマッチした語を抜き出す
--(広く)|,深く,|かつ|システマティック|に
***正規表現に関する参考資料 [#w86de08b]
-VS Codeの正規表現:https://learn.microsoft.com/ja-jp/dot...
-正規表現に関する本 [[amazonで検索>https://www.amazon.co...
-補足
--Wordのワイルドカードと正規表現 https://note.com/jinbunx...
--[[「Excel」に正規表現の新関数が3つ導入へ ~「XLOOKUP」...
**マークアップ言語とXML [#m0258747]
-(参考) XML入門 https://www.javadrive.jp/xml/
-[[XMLの基礎>https://www.ogiso.net/wiki/index.php?%E6%97%...
***BCCWJのXMLタグセット [#yff8b80d]
-https://clrd.ninjal.ac.jp/bccwj/c-xml.html
***TEI (Text Encoding Initiative) [#u02355e5]
-https://tei-c.org/
--参考資料:[[TEI入門に最適なウェブ資料>https://www.dh.ku-...
--[[chapter 8 歴史データのさまざまな応用 -Text Encoding...
*2025/05/19 [#j06ce971]
-練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com...
***VSCodeのGrep検索 [#eec39aca]
+フォルダを開く
+検索
+"エディターで開く"
**正規表現 [#ef04311f]
***正規表現とは [#d216d4e0]
-''正規表現''
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--テキストエディタでは置換・検索・grepで利用できる (エ...
--特殊な文字(メタ文字)はすべて半角
//--特殊な文字そのものを表す場合には\でエスケープする(特...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
-----
--繰り返し ? + *
---正規表現は、パターンが一致する最も長い範囲にマッチする...
--最短一致の繰り返し +? *?
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
-カタカナ語
--カタカナ(外来語)の形容動詞語幹
-送りがなの揺れ(行う/行なう)
-会話文中("「"で始まる文中)の用例を検索する
-同一文中での共起
--全然~ない。
--もし~なら(ば)
-【課題】VS Codeで正規表現を使ってサンプルテキストのふり...
//---|?(\P{sc=Han}+)《(.+?)》
***テキストデータ(青空文庫の夏目漱石作品)の配布 [#bd04e...
-★[[soseki2.zip>https://www.dropbox.com/s/gw1j25svf2s9tki...
--[[青空文庫 夏目漱石「こころ」>https://www.aozora.gr.jp/...
***検索文字列の中での後方参照 (タグ付き正規表現)[#ra281...
-検索語の中でマッチした部分を()でキャプチャし、\1として使う
--(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しに...
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
--(..)\1\1
--(...)\1
*2025/05/12 [#wd4d9036]
**日本語電子化資料の歴史 [#h7f8c43e]
***紙の資料からコーパスまで ~テキストの電子化とアノテー...
+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子テキスト:テキスト (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代...
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形...
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.n...
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/ch...
***コーパスのファイル形式とアプリケーション [#v16f2d86]
-ファイル形式と実例
++電子テキスト:プレーンテキスト
++構造化テキスト:XMLファイル
++単語情報付きデータ:単語情報を埋め込んだXML /XMLファ...
--(発展)XMLの限界とスタンドオフアノテーション
-それぞれの利用アプリケーション
++電子テキスト:テキストエディタ+grepなど
++構造化テキスト:全文検索システム[[「ひまわり」>https://...
++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>h...
**テキストエディタ [#w98ab816]
-[[授業資料/テキストエディタ]]
-フリーソフトウェア(無償)のMicrosoft [[Visual Studio C...
***インストールと最初の設定 [#jf88f4f2]
-VS Codeのインストール
++WindowsのスタートメニューからMicrosoft Storeを起動
++VSCodeを検索
++インストール をクリック
-または
++ブラウザでhttps://code.visualstudio.com/ へ
++Download for Windowsをクリック
++~.exeをダブルクリックして指示に従う
-VisualStudio Codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---https://marketplace.visualstudio.com/items?itemName=MS...
--ファイルオープン時にエンコーディングを自動判別するよう...
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加
---https://marketplace.visualstudio.com/items?itemName=re...
***テキストデータと文字コード [#n2e44ea1]
-[[授業資料/テキストデータとは]]
-練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com...
-【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)...
***正規表現について [#bd19b83c]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
終了行:
[[総研大2025]]
-月曜4限
-[[シラバス>https://cplan-web.soken.ac.jp/Kyoin/web/Sylla...
*2025/06/16 (小木曽担当最終回)[#me2cea85]
***ひまわり用データの作成(続) [#b8c79696]
-例:メール文データ
***XPath, XSLT [#ue7eb930]
-[[VSCode XML Tools>https://marketplace.visualstudio.com/...
-[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/xpath.h...
--https://developer.mozilla.org/ja/docs/Web/XPath
-[[XSLT>https://atmarkit.itmedia.co.jp/aig/01xml/xslt.htm...
--https://developer.mozilla.org/ja/docs/Web/XSLT
***XPathを使った検索 [#c3a0208a]
-VSCodeのコマンドパレットから検索できる(XML拡張)
-[[Wikipedia XPath>https://ja.wikipedia.org/wiki/XML_Path...
-参考:https://www.techscore.com/tech/XML/XPath/XPath1/xp...
-参考:[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/x...
--https://developer.mozilla.org/ja/docs/Web/XPath
-XPathの構文 /軸::ノードテスト[述語]/~
--例1:/A/child::B/child::*/child::C[position()=1]
--例2:/雑誌/child::記事[@著者名="上田万年"]/descendant-o...
-省略構文 ファイルのPathに似た書き方になる。普通は省略構...
--例1:/A/B/*/C[1]
--例2:/雑誌/記事[@著者名="上田万年"]//注[@種類='誤字']
-軸 axis
--基準点(コンテクストノード)からみた方向・親子関係を指...
-ノードテスト node test
--名前またはノードの種類を指定する(要素名, *, text(), no...
-述語 predicate
--[]の中に条件を記述して対象を絞り込む。条件式や簡単な関...
*2025/06/09 [#j4df8762]
**小テスト返却 [#we91b634]
**XMLで言語資源を作る(続) [#fad826ab]
***ひまわり用データの作成 [#ud4df72b]
-本文:corpus.xml (UTF-16LE BOMつき, LF改行)((VS Codeで...
-設定ファイル:config_tebukuro.xml
#ref(config_tebukuro.xml)
-本文HTML表示用スタイルシート:xslt
-参考:[[全文検索システム『ひまわり』/簡単な検索用データ...
***文書型定義(DTD)と検証(validation) [#x9f6bd86]
-DTD (Document Type Definition)とは
--https://e-words.jp/w/DTD.html
--参考:https://www.javadrive.jp/xml/dtd/
-XML Schema (XSD)
--https://e-words.jp/w/XML_Schema.html
***tebukuro.xmlのDTDを作ってみる [#bc617b6b]
<!ELEMENT doc (title, author, body)>
<!ATTLIST doc title CDATA #REQUIRED>
<!ATTLIST doc author CDATA #REQUIRED>
<!ELEMENT title (#PCDATA)>
<!ELEMENT author (#PCDATA)>
<!ELEMENT body (#PCDATA|speech|r|br)*>
<!ELEMENT speech (#PCDATA|r|br)*>
<!ATTLIST speech speaker CDATA #IMPLIED>
<!ELEMENT r (#PCDATA)*>
<!ATTLIST r rt CDATA #REQUIRED>
<!ELEMENT br EMPTY>
--tebukuro.dtd
#ref(tebukuro.dtd)
--tebukuro.xsd
#ref(tebukuro.xsd)
--Oxygen(https://www.oxygenxml.com/)で可視化したスキーマ
#ref(tebukuro_schema.png)
***自分の研究用データのXML文書化 [#ea9798d7]
-例:メール文データ
*2025/06/02 [#ze01d462]
**&color(red){正規表現小テスト}; [#a38015c5]
**全文検索システム「ひまわり」とXML [#a2814a7f]
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
--自分で専用のデータを作ることもできるが、できあがって公...
***「ひまわり」のインストール [#o7207f74]
+[[ひまわり のダウンロードページ>https://csd.ninjal.ac.jp...
+zipファイルを右クリックしてプロパティを見る→「セキュリテ...
+ダブルクリックして開き、中のフォルダをまるごとインストー...
+フォルダ内のhimawari.exeをダブルクリックで起動(MacはHim...
***「青空文庫パッケージ」のインストール [#q65dfc0e]
+青空文庫パッケージのダウンロード
++[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
+himawari.exeを起動
++Himawari画面のファイル→インストールをえらび、青空文庫パ...
++しばらく待つと完了(場合によっては数分から10分程度はか...
+要らなくなったUSBメモリ上の青空文庫パッケージzipファイル...
***HimawariとXMLを使ったコーパス [#d295bd54]
-例:[[明六雑誌コーパス>https://clrd.ninjal.ac.jp/cmj/mei...
--https://doi.org/10.15084/00003337
**XMLで言語資源を作る [#f5fa011d]
***XMLアノテーションの実際 [#kca1a500]
--VSCodeの拡張機能 XML Language Support by Red Hatを入れ...
---https://marketplace.visualstudio.com/items?itemName=re...
-例として([[青空文庫の新美南吉「手袋を買いに」>https://w...
-タグ付き正規表現を使った置換の応用
--ただし、通常の正規表現には、XMLのような入れ子のタグを完...
*2025/05/26 [#w4fed924]
**タグ付き正規表現 [#z9ef50e5]
-走[らりるれろ] でgrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろっ]
---置換文字列:★走[らりるれろっ]
-タグ付き正規表現:カッコ(半角丸カッコ)と$1($2,$3…)...
-[[授業資料/タグつき正規表現]]
***正規表現の利用例:中納言の検索結果を整える [#mc00a8d6]
エディタに検索結果の列を貼り付けて置換で整形
-前後文脈をキーを含む文だけにする
.+# →
#.+ →
-品詞大分類だけを利用する
-.+ →
-BCCWJのジャンルを整える
--(新) 1 哲学/198.37|(旧) 1 哲学/198
-前後文脈でマッチした語を抜き出す
--(広く)|,深く,|かつ|システマティック|に
***正規表現に関する参考資料 [#w86de08b]
-VS Codeの正規表現:https://learn.microsoft.com/ja-jp/dot...
-正規表現に関する本 [[amazonで検索>https://www.amazon.co...
-補足
--Wordのワイルドカードと正規表現 https://note.com/jinbunx...
--[[「Excel」に正規表現の新関数が3つ導入へ ~「XLOOKUP」...
**マークアップ言語とXML [#m0258747]
-(参考) XML入門 https://www.javadrive.jp/xml/
-[[XMLの基礎>https://www.ogiso.net/wiki/index.php?%E6%97%...
***BCCWJのXMLタグセット [#yff8b80d]
-https://clrd.ninjal.ac.jp/bccwj/c-xml.html
***TEI (Text Encoding Initiative) [#u02355e5]
-https://tei-c.org/
--参考資料:[[TEI入門に最適なウェブ資料>https://www.dh.ku-...
--[[chapter 8 歴史データのさまざまな応用 -Text Encoding...
*2025/05/19 [#j06ce971]
-練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com...
***VSCodeのGrep検索 [#eec39aca]
+フォルダを開く
+検索
+"エディターで開く"
**正規表現 [#ef04311f]
***正規表現とは [#d216d4e0]
-''正規表現''
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--テキストエディタでは置換・検索・grepで利用できる (エ...
--特殊な文字(メタ文字)はすべて半角
//--特殊な文字そのものを表す場合には\でエスケープする(特...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
-----
--繰り返し ? + *
---正規表現は、パターンが一致する最も長い範囲にマッチする...
--最短一致の繰り返し +? *?
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
-カタカナ語
--カタカナ(外来語)の形容動詞語幹
-送りがなの揺れ(行う/行なう)
-会話文中("「"で始まる文中)の用例を検索する
-同一文中での共起
--全然~ない。
--もし~なら(ば)
-【課題】VS Codeで正規表現を使ってサンプルテキストのふり...
//---|?(\P{sc=Han}+)《(.+?)》
***テキストデータ(青空文庫の夏目漱石作品)の配布 [#bd04e...
-★[[soseki2.zip>https://www.dropbox.com/s/gw1j25svf2s9tki...
--[[青空文庫 夏目漱石「こころ」>https://www.aozora.gr.jp/...
***検索文字列の中での後方参照 (タグ付き正規表現)[#ra281...
-検索語の中でマッチした部分を()でキャプチャし、\1として使う
--(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しに...
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
--(..)\1\1
--(...)\1
*2025/05/12 [#wd4d9036]
**日本語電子化資料の歴史 [#h7f8c43e]
***紙の資料からコーパスまで ~テキストの電子化とアノテー...
+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子テキスト:テキスト (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代...
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形...
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.n...
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/ch...
***コーパスのファイル形式とアプリケーション [#v16f2d86]
-ファイル形式と実例
++電子テキスト:プレーンテキスト
++構造化テキスト:XMLファイル
++単語情報付きデータ:単語情報を埋め込んだXML /XMLファ...
--(発展)XMLの限界とスタンドオフアノテーション
-それぞれの利用アプリケーション
++電子テキスト:テキストエディタ+grepなど
++構造化テキスト:全文検索システム[[「ひまわり」>https://...
++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>h...
**テキストエディタ [#w98ab816]
-[[授業資料/テキストエディタ]]
-フリーソフトウェア(無償)のMicrosoft [[Visual Studio C...
***インストールと最初の設定 [#jf88f4f2]
-VS Codeのインストール
++WindowsのスタートメニューからMicrosoft Storeを起動
++VSCodeを検索
++インストール をクリック
-または
++ブラウザでhttps://code.visualstudio.com/ へ
++Download for Windowsをクリック
++~.exeをダブルクリックして指示に従う
-VisualStudio Codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---https://marketplace.visualstudio.com/items?itemName=MS...
--ファイルオープン時にエンコーディングを自動判別するよう...
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加
---https://marketplace.visualstudio.com/items?itemName=re...
***テキストデータと文字コード [#n2e44ea1]
-[[授業資料/テキストデータとは]]
-練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com...
-【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)...
***正規表現について [#bd19b83c]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
ページ名: