授業資料/Himawariの正規表現(旧バージョン)
をテンプレートにして作成
開始行:
[[授業資料/Himawariの正規表現]]
*「ひまわり」正規表現検索のコツ [#ta189c3d]
RIGHT:小木曽 ogiso@ogiso.net
「ひまわり」で正規表現を使った検索をするときのコツです。V...
**「ひまわり」で使える正規表現 [#t5eb8f02]
「ひまわり」で検索に使える正規表現は次のようになっていま...
:検索文字列(キー)に使える正規表現|
通常の文字と列挙型の文字クラス。([国國] [らりるれろ]など...
:前文脈・後文脈で使える正規表現|
javaの正規表現ならすべて利用可能。&br;(範囲指定型の文字...
参考URL http://java.sun.com/j2se/1.4/ja/docs/ja/api/java/...
キーに使える正規表現に制限があるのは、検索を速くするため...
キー・前文脈・後文脈の三つの部分に分かれているので、それ...
**テクニック [#u180f317]
調べたい語に対応する正規表現を思いついても、それをそのま...
***キーと前後文脈にうまく分けてやる [#g30cf777]
キーに入れられない正規表現を前後文脈に入れることで検索で...
-例:漢語サ変動詞を検索する場合
--キー“[一-龠][一-龠]する”で検索しても正しくヒットしませ...
--前文脈“[一-龠][一-龠]”で終わる,キー“する”の二つに分け...
キー・前文脈・後文脈の三つの部分にどのように割り振るかが...
***無理をしないで2回以上に分ける [#ke51407f]
一度には検索できない場合でも2回以上に分ければ検索できる...
検索結果を表計算ソフト(Excelなど)に貼り付けた下に、次々...
-例:「みたいだ」「みたようだ」 を検索する
--キー“みた(い|よう)[だなに]”で検索しても正しくヒットしま...
--“みたい[だなに]”“みたよう[だなに]”の2回に分ければ検索...
-例:「其を」「其れを」「それを」を検索する
--キー“(其れ?|それ)を”で検索しても正しくヒットしません。...
--“其を”“[其そ]れを”の2回に分けて検索して下さい。
***力業 [#a4d53f6f]
-例:カタカナ語を検索する
--キー“[ァ-ヴ]+”で検索しても正しくヒットしません。(文字...
--文字クラスの中身をすべて列挙する形にすれば検索可能です...
キー:“[ァアィイゥウェエォオカガキギクグケゲコゴサザシジ...
前文脈:“[ァ-ヴ]”で終わらない (二文字以上のカタカナ語な...
-例:アルファベット表記の語を検索する
--キー“[a-zA-Z]+”で検索しても正しくヒットしません。(文字...
--キー:“[abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTU...
前文脈:“[a-zA-Z]”で終わらない (二文字以上のアルファベ...
**前後文脈での字種指定 [#d492f23a]
文字種を指定するには大きく分けて二通りの方法があります。
+文字クラスによる字種指定
|[ぁ-ん]|ひらがな|
|[ァ-ヴ]|カタカナ|
|[一-龠]((Unicodeの範囲で指定するので[亜-熙]ではありませ...
|[0-9]|半角数字|
|[A-Za-z]|半角アルファベット|
+Unicodeプロパティ、Unicodeブロックによる字種指定
-前後文脈ではUnicodeプロパティ、Unicodeブロックを使った文...
--http://www.unicode.org/Public/UNIDATA/Blocks.txt
--http://www.unicode.org/charts/
-Unicodeブロックを使うと文字クラスよりはっきりと文字種が...
|\p{InCJKUnifiedIdeographs}|漢字(CJK統合漢字)|
|\p{InHiragana}|ひらがな|
|\p{InKatakana}|カタカナ|
|\p{N}|数字|
|\p{P}|句読点|
|\p{S}|記号|
//**どうしても検索できない場合には [#ac63e9ab]
//-正規表現の種類にもよりますが、少量のデータなら『たんぽ...
//-『プリズム』でテキストデータに書き出し、テキストデータ...
//-perlなどで目的にあった検索ツールを作るのが一番ですが、...
&counter;
終了行:
[[授業資料/Himawariの正規表現]]
*「ひまわり」正規表現検索のコツ [#ta189c3d]
RIGHT:小木曽 ogiso@ogiso.net
「ひまわり」で正規表現を使った検索をするときのコツです。V...
**「ひまわり」で使える正規表現 [#t5eb8f02]
「ひまわり」で検索に使える正規表現は次のようになっていま...
:検索文字列(キー)に使える正規表現|
通常の文字と列挙型の文字クラス。([国國] [らりるれろ]など...
:前文脈・後文脈で使える正規表現|
javaの正規表現ならすべて利用可能。&br;(範囲指定型の文字...
参考URL http://java.sun.com/j2se/1.4/ja/docs/ja/api/java/...
キーに使える正規表現に制限があるのは、検索を速くするため...
キー・前文脈・後文脈の三つの部分に分かれているので、それ...
**テクニック [#u180f317]
調べたい語に対応する正規表現を思いついても、それをそのま...
***キーと前後文脈にうまく分けてやる [#g30cf777]
キーに入れられない正規表現を前後文脈に入れることで検索で...
-例:漢語サ変動詞を検索する場合
--キー“[一-龠][一-龠]する”で検索しても正しくヒットしませ...
--前文脈“[一-龠][一-龠]”で終わる,キー“する”の二つに分け...
キー・前文脈・後文脈の三つの部分にどのように割り振るかが...
***無理をしないで2回以上に分ける [#ke51407f]
一度には検索できない場合でも2回以上に分ければ検索できる...
検索結果を表計算ソフト(Excelなど)に貼り付けた下に、次々...
-例:「みたいだ」「みたようだ」 を検索する
--キー“みた(い|よう)[だなに]”で検索しても正しくヒットしま...
--“みたい[だなに]”“みたよう[だなに]”の2回に分ければ検索...
-例:「其を」「其れを」「それを」を検索する
--キー“(其れ?|それ)を”で検索しても正しくヒットしません。...
--“其を”“[其そ]れを”の2回に分けて検索して下さい。
***力業 [#a4d53f6f]
-例:カタカナ語を検索する
--キー“[ァ-ヴ]+”で検索しても正しくヒットしません。(文字...
--文字クラスの中身をすべて列挙する形にすれば検索可能です...
キー:“[ァアィイゥウェエォオカガキギクグケゲコゴサザシジ...
前文脈:“[ァ-ヴ]”で終わらない (二文字以上のカタカナ語な...
-例:アルファベット表記の語を検索する
--キー“[a-zA-Z]+”で検索しても正しくヒットしません。(文字...
--キー:“[abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTU...
前文脈:“[a-zA-Z]”で終わらない (二文字以上のアルファベ...
**前後文脈での字種指定 [#d492f23a]
文字種を指定するには大きく分けて二通りの方法があります。
+文字クラスによる字種指定
|[ぁ-ん]|ひらがな|
|[ァ-ヴ]|カタカナ|
|[一-龠]((Unicodeの範囲で指定するので[亜-熙]ではありませ...
|[0-9]|半角数字|
|[A-Za-z]|半角アルファベット|
+Unicodeプロパティ、Unicodeブロックによる字種指定
-前後文脈ではUnicodeプロパティ、Unicodeブロックを使った文...
--http://www.unicode.org/Public/UNIDATA/Blocks.txt
--http://www.unicode.org/charts/
-Unicodeブロックを使うと文字クラスよりはっきりと文字種が...
|\p{InCJKUnifiedIdeographs}|漢字(CJK統合漢字)|
|\p{InHiragana}|ひらがな|
|\p{InKatakana}|カタカナ|
|\p{N}|数字|
|\p{P}|句読点|
|\p{S}|記号|
//**どうしても検索できない場合には [#ac63e9ab]
//-正規表現の種類にもよりますが、少量のデータなら『たんぽ...
//-『プリズム』でテキストデータに書き出し、テキストデータ...
//-perlなどで目的にあった検索ツールを作るのが一番ですが、...
&counter;
ページ名: