正規表現

©2005 OGISO,T. & KONDO,A.

文字クラス(キャラクタクラス)とその仲間

メタ文字正規表現例マッチする文字列
[]
文字クラス
([]内の文字いずれか)
書[かきくけこい]「書か」「書き」「書く」「書け」「書こ」「書い」
(動詞「書く」の可能性のある2文字)
熱[かきくけいう]「熱か」「熱き」「熱く」「熱け」「熱い」「熱う」
(形容詞「熱い」の可能性のある2文字)
渡[部辺邊邉]「渡部」「渡辺」「渡邊」「渡邉」
[国國]語「国語」「國語」
-
文字クラスの範囲指定
([a-z]で文字コード表のaからzまで)
[ま-も]「ま」「み」「む」「め」「も」
[ぁ-ん]ひらがな1文字
[ァ-ヴ]カタカナ1文字
[一-龠]漢字1文字 Unicode JIS内字
[亜-熙]漢字1文字 Shift_JISの場合
[0-9]半角数字1文字
[A-Za-z]半角アルファベット1文字
文字種による指定
(Unicode文字プロパティ*1
VSCodeでは下段のsc=を含む方で指定する。
\p{Hiragana}
\p{sc=Hiragana}
ひらがな1文字
\p{Katakana}
\p{sc=Katakana}
カタカナ1文字
\p{Han}
\p{sc=Han}
漢字1文字
^
文字クラスの補集合
([^abc]で「a」「b」「c」以外)
[^あいうえお]「あ」「い」「う」「え」「お」以外の1文字
[^ま-も]「ま」「み」「む」「め」「も」以外の1文字
[^亜-熙]漢字以外の1文字 Shift_JIS
[^一-龠]漢字以外の1文字 Unicode JIS内字
文字種による指定
(Unicode文字プロパティ)
\P{Hiragana}
\P{sc=Hiragana}
ひらがな以外の1文字(Pが大文字)
\P{Katakana}
\P{sc=Katakana}
カタカナ以外の1文字
\P{Han}
\P{sc=Han}
漢字以外の1文字
.
任意の1文字
東.大学「東京大学」「東北大学」「東洋大学」「東海大学」「東の大学」「東!大学」などの4文字
(「東○大学」といった大学名の可能性のある4文字)

繰り返しに関するメタ文字

メタ文字正規表現例マッチする文字列
?
直前の文字・グループの0回または1回の繰り返し
(あってもなくてもよい)
日本語学?科「日本語学科」「日本語科」
国語?研「国研」「国語研」
コンピューター?「コンピューター」「コンピュータ」
choo?sen?「choosen」「chosen」「choose」「chose」
(動詞chooseの可能性のある5~7文字)
暮ら?しの手[帖帳]「暮らしの手帖」「暮しの手帖」「暮らしの手帳」「暮しの手帳」
暮ら?[さしすせそ]「暮らさ」「暮らし」「暮らす」「暮らせ」「暮らそ」「暮さ」「暮し」「暮す」「暮せ」「暮そ」
(動詞「暮(ら)す」の可能性のある2~3文字)
*
直前の文字・グループの0回以上の繰り返し
(なくてもよいし、いくつあってもよい)
わあ*っ「わっ」「わあっ」「わああっ」「わあああっ」などの2文字以上
[AaAa][A-Za-zA-z]*Aで始まりアルファベットから成る1文字以上
全然[^。]*ない。句点付きの文で、副詞の呼応「全然~ない。」の可能性のある5文字以上
+
直前の文字・グループの1回以上の繰り返し
(最低1個以上いくつあってもよい)
わあ+っ「わあっ」「わああっ」「わあああっ」などの3文字以上
[一-龠々ヵヶ]+漢字および「々」「ヵ」「ヶ」から成る1文字以上
(漢字表記の語の可能性のある文字列)
[\p{Han}々ヵヶ]
[ァ-ヴヽヾー・]+カタカナおよび「ヽ」「ヾ」「ー(長音符号)」「・(中点)」から成る1文字以上
(カタカナ表記の語の可能性のある文字列)
[\p{katakana}ー・]+
[0-90-9,,]+数字およびカンマから成る1文字以上
《[^》]+》
《.+?》
《と》で囲まれた任意の文字列
{n,m}
直前の文字・グループのn回以上のm回以下の繰り返し
わあ{2,3}っ「わああっ」または「わあああっ」
[一-龠々ヵヶ]{4,6}漢字および「々」「ヵ」「ヶ」が4文字以上6文字以下連続)
[\p{Han}々ヵヶ]{4,6}
[一-龠々ヵヶ]{4,}漢字および「々」「ヵ」「ヶ」が4文字以上連続(上限なし)
[\p{Han}々ヵヶ]{4,}

グループ化と論理和

メタ文字正規表現例マッチする文字列
|
論理和
(AAA|aaaで「AAA」または「aaa」)
イギリス|英吉利「イギリス」「英吉利」
イギリス|フランス|ドイツ「イギリス」「フランス」「ドイツ」
()
グループ化
(イギリス|フランス|ドイツ)人「イギリス人」「フランス人」「ドイツ人」
(はい)+「はい」「はいはい」「はいはいはい」など
(「はい」の1回以上の繰り返し)
cho(ose|sen?)「choose」「chosen」「chose」
(それ|其れ?)を「それを」「其れを」「其を」

行末と行頭

メタ文字正規表現例マッチする文字列
^
行頭
^「「で始まる行(=会話文)
$
行末
[^。]$。以外で終わる行

特殊文字とエスケープシーケンス


Counter: 23040, today: 5, yesterday: 4

*1 利用できるソフトウェアは限られます。
*2 ふつうWindowsではCR+LF、最近のMacやLinuxではLF。サクラエディタはCR=\rとLF=\nを別に指定

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-07-15 (金) 18:20:16