java正則表現の基礎、実例学習資料収集大全オリジナル
正規表現の特殊文字: \\バックスラッシュ \t間隔('\u 0009') 改行('\u 000 A') \rバック('\u 000 D') \d数字は[0-9]に等しい. \D非数値は[^0-9]に等しい. \s空白記号[\t\x 0 B\f\r] \S非空白記号[^\t\x 0 B\f\r] \w個別文字[a-zA-Z_0-9] \W非個別文字[^a-zA-Zu 0-9] \f改ページ符 \e Escape \b単語の境界 \B単語以外の境界 \Gの前のマッチの終了 ^開始を制限するために^java条件はJavaの先頭文字に制限されます. $最後のjavaドルを制限するために、javaを最後の文字に制限します. .任意の文字を制限するjava.条件は、javaに制限されています.改行以外の任意の2文字には、特定の制限条件が適用されます. [a-z]条件は小文字a to z範囲の1文字に制限されます. [A-Z]条件は、大文字A to Zの範囲の1文字に制限されます. [a-z A-Z]条件は、小文字a to zまたは大文字A to Zの範囲の1文字に制限されます. [0-9]条件は小文字0ト9の範囲の1文字に制限されます. [0-9 a-z]条件は、小文字0ト9またはa to z範囲の1文字に制限されます. [0-9[a-z]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉) []に^を追加し、再制限条件を追加します. [^a-z]条件は、小文字でないa to z範囲の1文字に制限されます. [^A-Z]条件は、大文字でないA to Zの範囲の1文字に制限されます. [^a-z A-Z]条件は、小文字でないa to zまたは大文字A to Zの範囲の1文字に制限されます. [^0-9]条件は小文字ではない0 to 9の範囲の1文字に制限されます. [^0-9 a-z]条件は、小文字0ト9またはa to zの範囲の1文字に制限されます. [^0-9[a-z]]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉)
制限条件が特定文字で0回以上発生した場合は、「*」を使用することができます. J*0個以上J .* 0以上の任意の文字 J.*D JとDの間に0以上の任意文字
制限条件が特定の文字で1回以上発生した場合は「+」を使用できます. J+1個以上J .+ 1つ以上の任意の文字 J.+D JとDの間に1つ以上の任意の文字があります.
制限条件が特定の文字で0または1回以上発生した場合、「?」を使用することができます. JAJまたはJA
出現制限は連続して指定回数の文字「{a}」です. J{2}JJ J{3}JJJ
文字a個以上、そして「{a,}」 J{3}JJ、JJJJ、JJJJJ、JJJ JJJ、?(3回以上J共存)
文字a個以上、b個以下「{a,b}」 J{3,5}JJまたはJJJJまたはJJJJJ JJJ JJJ 両者は一つの「124」を取る J 124 AかA Java|ハローJavaまたはハロー
「()」では、たとえば、indexの中間のデータを調べたら、
在使用Pattern.compile函数时,可以加入控制正则表达式的匹配行为的参数:
Pattern Pattern.compile(String regex, int flag) flag的取值范围如下:
Pattern.CANON_EQ 当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式"a\u030A"会匹配"?"。默认情况下,不考虑"规范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i) 默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。
Pattern.COMMENTS(?x) 在这种模式下,匹配时会忽略(正则表达式里的)空格字符(译者注:不是指表达式里的"\\s",而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。
Pattern.DOTALL(?s) 在这种模式下,表达式'.'可以匹配任意字符,包括表示一行的结束符。默认情况下,表达式'.'不匹配行的结束符。
Pattern.MULTILINE (?m) 在这种模式下,'^'和'$'分别匹配一行的开始和结束。此外,'^'仍然匹配字符串的开始,'$'也匹配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的开始和结束。
Pattern.UNICODE_CASE (?u) 在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不明感的匹配。默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。
Pattern.UNIX_LINES(?d) 在这个模式下,只有'
'才被认作一行的中止,并且与'.','^',以及'$'进行匹配。抛开空泛的概念,下面写出几个简单的Java正则用例:
◆在字符串包含验证时
//查找以Java开头,任意结尾的字符串
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java不是人");
boolean b = matcher.matches(); //当条件满足时,将返回true,否则返回false
System.out.println(b);
正则表达式中的特殊字符:
\\ 反斜杠
\t 间隔 ('\u0009')
换行 ('\u000A')
\r 回车 ('\u000D')
\d 数字等价于[0-9]
\D 非数字等价于[^0-9]
\s 空白符号 [\t
\x0B\f\r]
\S 非空白符号 [^\t
\x0B\f\r]
\w 单独字符 [a-zA-Z_0-9]
\W 非单独字符 [^a-zA-Z_0-9]
\f 换页符
\e Escape
\b 一个单词的边界
\B 一个非单词的边界
\G 前一个匹配的结束
^为限制开头 ^java 条件限制为以Java为开头字符
$为限制结尾 java$ 条件限制为以java为结尾字符
.为限制一个任意字符 java.. 条件限制为java后除换行外任意两个字符加入特定限制条件
[a-z] 条件限制在小写a to z范围中一个字符
[A-Z] 条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9] 条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)
[]中加入^后加再次限制条件
[^a-z] 条件限制在非小写a to z范围中一个字符
[^A-Z] 条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9] 条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)
在限制条件为特定字符出现0次以上时,可以使用「*」
J* 0个以上J
.* 0个以上任意字符
J.*D J与D之间0个以上任意字符
在限制条件为特定字符出现1次以上时,可以使用「+」
J+ 1个以上J
.+ 1个以上任意字符
J.+D J与D之间1个以上任意字符
在限制条件为特定字符出现有0或1次以上时,可以使用「?」
JA? J或者JA
出现限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ
文字a个以上,并且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)
文字a个以上,b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取一「|」
J|A J或A
Java|Hello Java或Hello
「()」中规定一个组合类型比如,我查询indexの中間のデータとして書いてもいいです.(.+?)
Pattern.co mpile関数を使用すると、正規表現の整合挙動を制御するパラメータを追加できます.EQは、2つの文字の「正規分解(canonical decomponesition)」が完全に同じである場合にのみ、マッチングを認定します.このマークを使うと、「a\u 030 A」という表現が「?」にマッチします.デフォルトでは「標準同等性」は考えられません.Pattern.CC ASE_INSENSITIVE(?i)デフォルトでは、大文字小文字不明のマッチングはUS-SCII文字セットのみに適用されます.このフラグは、表式を無視して大文字と小文字を一致させることができます.Unicodeの文字にサイズ不明感のマッチングをするには、UNIKODE(u)が必要です.CASEはこのマークと合わせればいいです.Pattern.C OMMENTS(?x)このモードでは、マッチング時にスペース記号を無視します.注釈は葃から始まり、この行が終わるまで.埋め込みマークでUnix行モードを有効にできます.Pattern.DOTALL(?s)は、このモードでは、表式''を任意の文字にマッチさせ、行を表す終端符を含む.デフォルトでは、表式''が行にマッチしない終端符です.Pattern.MULTILINE(?m)は、このモードでは、'^''と''は、行の開始と終了にそれぞれマッチします.また、'^'は文字列の開始にマッチしています.'$も文字列にマッチして終了します.デフォルトでは、この2つの表現は文字列の開始と終了にのみマッチします.Pattern.UNICODE_CASE(?u)はこのモードで、もしあなたがCASE_を有効にしたらINSENSITIVEフラグは、Unicodeの文字に対して、大文字と小文字の区別のないマッチングを行います.デフォルトでは、大文字と小文字の不感度のマッチングはUS-SCII文字セットにのみ適用されます.Pattern.UNIX_LINE(?d)はこのモードでは、'だけが一行の中止と見なされ、'.','^',''と一致します.空泛の概念を抜きにして、簡単なJava正則のいくつかの用例を書き出します.
文字列に検証が含まれている場合
// Java ,
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java ");
boolean b = matcher.matches(); // , true, false
System.out.println(b);
複数条件で文字列を分割する場合
Pattern pattern = Pattern.compile("[, |]+");
String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun");
for (int i=0;i
テキスト置換(最初の文字)
Pattern pattern = Pattern.compile(" ");
Matcher matcher = pattern.matcher(" Hello World, Hello World"); //
System.out.println(matcher.replaceFirst("Java"));
テキスト置換(すべて)
Pattern pattern = Pattern.compile(" ");
Matcher matcher = pattern.matcher(" Hello World, Hello World"); //
System.out.println(matcher.replaceAll("Java"));
文字置換(置換文字)
Pattern pattern = Pattern.compile(" ");
Matcher matcher = pattern.matcher(" Hello World, Hello World ");
StringBuffer sbr = new StringBuffer();
while (matcher.find()) {
matcher.appendReplacement(sbr, "Java");
}
matcher.appendTail(sbr);
System.out.println(sbr.toString());
メールアドレスであるかどうかを確認します.
String str="[email protected]";
Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(str);
System.out.println(matcher.matches());
既存のタグを削除
Pattern pattern = Pattern.compile("<.>", Pattern.DOTALL);
Matcher matcher = pattern.matcher("ホームページ");
String string = matcher.replaceAll("");
System.out.println(string);
html中の対応条件文字列を検索します.
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("ホームページ");
if(matcher.find()) {
System.out.println(matcher.group(1));
}
http://住所/切り取りurl
Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");
Matcher matcher = pattern.matcher("dsdsdsfdf");
StringBuffer buffer = new StringBuffer();
while(matcher.find()){
buffer.append(matcher.group());
buffer.append("\r
");
System.out.println(buffer.toString());
}
指定された{}のテキストを置換
String str = "Java {0} -{1} ";
String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}};
System.out.println(replace(str,object));
public static String replace(final String sourceString,Object[] object) {
String temp=sourceString;
for(int i=0;i
正規条件で指定されたディレクトリの下のファイル/キャッシュファイルのリストを検索します.
private ArrayList files = new ArrayList(); //
private String _path; //
private String _regexp;
class MyFileFilter implements FileFilter {
/** * */
public boolean accept(File file) {
try {
Pattern pattern = Pattern.compile(_regexp);
Matcher match = pattern.matcher(file.getName());
return match.matches();
} catch (Exception e) {
return true;
}
}
}
/** * * @param inputs */
FilesAnalyze(String path, String regexp) {
getFileName(path, regexp);
}
/** * files * @param input */
private void getFileName(String path, String regexp) { //
_path = path;
_regexp = regexp;
File directory = new File(_path);
File[] filesFile = directory.listFiles(new MyFileFilter());
if (filesFile == null)
return;
for (int j = 0; j < filesFile.length; j++) {
files.add(filesFile[j]);
}
return;
}
/** * * @param out */
public void print(PrintStream out) {
Iterator elements = files.iterator();
while (elements.hasNext()) {
File file = (File) elements.next();
out.println(file.getPath());
}
}
public static void output(String path, String regexp) {
FilesAnalyze fileGroup1 = new FilesAnalyze(path, regexp);
fileGroup1.print(System.out);
}
public static void main(String[] args) {
output("C:\\", "[A-z|.]*");
}
基本的にはこれだけです.元の内容は確かにあまりにも悪いです.今回更新しました.