java正則表現の基礎、実例学習資料収集大全オリジナル

10854 ワード

JAVAのPattern類とMatch類についてはURLを参照してください.http://www.ibm.com/developerworks/cn/java/l-regp/part2/
正規表現の特殊文字: \\バックスラッシュ \t間隔('\u 0009') 改行('\u 000 A') \rバック('\u 000 D') \d数字は[0-9]に等しい. \D非数値は[^0-9]に等しい. \s空白記号[\t\x 0 B\f\r] \S非空白記号[^\t\x 0 B\f\r] \w個別文字[a-zA-Z_0-9] \W非個別文字[^a-zA-Zu 0-9] \f改ページ符 \e Escape \b単語の境界 \B単語以外の境界 \Gの前のマッチの終了 ^開始を制限するために^java条件はJavaの先頭文字に制限されます. $最後のjavaドルを制限するために、javaを最後の文字に制限します. .任意の文字を制限するjava.条件は、javaに制限されています.改行以外の任意の2文字には、特定の制限条件が適用されます. ［a-z］条件は小文字a to z範囲の1文字に制限されます. [A-Z]条件は、大文字A to Zの範囲の1文字に制限されます. [a-z A-Z]条件は、小文字a to zまたは大文字A to Zの範囲の1文字に制限されます. [0-9]条件は小文字0ト9の範囲の1文字に制限されます. ［0-9 a-z］条件は、小文字0ト9またはa to z範囲の1文字に制限されます. [0-9[a-z]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉) []に^を追加し、再制限条件を追加します. [^a-z]条件は、小文字でないa to z範囲の1文字に制限されます. [^A-Z]条件は、大文字でないA to Zの範囲の1文字に制限されます. [^a-z A-Z]条件は、小文字でないa to zまたは大文字A to Zの範囲の1文字に制限されます. [^0-9]条件は小文字ではない0 to 9の範囲の1文字に制限されます. [^0-9 a-z]条件は、小文字0ト9またはa to zの範囲の1文字に制限されます. [^0-9[a-z]]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉)
制限条件が特定文字で0回以上発生した場合は、「*」を使用することができます. J*0個以上J .* 0以上の任意の文字 J.＊D JとDの間に0以上の任意文字
制限条件が特定の文字で1回以上発生した場合は「+」を使用できます. J+1個以上J .+ 1つ以上の任意の文字 J.+D JとDの間に1つ以上の任意の文字があります.
制限条件が特定の文字で0または1回以上発生した場合、「?」を使用することができます. JAJまたはJA
出現制限は連続して指定回数の文字「{a}」です. J{2}JJ J{3}JJJ
文字a個以上、そして「{a,}」 J{3}JJ、JJJJ、JJJJJ、JJJ JJJ、?(3回以上J共存)
文字a個以上、b個以下「{a,b}」 J{3,5}JJまたはJJJJまたはJJJJJ JJJ JJJ 両者は一つの「124」を取る J 124 AかA Java|ハローJavaまたはハロー
「()」では、たとえば、indexの中間のデータを調べたら、(.+?)

在使用Pattern.compile函数时，可以加入控制正则表达式的匹配行为的参数：

Pattern Pattern.compile(String regex, int flag) flag的取值范围如下：

Pattern.CANON_EQ 当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下，才认定匹配。比如用了这个标志之后，表达式"a\u030A"会匹配"?"。默认情况下，不考虑"规范相等性(canonical equivalence)"。

Pattern.CASE_INSENSITIVE(?i) 默认情况下，大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配，只要将UNICODE_CASE与这个标志合起来就行了。

Pattern.COMMENTS(?x) 在这种模式下，匹配时会忽略(正则表达式里的)空格字符(译者注：不是指表达式里的"\\s"，而是指表达式里的空格，tab，回车之类)。注释从#开始，一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。

Pattern.DOTALL(?s) 在这种模式下，表达式'.'可以匹配任意字符，包括表示一行的结束符。默认情况下，表达式'.'不匹配行的结束符。

Pattern.MULTILINE (?m) 在这种模式下，'^'和'$'分别匹配一行的开始和结束。此外，'^'仍然匹配字符串的开始，'$'也匹配字符串的结束。默认情况下，这两个表达式仅仅匹配字符串的开始和结束。

Pattern.UNICODE_CASE (?u) 在这个模式下，如果你还启用了CASE_INSENSITIVE标志，那么它会对Unicode字符进行大小写不明感的匹配。默认情况下，大小写不敏感的匹配只适用于US-ASCII字符集。

Pattern.UNIX_LINES(?d) 在这个模式下，只有'
'才被认作一行的中止，并且与'.'，'^'，以及'$'进行匹配。抛开空泛的概念，下面写出几个简单的Java正则用例：

◆在字符串包含验证时
//查找以Java开头,任意结尾的字符串
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java不是人");
boolean b = matcher.matches(); //当条件满足时，将返回true，否则返回false
System.out.println(b);

正则表达式中的特殊字符：

\\ 反斜杠
\t 间隔 ('\u0009')

换行 ('\u000A')
\r 回车 ('\u000D')
\d 数字等价于[0-9]
\D 非数字等价于[^0-9]
\s 空白符号 [\t
\x0B\f\r]
\S 非空白符号 [^\t
\x0B\f\r]
\w 单独字符 [a-zA-Z_0-9]
\W 非单独字符 [^a-zA-Z_0-9]
\f 换页符
\e Escape
\b 一个单词的边界
\B 一个非单词的边界
\G 前一个匹配的结束

^为限制开头 ^java 条件限制为以Java为开头字符
$为限制结尾 java$ 条件限制为以java为结尾字符
.为限制一个任意字符 java.. 条件限制为java后除换行外任意两个字符加入特定限制条件

[a-z] 条件限制在小写a to z范围中一个字符
[A-Z] 条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9] 条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)

[]中加入^后加再次限制条件
[^a-z] 条件限制在非小写a to z范围中一个字符
[^A-Z] 条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9] 条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时，可以使用「*」
J* 0个以上J
.* 0个以上任意字符
J.*D J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时，可以使用「+」
J+ 1个以上J
.+ 1个以上任意字符
J.+D J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时，可以使用「?」
JA? J或者JA

出现限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ

文字a个以上，并且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)

文字a个以上，b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中规定一个组合类型比如，我查询indexの中間のデータとして書いてもいいです.(.＋?)
Pattern.co mpile関数を使用すると、正規表現の整合挙動を制御するパラメータを追加できます.EQは、2つの文字の「正規分解(canonical decomponesition)」が完全に同じである場合にのみ、マッチングを認定します.このマークを使うと、「a\u 030 A」という表現が「?」にマッチします.デフォルトでは「標準同等性」は考えられません.Pattern.CC ASE_INSENSITIVE(?i)デフォルトでは、大文字小文字不明のマッチングはUS-SCII文字セットのみに適用されます.このフラグは、表式を無視して大文字と小文字を一致させることができます.Unicodeの文字にサイズ不明感のマッチングをするには、UNIKODE(u)が必要です.CASEはこのマークと合わせればいいです.Pattern.C OMMENTS(?x)このモードでは、マッチング時にスペース記号を無視します.注釈は葃から始まり、この行が終わるまで.埋め込みマークでUnix行モードを有効にできます.Pattern.DOTALL(?s)は、このモードでは、表式''を任意の文字にマッチさせ、行を表す終端符を含む.デフォルトでは、表式''が行にマッチしない終端符です.Pattern.MULTILINE(?m)は、このモードでは、'^''と''は、行の開始と終了にそれぞれマッチします.また、'^'は文字列の開始にマッチしています.'$も文字列にマッチして終了します.デフォルトでは、この2つの表現は文字列の開始と終了にのみマッチします.Pattern.UNICODE_CASE(?u)はこのモードで、もしあなたがCASE_を有効にしたらINSENSITIVEフラグは、Unicodeの文字に対して、大文字と小文字の区別のないマッチングを行います.デフォルトでは、大文字と小文字の不感度のマッチングはUS-SCII文字セットにのみ適用されます.Pattern.UNIX_LINE(?d)はこのモードでは、'だけが一行の中止と見なされ、'.','^',''と一致します.空泛の概念を抜きにして、簡単なJava正則のいくつかの用例を書き出します.
文字列に検証が含まれている場合


//   Java  ,         
Pattern pattern = Pattern.compile("^Java.*"); 
Matcher matcher = pattern.matcher("Java   "); 
boolean b = matcher.matches(); //      ，   true，    false 
System.out.println(b);

複数条件で文字列を分割する場合


 Pattern pattern = Pattern.compile("[, |]+"); 
 String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun"); 
 for (int i=0;i

テキスト置換(最初の文字)


 Pattern pattern = Pattern.compile("     "); 
 Matcher matcher = pattern.matcher("      Hello World,      Hello World"); //            
 System.out.println(matcher.replaceFirst("Java"));

テキスト置換(すべて)


 Pattern pattern = Pattern.compile("     ");
 Matcher matcher = pattern.matcher("      Hello World,      Hello World"); //            
 System.out.println(matcher.replaceAll("Java"));

文字置換(置換文字)


 Pattern pattern = Pattern.compile("     "); 
 Matcher matcher = pattern.matcher("      Hello World,      Hello World "); 
 StringBuffer sbr = new StringBuffer(); 
 while (matcher.find()) { 
  matcher.appendReplacement(sbr, "Java"); 
 }
 matcher.appendTail(sbr); 
 System.out.println(sbr.toString());

メールアドレスであるかどうかを確認します.


 String str="[email protected]"; 
 Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE); 
 Matcher matcher = pattern.matcher(str); 
 System.out.println(matcher.matches());

既存のタグを削除


Pattern pattern = Pattern.compile("<.>", Pattern.DOTALL); 
Matcher matcher = pattern.matcher("ホームページ"); 
String string = matcher.replaceAll(""); 
System.out.println(string);

html中の対応条件文字列を検索します.


Pattern pattern = Pattern.compile("href=\"(.+?)\""); 
Matcher matcher = pattern.matcher("ホームページ"); 
if(matcher.find()) { 
	 System.out.println(matcher.group(1)); 
}

http://住所/切り取りurl


Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+"); 
Matcher matcher = pattern.matcher("dsdsdsfdf"); 
StringBuffer buffer = new StringBuffer(); 
while(matcher.find()){ 
	 buffer.append(matcher.group()); 
	 buffer.append("\r
");
	 System.out.println(buffer.toString()); 
}

指定された{}のテキストを置換


	String str = "Java        {0} -{1} "; 
	String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}}; 
	System.out.println(replace(str,object)); 

	public static String replace(final String sourceString,Object[] object) { 
	 String temp=sourceString; 
	 for(int i=0;i

正規条件で指定されたディレクトリの下のファイル/キャッシュファイルのリストを検索します.


	private ArrayList files = new ArrayList(); //         
	private String _path; //             
	private String _regexp;

	class MyFileFilter implements FileFilter {
		/** *        */
		public boolean accept(File file) {
			try {
				Pattern pattern = Pattern.compile(_regexp);
				Matcher match = pattern.matcher(file.getName());
				return match.matches();
			} catch (Exception e) {
				return true;
			}
		}
	}

	/** *       * @param inputs */
	FilesAnalyze(String path, String regexp) {
		getFileName(path, regexp);
	}

	/** *         files * @param input */
	private void getFileName(String path, String regexp) { //   
		_path = path;
		_regexp = regexp;
		File directory = new File(_path);
		File[] filesFile = directory.listFiles(new MyFileFilter());
		if (filesFile == null)
			return;

		for (int j = 0; j < filesFile.length; j++) {
			files.add(filesFile[j]);
		}

		return;
	}

	/** *        * @param out */
	public void print(PrintStream out) {
		Iterator elements = files.iterator();
		while (elements.hasNext()) {
			File file = (File) elements.next();
			out.println(file.getPath());
		}
	}

	public static void output(String path, String regexp) {
		FilesAnalyze fileGroup1 = new FilesAnalyze(path, regexp);
		fileGroup1.print(System.out);
	}

	public static void main(String[] args) {
		output("C:\\", "[A-z|.]*");
	}

基本的にはこれだけです.元の内容は確かにあまりにも悪いです.今回更新しました.

POJ 1094(トポロジ順序)

springテーマ使用詳細