java正則表現の基礎、実例学習資料収集大全オリジナル

10854 ワード

JAVAのPattern類とMatch類についてはURLを参照してください.http://www.ibm.com/developerworks/cn/java/l-regp/part2/
正規表現の特殊文字: \\バックスラッシュ \t間隔('\u 0009')  改行('\u 000 A') \rバック('\u 000 D') \d数字は[0-9]に等しい. \D非数値は[^0-9]に等しい. \s空白記号[\t\x 0 B\f\r] \S非空白記号[^\t\x 0 B\f\r] \w個別文字[a-zA-Z_0-9] \W非個別文字[^a-zA-Zu 0-9] \f改ページ符 \e Escape \b単語の境界 \B単語以外の境界 \Gの前のマッチの終了    ^開始を制限するために^java条件はJavaの先頭文字に制限されます.  $最後のjavaドルを制限するために、javaを最後の文字に制限します.  .任意の文字を制限するjava.条件は、javaに制限されています.改行以外の任意の2文字には、特定の制限条件が適用されます.    [a-z]条件は小文字a to z範囲の1文字に制限されます.  [A-Z]条件は、大文字A to Zの範囲の1文字に制限されます.  [a-z A-Z]条件は、小文字a to zまたは大文字A to Zの範囲の1文字に制限されます.  [0-9]条件は小文字0ト9の範囲の1文字に制限されます.  [0-9 a-z]条件は、小文字0ト9またはa to z範囲の1文字に制限されます.  [0-9[a-z]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉)    []に^を追加し、再制限条件を追加します.  [^a-z]条件は、小文字でないa to z範囲の1文字に制限されます.  [^A-Z]条件は、大文字でないA to Zの範囲の1文字に制限されます.  [^a-z A-Z]条件は、小文字でないa to zまたは大文字A to Zの範囲の1文字に制限されます.  [^0-9]条件は小文字ではない0 to 9の範囲の1文字に制限されます.  [^0-9 a-z]条件は、小文字0ト9またはa to zの範囲の1文字に制限されます.  [^0-9[a-z]]条件は、小文字0 to 9またはa to z範囲の1文字に制限されます(交叉)
  制限条件が特定文字で0回以上発生した場合は、「*」を使用することができます.  J*0個以上J  .* 0以上の任意の文字  J.*D JとDの間に0以上の任意文字
  制限条件が特定の文字で1回以上発生した場合は「+」を使用できます.  J+1個以上J  .+ 1つ以上の任意の文字  J.+D JとDの間に1つ以上の任意の文字があります.
  制限条件が特定の文字で0または1回以上発生した場合、「?」を使用することができます.  JAJまたはJA
  出現制限は連続して指定回数の文字「{a}」です.  J{2}JJ  J{3}JJJ
  文字a個以上、そして「{a,}」  J{3}JJ、JJJJ、JJJJJ、JJJ JJJ、?(3回以上J共存)
  文字a個以上、b個以下「{a,b}」  J{3,5}JJまたはJJJJまたはJJJJJ JJJ JJJ  両者は一つの「124」を取る  J 124 AかA  Java|ハローJavaまたはハロー
  「()」では、たとえば、indexの中間のデータを調べたら、(.+?)

在使用Pattern.compile函数时,可以加入控制正则表达式的匹配行为的参数:

  Pattern Pattern.compile(String regex, int flag) flag的取值范围如下:

Pattern.CANON_EQ 当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式"a\u030A"会匹配"?"。默认情况下,不考虑"规范相等性(canonical equivalence)"。

  Pattern.CASE_INSENSITIVE(?i) 默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。

  Pattern.COMMENTS(?x) 在这种模式下,匹配时会忽略(正则表达式里的)空格字符(译者注:不是指表达式里的"\\s",而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。

  Pattern.DOTALL(?s) 在这种模式下,表达式'.'可以匹配任意字符,包括表示一行的结束符。默认情况下,表达式'.'不匹配行的结束符。

  Pattern.MULTILINE (?m) 在这种模式下,'^'和'$'分别匹配一行的开始和结束。此外,'^'仍然匹配字符串的开始,'$'也匹配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的开始和结束。

  Pattern.UNICODE_CASE (?u) 在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不明感的匹配。默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。

Pattern.UNIX_LINES(?d) 在这个模式下,只有'
'才被认作一行的中止,并且与'.','^',以及'$'进行匹配。抛开空泛的概念,下面写出几个简单的Java正则用例:

◆在字符串包含验证时
//查找以Java开头,任意结尾的字符串
  Pattern pattern = Pattern.compile("^Java.*");
  Matcher matcher = pattern.matcher("Java不是人");
  boolean b = matcher.matches(); //当条件满足时,将返回true,否则返回false
  System.out.println(b);

正则表达式中的特殊字符:

  \\ 反斜杠
  \t 间隔 ('\u0009')
 
换行 ('\u000A')
  \r 回车 ('\u000D')
  \d 数字等价于[0-9]
  \D 非数字等价于[^0-9]
  \s 空白符号 [\t
\x0B\f\r]
  \S 非空白符号 [^\t
\x0B\f\r]
  \w 单独字符 [a-zA-Z_0-9]
  \W 非单独字符 [^a-zA-Z_0-9]
  \f 换页符
  \e Escape
  \b 一个单词的边界
  \B 一个非单词的边界
  \G 前一个匹配的结束
 
  ^为限制开头 ^java 条件限制为以Java为开头字符
  $为限制结尾 java$ 条件限制为以java为结尾字符
  .为限制一个任意字符 java.. 条件限制为java后除换行外任意两个字符加入特定限制条件
 
  [a-z] 条件限制在小写a to z范围中一个字符
  [A-Z] 条件限制在大写A to Z范围中一个字符
  [a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
  [0-9] 条件限制在小写0 to 9范围中一个字符
  [0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
  [0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)
 
[]中加入^后加再次限制条件
[^a-z] 条件限制在非小写a to z范围中一个字符
[^A-Z] 条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9] 条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时,可以使用「*」
J* 0个以上J
.* 0个以上任意字符
J.*D J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时,可以使用「+」
J+ 1个以上J
.+ 1个以上任意字符
J.+D J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时,可以使用「?」
JA? J或者JA

出现限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ

文字a个以上,并且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)

文字a个以上,b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中规定一个组合类型比如,我查询indexの中間のデータとして書いてもいいです.(.+?)
Pattern.co mpile関数を使用すると、正規表現の整合挙動を制御するパラメータを追加できます.EQは、2つの文字の「正規分解(canonical decomponesition)」が完全に同じである場合にのみ、マッチングを認定します.このマークを使うと、「a\u 030 A」という表現が「?」にマッチします.デフォルトでは「標準同等性」は考えられません.Pattern.CC ASE_INSENSITIVE(?i)デフォルトでは、大文字小文字不明のマッチングはUS-SCII文字セットのみに適用されます.このフラグは、表式を無視して大文字と小文字を一致させることができます.Unicodeの文字にサイズ不明感のマッチングをするには、UNIKODE(u)が必要です.CASEはこのマークと合わせればいいです.Pattern.C OMMENTS(?x)このモードでは、マッチング時にスペース記号を無視します.注釈は葃から始まり、この行が終わるまで.埋め込みマークでUnix行モードを有効にできます.Pattern.DOTALL(?s)は、このモードでは、表式''を任意の文字にマッチさせ、行を表す終端符を含む.デフォルトでは、表式''が行にマッチしない終端符です.Pattern.MULTILINE(?m)は、このモードでは、'^''と''は、行の開始と終了にそれぞれマッチします.また、'^'は文字列の開始にマッチしています.'$も文字列にマッチして終了します.デフォルトでは、この2つの表現は文字列の開始と終了にのみマッチします.Pattern.UNICODE_CASE(?u)はこのモードで、もしあなたがCASE_を有効にしたらINSENSITIVEフラグは、Unicodeの文字に対して、大文字と小文字の区別のないマッチングを行います.デフォルトでは、大文字と小文字の不感度のマッチングはUS-SCII文字セットにのみ適用されます.Pattern.UNIX_LINE(?d)はこのモードでは、'だけが一行の中止と見なされ、'.','^',''と一致します.空泛の概念を抜きにして、簡単なJava正則のいくつかの用例を書き出します.
文字列に検証が含まれている場合


//   Java  ,         
Pattern pattern = Pattern.compile("^Java.*"); 
Matcher matcher = pattern.matcher("Java   "); 
boolean b = matcher.matches(); //      ,   true,    false 
System.out.println(b);
複数条件で文字列を分割する場合

 Pattern pattern = Pattern.compile("[, |]+"); 
 String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun"); 
 for (int i=0;i 
 
テキスト置換(最初の文字)

 Pattern pattern = Pattern.compile("     "); 
 Matcher matcher = pattern.matcher("      Hello World,      Hello World"); //            
 System.out.println(matcher.replaceFirst("Java"));
テキスト置換(すべて)

 Pattern pattern = Pattern.compile("     ");
 Matcher matcher = pattern.matcher("      Hello World,      Hello World"); //            
 System.out.println(matcher.replaceAll("Java"));
文字置換(置換文字)

 Pattern pattern = Pattern.compile("     "); 
 Matcher matcher = pattern.matcher("      Hello World,      Hello World "); 
 StringBuffer sbr = new StringBuffer(); 
 while (matcher.find()) { 
  matcher.appendReplacement(sbr, "Java"); 
 }
 matcher.appendTail(sbr); 
 System.out.println(sbr.toString()); 
メールアドレスであるかどうかを確認します.

 String str="[email protected]"; 
 Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE); 
 Matcher matcher = pattern.matcher(str); 
 System.out.println(matcher.matches()); 
既存のタグを削除

Pattern pattern = Pattern.compile("<.>", Pattern.DOTALL); 
Matcher matcher = pattern.matcher("ホームページ"); 
String string = matcher.replaceAll(""); 
System.out.println(string);
html中の対応条件文字列を検索します.

Pattern pattern = Pattern.compile("href=\"(.+?)\""); 
Matcher matcher = pattern.matcher("ホームページ"); 
if(matcher.find()) { 
	 System.out.println(matcher.group(1)); 
}
http://住所/切り取りurl

Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+"); 
Matcher matcher = pattern.matcher("dsdsdsfdf"); 
StringBuffer buffer = new StringBuffer(); 
while(matcher.find()){ 
	 buffer.append(matcher.group()); 
	 buffer.append("\r
"); System.out.println(buffer.toString()); }
指定された{}のテキストを置換

	String str = "Java        {0} -{1} "; 
	String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}}; 
	System.out.println(replace(str,object)); 

	public static String replace(final String sourceString,Object[] object) { 
	 String temp=sourceString; 
	 for(int i=0;i 
 
正規条件で指定されたディレクトリの下のファイル/キャッシュファイルのリストを検索します.

	private ArrayList files = new ArrayList(); //         
	private String _path; //             
	private String _regexp;

	class MyFileFilter implements FileFilter {
		/** *        */
		public boolean accept(File file) {
			try {
				Pattern pattern = Pattern.compile(_regexp);
				Matcher match = pattern.matcher(file.getName());
				return match.matches();
			} catch (Exception e) {
				return true;
			}
		}
	}

	/** *       * @param inputs */
	FilesAnalyze(String path, String regexp) {
		getFileName(path, regexp);
	}

	/** *         files * @param input */
	private void getFileName(String path, String regexp) { //   
		_path = path;
		_regexp = regexp;
		File directory = new File(_path);
		File[] filesFile = directory.listFiles(new MyFileFilter());
		if (filesFile == null)
			return;

		for (int j = 0; j < filesFile.length; j++) {
			files.add(filesFile[j]);
		}

		return;
	}

	/** *        * @param out */
	public void print(PrintStream out) {
		Iterator elements = files.iterator();
		while (elements.hasNext()) {
			File file = (File) elements.next();
			out.println(file.getPath());
		}
	}

	public static void output(String path, String regexp) {
		FilesAnalyze fileGroup1 = new FilesAnalyze(path, regexp);
		fileGroup1.print(System.out);
	}

	public static void main(String[] args) {
		output("C:\\", "[A-z|.]*");
	}
基本的にはこれだけです.元の内容は確かにあまりにも悪いです.今回更新しました.