C#、JS正規表現によるHTMLタグのクリーンアップの一例
一部のコンテンツについては、HTMLタグを削除し、次のような純粋なコンテンツまたは一部のコンテンツのみを保持する場合があります.
ここはいらないここだけいらない(*)
上のこのコードに対して、私たちは青い内容、つまり「HTMLタグに囲まれた内容は、もういらない」ということです.
C#の実現方法:
string
strToBeFiltered = "<SPAN class = InsertWordsDisplay> </span> <SPAN class=\"InsertWordsDisplay\"> (*)</span>"
;
Regex
reg = new
Regex
("<span\\s+class\\s{0,}=\\s{0,}\"{0,1}InsertWordsDisplay\"{0,1}>.+?</span>"
, RegexOptions
.IgnoreCase | RegexOptions
.Multiline);
string
strFiltered = reg.Replace(strToBeFiltered, ""
);
上のstrFilteredが最終的な結果です
Javascriptの実装方法:
<
script
type
=
"text/javascript"
>
var
strToBeFiltered
=
'<SPAN class = InsertWordsDisplay> </span> <SPAN class="InsertWordsDisplay"> (*)</span>'
;
var
pattern
= /<
span
\
s
+
class
\
s
{
0
,}=\
s
{
0
,}
"{0,1}InsertWordsDisplay"
{
0
,
1
}\
s
{
0
,}>.+?<\/
span
>/
ig
;
var
strFiltered
=
strToBeFiltered
.
replace
(
pattern
,
''
);
alert
(
strFiltered
);
</
script
>
レンガを投げて玉を引く役割を果たしてほしい.