lua HTML/css/jsなどのコードを除去
1038 ワード
最近再びc+luaで以前pythonで書いた簡単なspiderを実現するつもりで、すべての規則はできるだけluaで実現して、もちろん、例えばocrの部分はやはりCの実現を変調して、luaに対する不熟さのため、数日かかって、断続的にやっとHTMLなどのコードを整理する関数を整理しました:
----------------------------------------------------------------
function clearHTML(html)
html = string.gsub(html, '<script[%a%A]->[%a%A]-</script>', '')
html = string.gsub(html, '<style[%a%A]->[%a%A]-</style>', '')
html = string.gsub(html, '<[%a%A]->', '')
--
html = string.gsub(html, '
\r', '
')
html = string.gsub(html, '%s+
', '
')
html = string.gsub(html, '
+', '
')
html = string.gsub(html, '
%s+', '
')
--
html = string.gsub(html, '^%s+', '')
html = string.gsub(html, '%s+$', '')
return html
end
----------------------------------------------------------------