lua HTML/css/jsなどのコードを除去

1038 ワード

最近再びc+luaで以前pythonで書いた簡単なspiderを実現するつもりで、すべての規則はできるだけluaで実現して、もちろん、例えばocrの部分はやはりCの実現を変調して、luaに対する不熟さのため、数日かかって、断続的にやっとHTMLなどのコードを整理する関数を整理しました:

function clearHTML(html)
    html = string.gsub(html, '<script[%a%A]->[%a%A]-</script>', '')
    html = string.gsub(html, '<style[%a%A]->[%a%A]-</style>', '')
    html = string.gsub(html, '<[%a%A]->', '')
    --    
    html = string.gsub(html, '
\r', '
') html = string.gsub(html, '%s+
', '
') html = string.gsub(html, '
+', '
') html = string.gsub(html, '
%s+', '
') -- html = string.gsub(html, '^%s+', '') html = string.gsub(html, '%s+$', '') return html end

----------------------------------------------------------------