金瓶梅の小説をよじ登る.


まずコード小説の目次ページはhttp://www.lhh1.com/modules/article/reader.php?aid=33
# coding: utf-8
import urllib
from urllib import request
import os
from os import path
import re

result_dir = path.join(os.getcwd(),'result')  #  
if not path.exists(result_dir):
    os.makedirs(result_dir)

#                 HTML   txt  utf-8           gbk  ,    
src = open('src.txt','r',encoding='utf-8').read()

pattern = '(.+?)'
res1 = re.compile(pattern,re.S).findall(src)

for name in res1[1:2]:
    url = name[0]
    #  URL
    pattern_url = "(.+?)amp;(.*)" #      
    res1 = re.compile(pattern_url, re.S).findall(url)
    url = res1[0][0] + res1[0][1]
    title =name[1]
    print(url,title)

    pattern_br = '\ \ \ \ (.+?)
html = request.urlopen(url).read() html = html.decode('gbk') # res2 = re.compile(pattern_br, re.S).findall(html) # print(html) # print(res2) resfile = open(path.join(result_dir,title+'.txt'),'w') # words = '' for x in res2: res3 = re.compile('(.+)\
',re.S).findll(x)菗取尾的文字
if res 3[]:
x=res 3[0]
words+="+x+''
レスfile.write(words)
refile.close()
print('done!')
中には二つのピットがあります.一つはコードの問題です.もう一つはurlの中の変換記号の問題です.これには5つの変換記号があります.HTMLの<>"があります.© © それぞれ、です.©;の変換記号です.校正が必要です.結果:爬取金瓶梅小说_第1张图片