金瓶梅の小説をよじ登る.
3171 ワード
まずコード小説の目次ページはhttp://www.lhh1.com/modules/article/reader.php?aid=33
if res 3[]:
x=res 3[0]
words+="+x+''
レスfile.write(words)
refile.close()
print('done!')
中には二つのピットがあります.一つはコードの問題です.もう一つはurlの中の変換記号の問題です.これには5つの変換記号があります.HTMLの<>"があります.© © それぞれ、です.©;の変換記号です.校正が必要です.結果:
# coding: utf-8
import urllib
from urllib import request
import os
from os import path
import re
result_dir = path.join(os.getcwd(),'result') #
if not path.exists(result_dir):
os.makedirs(result_dir)
# HTML txt utf-8 gbk ,
src = open('src.txt','r',encoding='utf-8').read()
pattern = '(.+?)'
res1 = re.compile(pattern,re.S).findall(src)
for name in res1[1:2]:
url = name[0]
# URL
pattern_url = "(.+?)amp;(.*)" #
res1 = re.compile(pattern_url, re.S).findall(url)
url = res1[0][0] + res1[0][1]
title =name[1]
print(url,title)
pattern_br = '\ \ \ \ (.+?)
html = request.urlopen(url).read()
html = html.decode('gbk') #
res2 = re.compile(pattern_br, re.S).findall(html)
# print(html)
# print(res2)
resfile = open(path.join(result_dir,title+'.txt'),'w') #
words = ''
for x in res2:
res3 = re.compile('(.+)\
',re.S).findll(x)菗取尾的文字if res 3[]:
x=res 3[0]
words+="+x+''
レスfile.write(words)
refile.close()
print('done!')
中には二つのピットがあります.一つはコードの問題です.もう一つはurlの中の変換記号の問題です.これには5つの変換記号があります.HTMLの<>"があります.© © それぞれ、です.©;の変換記号です.校正が必要です.結果: