金瓶梅の小説をよじ登る.

3171 ワード

まずコード小説の目次ページはhttp://www.lhh1.com/modules/article/reader.php?aid=33

# coding: utf-8
import urllib
from urllib import request
import os
from os import path
import re

result_dir = path.join(os.getcwd(),'result')  #  
if not path.exists(result_dir):
    os.makedirs(result_dir)

#                 HTML   txt  utf-8           gbk  ，    
src = open('src.txt','r',encoding='utf-8').read()

pattern = '(.+？)'
res1 = re.compile(pattern,re.S).findall(src)

for name in res1[1:2]:
    url = name[0]
    #  URL
    pattern_url = "(.+?)amp;(.*)" #      
    res1 = re.compile(pattern_url, re.S).findall(url)
    url = res1[0][0] + res1[0][1]
    title =name[1]
    print(url,title)

    pattern_br = '\ \ \ \ (.+?)

    html = request.urlopen(url).read()
    html = html.decode('gbk')  #    
    res2 = re.compile(pattern_br, re.S).findall(html)
    # print(html)
    # print(res2)
    resfile = open(path.join(result_dir,title+'.txt'),'w')  #   
    words = ''

    for x in res2:
        res3 = re.compile('(.+)\

',re.S).findll(x)菗取尾的文字
if res 3[]:
x=res 3[0]
words+="+x+''
レスfile.write(words)
refile.close()
print('done!')
中には二つのピットがあります.一つはコードの問題です.もう一つはurlの中の変換記号の問題です.これには5つの変換記号があります.HTMLの<>"があります.© © それぞれ、です.©;の変換記号です.校正が必要です.結果:

POJ 3070 Fibonacci

SNP結果はSnpEffを用いて分析した.