pythonネットワーク爬虫類(一)

1510 ワード

韓寒ブログの文章リストの特徴を分析する.
<a href="http://blog.sina.com.cn/s/blog_4701280b0102egl0.html" target="_blank"> </a>

抽出了文字列内的网络链接。url=str 0[href:html+5]韩寒博客指定的内容将在当地传播。import urllib.request #<a title=「『映画の7つの要素について』--私の映画に対するいくつかの見方と『後会無期』のいくつかのニュースについて」target=「_blank」href=」http://blog.sina.com.cn/s/blog_4701280b0102eo83.html"> #enconfig:utf-8 str 0='<a title="『映画の7つの要素について』--私の映画に対するいくつかの見方と『後会無期』に関するいくつかのニュース「target="_blank」href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">' title = str0.find(r'<a title') print(title) href = str0.find(r'href=') print(href) html = str0.find(r'.html') print(html) url=str 0[href+6:html+5]#リストスライス print(url) content = urllib.request.urlopen(url).read() #print(content) filename=url[-26]#ファイル名urlのblog_4701280b0102eo83.html’の形式で命名する print(filename) open(filename,'wb').write(content)問題:Openが任意の形式の全文にアクシデントして非テキスト形式の全文にアクシデントする場合、アクシデントモードには通常'b'(nananarimode:'rb'または'wb')が加算される.如果不那样的话,下一个TypeError的异常会被泄露.open(filename,'w').write(content)#エラーフォーマットに'b'、すなわち'wb'Traceback(most recent call last)を追加します。   File "C:\Users\Alen\Desktop\wangluopacchong.py", line 19, in <module>     open(filename,'w').write(content) TypeError: must be str, not bytes