Python爬虫類指定ブログのすべての記事を取得
7068 ワード
前の記事Z Story:Using Django with GAE Pythonのバックグラウンドから複数のサイトのページ全文をキャプチャした後、大体の進度は以下の通りである:1.Cronを追加しました:プログラムに30分おきにtaskを目覚めさせ、指定されたいくつかのブログに行って最新の更新を取るように伝えます.GoogleのDatastoreで爬虫類が這うたびに内容を保存します.新しい内容だけを保存する.
前回お話ししたように、従来のリクエストのたびに爬虫類が目を覚ますので、バックグラウンドからフロントに出力するのに約17秒かかりましたが、今では2秒もかかりません
3.爬虫類の最適化
1. Cron.yamlはプログラムごとに目が覚める時間を手配します
ドキュメントをめくって、質問してやっとgoogleのcronの動作原理が分かりました.-実際にはgoogleが指定した時間ごとに仮想的に私たちが指定したurlにアクセスしているだけです.そのため、Djangoの下で、純粋なpythonプログラムを書く必要はありません.必ず書かないでください.if_name__=="__main__": urlをviewsに配置するだけです.py:
cron.yamlはappに置く.yaml同じレベル:cron:-description:retrieve newest posts url:/task_updatePosts/schedule: every 30 minutes
urlでpyでこれを指さすだけでtask_updatePostsDBがurlを指すといいですね
このcronをデバッグする過程は惨烈で形容できる.のstackoverflowでは、なぜ自分のcronが仕事ができないのかと聞く人がたくさんいました..私も最初は汗だくで頭がつかめませんでした...最后にまぐれにできて、大体のステップも空っぽです.しかしとても素朴です:まず、必ず自分のプログラムがsyntax errorがないことを確保しなければなりません....そして自分でそのurlに手動でアクセスしてみてくださいcronが正常であれば、この時点でタスクが実行されているはずですが、最後に本当にだめならlogを見てみましょう...
2.Datastoreの構成と利用−Using Datastore with Django
私のニーズはここで簡単です-joinがありません...だから私は直接最も粗末なdjango-helperを使いました..このモデルはpyはポイントです.
前の2行がポイントの中のポイント...私は最初は無邪気に2行目を書いていませんでした...結局私は2時間以上もかけて何が起こっているのか分からなかった.損得を償わない...読んだり書いたりするときは、くれぐれも忘れないでください...PostDB.put()
最初は、手間を省くためにcronが呼び覚まされるたびに、すべてのデータを削除し、新しく登ったデータを書き直しました...結果...1日後..4万件の読み書き記録があります...毎日無料なのは5万本しかありません...だから挿入する前に更新があるかどうかを見て、あるなら書いて、ないなら書かないようにします.なんとかデータベースの部分ができました...
3.爬虫類の改善:最初は、爬虫類はfeedに与えられた文章に登るだけだった.これで、一つのブログに24*30の文章があれば..せいぜい10編しか取れません...今回、改良版はすべての文章に登ることができます.私はそれぞれ孤独な川陵、韓寒、YukiとZのブログで実験をしました.とても成功しました...その中で孤独な川陵には720+篇の文章があります..漏れなく這い出された.の
PyQueryへのおすすめ..残念ながら、BueautifulSoupは私を深く失望させました...私が前の文章を書いたとき、小さなバグがあった.ずっと原因が見つからない.の私が家に帰った後、また多くの时間をかけてBueautifulSoupが私の欲しい内容を捕まえることができなかった理由を理解しようとしました.のその後、selector部分のソースコードを大体見てみると、tagの多くの非規範htmlページの解析が正確ではないと思います...</p>
<p>私はこのライブラリを放棄して、またlxmlを試しました..xpathベースで使いやすいです.のしかし、xpathのものはいつもドキュメントを調べる必要があります.のだから私はまたライブラリPyQueryを探しました...jQueryセレクタのツールを使うことができます.のとてもとてもとても使いやすいです...具体的な使い方は上を見てみましょう...このライブラリは将来性がある...</p>
<p><strong>隠れた憂い<br> </strong>pyqueryはlxmlに基づいているので...lxmlの下層はc...なのでgaeでは使えないと思います..私のこの爬虫類は今私のパソコンの上で良いものを登るしかありません...そしてpushをserverに...</p>
<p><strong>まとめ</strong></p>
<p>一言で言えば、私はPythonが大好きです<br> 2つの言叶、私はPythonが好きで、私はDjangoが好きです<br> 3つの言叶、私はPythonが好きで、私はDjangoが好きで、私はjQueryが好きです...lt;br> 四句号,我爱死Python了,我爱死Django了,我爱死jQuery了,我爱死pyQuery了...lt;/p>
<div class="clearfix">
<span id="art_bot"class="jbTestPos"></span>
</div>
</div>
</div>
</div>
</div>
<!--PCとWAPの適応版-->
<div id="SOHUCS"sid="1176180546305339392"></div>
<script type="text/javascript"src="/views/front/js/chanyan.js">
前回お話ししたように、従来のリクエストのたびに爬虫類が目を覚ますので、バックグラウンドからフロントに出力するのに約17秒かかりましたが、今では2秒もかかりません
3.爬虫類の最適化
1. Cron.yamlはプログラムごとに目が覚める時間を手配します
ドキュメントをめくって、質問してやっとgoogleのcronの動作原理が分かりました.-実際にはgoogleが指定した時間ごとに仮想的に私たちが指定したurlにアクセスしているだけです.そのため、Djangoの下で、純粋なpythonプログラムを書く必要はありません.必ず書かないでください.if_name__=="__main__": urlをviewsに配置するだけです.py:
def updatePostsDB(request):
#deleteAll()
SiteInfos=[]
SiteInfo={}
SiteInfo['PostSite']="L2ZStory"
SiteInfo['feedurl']="feed://l2zstory.wordpress.com/feed/"
SiteInfo['blog_type']="wordpress"
SiteInfos.append(SiteInfo)
SiteInfo={}
SiteInfo['PostSite']="YukiLife"
SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1583902832.xml"
SiteInfo['blog_type']="sina"
SiteInfos.append(SiteInfo)
SiteInfo={}
SiteInfo['PostSite']="ZLife"
SiteInfo['feedurl']="feed://ireallife.wordpress.com/feed/"
SiteInfo['blog_type']="wordpress"
SiteInfos.append(SiteInfo)
SiteInfo={}
SiteInfo['PostSite']="ZLife_Sina"
SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1650910587.xml"
SiteInfo['blog_type']="sina"
SiteInfos.append(SiteInfo)
try:
for site in SiteInfos:
feedurl=site['feedurl']
blog_type=site['blog_type']
PostSite=site['PostSite']
PostInfos=getPostInfosFromWeb(feedurl,blog_type)
recordToDB(PostSite,PostInfos)
Msg="Cron Job Done..."
except Exception,e:
Msg=str(e)
return HttpResponse(Msg)
cron.yamlはappに置く.yaml同じレベル:cron:-description:retrieve newest posts url:/task_updatePosts/schedule: every 30 minutes
urlでpyでこれを指さすだけでtask_updatePostsDBがurlを指すといいですね
このcronをデバッグする過程は惨烈で形容できる.のstackoverflowでは、なぜ自分のcronが仕事ができないのかと聞く人がたくさんいました..私も最初は汗だくで頭がつかめませんでした...最后にまぐれにできて、大体のステップも空っぽです.しかしとても素朴です:まず、必ず自分のプログラムがsyntax errorがないことを確保しなければなりません....そして自分でそのurlに手動でアクセスしてみてくださいcronが正常であれば、この時点でタスクが実行されているはずですが、最後に本当にだめならlogを見てみましょう...
2.Datastoreの構成と利用−Using Datastore with Django
私のニーズはここで簡単です-joinがありません...だから私は直接最も粗末なdjango-helperを使いました..このモデルはpyはポイントです.
from appengine_django.models import BaseModel
from google.appengine.ext import db
classPostsDB(BaseModel):
link=db.LinkProperty()
title=db.StringProperty()
author=db.StringProperty()
date=db.DateTimeProperty()
description=db.TextProperty()
postSite=db.StringProperty()
前の2行がポイントの中のポイント...私は最初は無邪気に2行目を書いていませんでした...結局私は2時間以上もかけて何が起こっているのか分からなかった.損得を償わない...読んだり書いたりするときは、くれぐれも忘れないでください...PostDB.put()
最初は、手間を省くためにcronが呼び覚まされるたびに、すべてのデータを削除し、新しく登ったデータを書き直しました...結果...1日後..4万件の読み書き記録があります...毎日無料なのは5万本しかありません...だから挿入する前に更新があるかどうかを見て、あるなら書いて、ないなら書かないようにします.なんとかデータベースの部分ができました...
3.爬虫類の改善:最初は、爬虫類はfeedに与えられた文章に登るだけだった.これで、一つのブログに24*30の文章があれば..せいぜい10編しか取れません...今回、改良版はすべての文章に登ることができます.私はそれぞれ孤独な川陵、韓寒、YukiとZのブログで実験をしました.とても成功しました...その中で孤独な川陵には720+篇の文章があります..漏れなく這い出された.の
import urllib
#from BeautifulSoup import BeautifulSoup
from pyquery import PyQuery as pq
def getArticleList(url):
lstArticles=[]
url_prefix=url[:-6]
Cnt=1
response=urllib.urlopen(url)
html=response.read()
d=pq(html)
try:
pageCnt=d("ul.SG_pages").find('span')
pageCnt=int(d(pageCnt).text()[1:-1])
except:
pageCnt=1
for i in range(1,pageCnt+1):
url=url_prefix+str(i)+".html"
#print url
response=urllib.urlopen(url)
html=response.read()
d=pq(html)
title_spans=d(".atc_title").find('a')
date_spans=d('.atc_tm')
for j in range(0,len(title_spans)):
titleObj=title_spans[j]
dateObj=date_spans[j]
article={}
article['link']= d(titleObj).attr('href')
article['title']= d(titleObj).text()
article['date']=d(dateObj).text()
article['desc']=getPageContent(article['link'])
lstArticles.append(article)
return lstArticles
def getPageContent(url):
#get Page Content
response=urllib.urlopen(url)
html=response.read()
d=pq(html)
pageContent=d("div.articalContent").text()
#print pageContent
return pageContent
def main():
url='http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html'#Han Han
url="http://blog.sina.com.cn/s/articlelist_1225833283_0_1.html"#Gu Du Chuan Ling
url="http://blog.sina.com.cn/s/articlelist_1650910587_0_1.html"#Feng
url="http://blog.sina.com.cn/s/articlelist_1583902832_0_1.html"#Yuki
lstArticles=getArticleList(url)
for article in lstArticles:
f=open("blogs/"+article['date']+"_"+article['title']+".txt",'w')
f.write(article['desc'].encode('utf-8')) #
f.close()
#print article['desc']
if __name__=='__main__':
main()
PyQueryへのおすすめ..残念ながら、BueautifulSoupは私を深く失望させました...私が前の文章を書いたとき、小さなバグがあった.ずっと原因が見つからない.の私が家に帰った後、また多くの时間をかけてBueautifulSoupが私の欲しい内容を捕まえることができなかった理由を理解しようとしました.のその後、selector部分のソースコードを大体見てみると、tagの多くの非規範htmlページの解析が正確ではないと思います...</p>
<p>私はこのライブラリを放棄して、またlxmlを試しました..xpathベースで使いやすいです.のしかし、xpathのものはいつもドキュメントを調べる必要があります.のだから私はまたライブラリPyQueryを探しました...jQueryセレクタのツールを使うことができます.のとてもとてもとても使いやすいです...具体的な使い方は上を見てみましょう...このライブラリは将来性がある...</p>
<p><strong>隠れた憂い<br> </strong>pyqueryはlxmlに基づいているので...lxmlの下層はc...なのでgaeでは使えないと思います..私のこの爬虫類は今私のパソコンの上で良いものを登るしかありません...そしてpushをserverに...</p>
<p><strong>まとめ</strong></p>
<p>一言で言えば、私はPythonが大好きです<br> 2つの言叶、私はPythonが好きで、私はDjangoが好きです<br> 3つの言叶、私はPythonが好きで、私はDjangoが好きで、私はjQueryが好きです...lt;br> 四句号,我爱死Python了,我爱死Django了,我爱死jQuery了,我爱死pyQuery了...lt;/p>
<div class="clearfix">
<span id="art_bot"class="jbTestPos"></span>
</div>
</div>
</div>
</div>
</div>
<!--PCとWAPの適応版-->
<div id="SOHUCS"sid="1176180546305339392"></div>
<script type="text/javascript"src="/views/front/js/chanyan.js">