pythonマルチスレッドマルチキュー(BeautifulSoupネットワーク爬虫類)
プログラムの大まかな内容は以下の通りです.
プログラムの中で2つのキューを設定してそれぞれqueueのためにウェブサイトを保存して、out_Queueは、Webページのソースコードを格納します.
ThreadUrlスレッドは、キューqueueのURLのソースコードurlopenをout_に格納する責任を負います.Queueキューにあります.
DatamineThreadスレッドはBeautifulSoupモジュールを使用してout_からQueueページのソースコードから所望のコンテンツを抽出して出力する.
これは基本的なフレームワークにすぎず、必要に応じて拡張を続けることができます.
プログラムには詳しい注釈がありますが、問題があればひざまずいて指摘してください.
プログラムの中で2つのキューを設定してそれぞれqueueのためにウェブサイトを保存して、out_Queueは、Webページのソースコードを格納します.
ThreadUrlスレッドは、キューqueueのURLのソースコードurlopenをout_に格納する責任を負います.Queueキューにあります.
DatamineThreadスレッドはBeautifulSoupモジュールを使用してout_からQueueページのソースコードから所望のコンテンツを抽出して出力する.
これは基本的なフレームワークにすぎず、必要に応じて拡張を続けることができます.
プログラムには詳しい注釈がありますが、問題があればひざまずいて指摘してください.
import Queue
import threading
import urllib2
import time
from BeautifulSoup import BeautifulSoup
hosts = ["http://yahoo.com","http://taobao.com","http://apple.com",
"http://ibm.com","http://www.amazon.cn"]
queue = Queue.Queue()#
out_queue = Queue.Queue()#
class ThreadUrl(threading.Thread):
def __init__(self,queue,out_queue):
threading.Thread.__init__(self)
self.queue = queue
self.out_queue = out_queue
def run(self):
while True:
host = self.queue.get()
url = urllib2.urlopen(host)
chunk = url.read()
self.out_queue.put(chunk)# hosts out_queue
self.queue.task_done()#
class DatamineThread(threading.Thread):
def __init__(self,out_queue):
threading.Thread.__init__(self)
self.out_queue = out_queue
def run(self):
while True:
chunk = self.out_queue.get()
soup = BeautifulSoup(chunk)# title
print soup.findAll(['title'])
self.out_queue.task_done()
start = time.time()
def main():
for i in range(5):
t = ThreadUrl(queue,out_queue)# out_queue
t.setDaemon(True)#
t.start()
# queue
for host in hosts:
queue.put(host)
for i in range(5):
dt = DatamineThread(out_queue)# <title>
dt.setDaemon(True)
dt.start()
queue.join()# ,
out_queue.join()
main()
print "Total time :%s"%(time.time()-start)