pythonマルチスレッドマルチキュー(BeautifulSoupネットワーク爬虫類)


プログラムの大まかな内容は以下の通りです.
プログラムの中で2つのキューを設定してそれぞれqueueのためにウェブサイトを保存して、out_Queueは、Webページのソースコードを格納します.
ThreadUrlスレッドは、キューqueueのURLのソースコードurlopenをout_に格納する責任を負います.Queueキューにあります.
DatamineThreadスレッドはBeautifulSoupモジュールを使用してout_からQueueページのソースコードから所望のコンテンツを抽出して出力する.
これは基本的なフレームワークにすぎず、必要に応じて拡張を続けることができます.
プログラムには詳しい注釈がありますが、問題があればひざまずいて指摘してください.
import Queue
import threading
import urllib2
import time
from BeautifulSoup import BeautifulSoup

hosts = ["http://yahoo.com","http://taobao.com","http://apple.com",
         "http://ibm.com","http://www.amazon.cn"]

queue = Queue.Queue()#       
out_queue = Queue.Queue()#         

class ThreadUrl(threading.Thread):
    def __init__(self,queue,out_queue):
        threading.Thread.__init__(self)
        self.queue = queue
        self.out_queue = out_queue

    def run(self):
        while True:
            host = self.queue.get()
            url = urllib2.urlopen(host)
            chunk = url.read()
            self.out_queue.put(chunk)# hosts      out_queue
            self.queue.task_done()#             

class DatamineThread(threading.Thread):
    def __init__(self,out_queue):
        threading.Thread.__init__(self)
        self.out_queue = out_queue

    def run(self):
        while True:
            chunk = self.out_queue.get()
            soup = BeautifulSoup(chunk)#       title     
            print soup.findAll(['title'])
            self.out_queue.task_done()

start = time.time()
def main():
    for i in range(5):
        t = ThreadUrl(queue,out_queue)#                out_queue   
        t.setDaemon(True)#       
        t.start()

    #       queue   
    for host in hosts:
        queue.put(host)

    for i in range(5):
        dt = DatamineThread(out_queue)#              <title>      
        dt.setDaemon(True)
        dt.start()

    queue.join()#      ,       
    out_queue.join()

main()
print "Total time :%s"%(time.time()-start)