分布式爬虫類の概要

1206 ワード

分布式爬虫類の紹介
げんり
1       1     

インプリメンテーション
  • なぜredis
      1、Redis    ,   
      2、Redis       ,Redis   ,    request   
      3、scrapy_redis  
      		sudo pip3 install scrapy_redis
    
  • を使用するのか
    Redis使用
  • windowsインストール
     	1、      :cmd    -> redis-server.exe
     	      :cmd    -> redis-cli.exe
    
  • Ubuntuインストールredis
      #   
      sudo apt-get install redis-server
      #   
      redis-server
      #   
      redis-cli -h IP  
    
  • 分散(redis)に書き換える
  • settings.py
    #   scrapy_redis    
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    #   scrapy_redis     
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    #  ITEM_PIPELINES   redis  
    'scrapy_redis.pipelines.RedisPipeline': 200
    #   redis        
    REDIS_HOST = '172.40.91.129'
    REDIS_PORT = 6379
    
  • 配管
    ITEM_PIPELINES = {
    'Tencent.pipelines.TencentPipeline': 300,
    # 'scrapy_redis.pipelines.RedisPipeline': 200
    'Tencent.pipelines.TencentMongoPipeline':200,
    }
    
  • を修正する
  • Redisデータベース
     Redis     		redis-cli.exe
    flushall