Python爬虫類の教えはScrpyを利用して写真を登ります。

13419 ワード

Scripyダウンロード画像プロジェクトの紹介
Scarapyはウェブサイトのデータをよじ登って構造的なデータを抽出するアプリケーションの枠組みであり、定制化の修正によって異なる爬虫類の需要を満たすことができます。
Scripyを使って画像をダウンロードします。
プロジェクトの作成
まず端末でプロジェクトを作成します。


# win4000    
$ scrapy startproject  win4000

このコマンドは、下記の項目ディレクトリを作成します。
プロジェクトのプレビュー
プロジェクトディレクトリを表示

win 4000

spides

__init_.py

items.py

middlewares.py

pipeline s.py

settings.py

scrapy.cfg

爬虫類ファイルを作成
spidearsフォルダに入り、テンプレートファイルから爬虫類ファイルを作成します。


$ cd win4000/win4000/spiders
# pictures      
$ scrapy genspider pictures "win4000.com"

プロジェクトコンポーネントの紹介
1.エンジン（Scrpy）：コアコンポーネント、処理システムのデータストリーム処理、トリガトランザクション。
2.スケジューラ（Schduler）：エンジンからの要求を受けて、キューに押し込み、エンジンが再度要求された時に戻る。URLからなる優先順位は、次のキャプチャするURLが何かを決定し、重複したURLを削除します。
3.ダウンロード器（Downloader）：ウェブページのコンテンツをダウンロードし、Spideasに戻るために使用されます。
4.爬虫類（Spiders）：特定のページから自分の必要な情報を抽出し、エンティティ（Item）を構築するために使用し、リンクを抽出して、Scripyに次のページをキャプチャし続けることができます。
5.パイプライン（Pipeline）：Spidersがウェブページから抽出したエンティティを処理し、主な機能は持久化エンティティ、検証エンティティの有効性、不要な情報を消去することである。ページがSpidrsで解析されると、プロジェクト配管に送信されます。
6.ダウンロード器中間部品（Downloader Middlewares）：Scarapyエンジンとダウンロード器の間のフレームワークに位置し、主にScarapyエンジンとダウンロード器との間の要求と応答を処理する。
7.爬虫類ミドルウェア（Spider Middlewares）：Scripyエンジンと爬虫類の間のフレームワークで、主な仕事はSpidearsの応答入力と要求出力を処理することです。
8.スケジュール中間件（Schduler Middeweares）：Srapyエンジンとスケジュール間の中間件で、Scrpyエンジンからスケジュールの要求と応答に送信します。
Scripy爬虫類の流れを紹介します。
Scrpyベース・クライミングフローは、UR 2 IM（URL-Request-Reponse-Intem-more URL）として記述されてもよい。
1.エンジンはスケジューラからリンク（URL）を取り出して次のキャプチャに使います。
2.エンジンはURLを一つの要求にカプセル化してダウンロード器に送る。
3.ダウンロード器は資源をダウンロードし、応答パッケージにパッケージ化する。
4.爬虫類解析のResonse；
5.実体（Item）を解析すると、本体配管に引き渡してさらなる処理を行う。
6.解析されたリンク（URL）は、スケジューラにURLを渡してキャプチャを待つ。
ページ構造の分析
まずターゲットページを見ると、複数のテーマを含み、興味のあるテーマを選ぶことができます。このプロジェクトは「風景」を例に挙げています。
目标页面

「風景」の分類ページでは、各ページに複数のテーマが含まれており、開発者ツールを利用して、それぞれのテーマのURLを確認し、対応するXPTathをコピーし、Xpathの法則性を利用して、循環を構築し、各テーマの内容を登ることができます。
在这里插入图片描述


#        XPath
# /html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li[1]/a
# /html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li[2]/a

上記の結果を用いて、li[index]におけるindexは、特定のテーマのシーケンスであることがわかる。したがって、Xpathリストを構築することができます。


item_selector = response.xpath('/html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li/a/@href')

開発者ツールを利用して、次のページのURLを確認し、対応するXPSをコピーして次のページの内容を取り込むことができます。
在这里插入图片描述


#   “   ” XPath
# /html/body/div[3]/div/div[3]/div[1]/div[2]/div/a[5]

このため、次のようなXPSを構築することができます。


next_selector = response.xpath('//a[@class="next"]')

クリックして特定のテーマに入ると、具体的な画像が見られます。
在这里插入图片描述


#     XPath
response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()

図表番号と図表番号で画像名を構築することができます。
在这里插入图片描述


#     XPath           
index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
#     XPath      
title = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first()
#       title   index     
name = title + '_' + index + '.jpg'

同時に見ることができます。特定のテーマページには、複数の画像が含まれています。「次の」ボタンをクリックすることで次のページのURLを取得できます。ここでは、山登りプロセスを簡略化するために、URLの法則を観察することで、各ピクチャの詳細ページのURLを構築し、画像をダウンロードすることができます。
在这里插入图片描述


#           
# http://www.win4000.com/wallpaper_detail_45401.html
#           
# http://www.win4000.com/wallpaper_detail_45401_2.html

したがって、最初のページアドレスと画像番号により、各ピクチャ詳細ページアドレスを構築することができる。


#           
first_url = response.url
#     
num = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/em/text()').extract_first()
num = int(num)
for i in range(2,num+1):
    next_url = '.'.join(first_url.split('.')[:-1]) + '_' + str(i) + '.html'

Itemフィールドを定義する(Items.py)
本プロジェクトは画像をダウンロードするために使用されますので、画像名と画像アドレスフィールドのみを構築することができます。


# win4000/win4000/items.py
import scrapy

class Win4000Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = scrapy.Field()
    name = scrapy.Field()

爬虫類ファイルの作成(pictures.py)
コードの詳細はコードコメントを参照してください。


# win4000/win4000/spiders/pictures.py
import scrapy
from win4000.items import Win4000Item
from urllib import parse
import time

class PicturesSpider(scrapy.Spider):
    name = 'pictures'
    allowed_domains = ['win4000.com']
    start_urls = ['http://www.win4000.com/zt/fengjing.html']
    
    start_urls = ['http://www.win4000.com/zt/fengjing.html']
    # cookie         
    cookie={
                "t":"29b7c2a8d2bbf060dc7b9ec00e75a0c5",
                "r":"7957",
                "UM_distinctid":"178c933b40e9-08430036bca215-7e22675c-1fa400-178c933b40fa00",
                "CNZZDATA1279564249":"1468742421-1618282415-%7C1618282415",
                "XSRF-TOKEN":"eyJpdiI6Ik8rbStsK1Fwem5zR2YzS29ESlI2dmc9PSIsInZhbHVlIjoiaDl5bXp5b1VvWmdSYklWWkEwMWJBK0FaZG9OaDA1VGQ2akZ0RDNISWNDM0hnOW11Q0JTVDZFNlY4cVwvSTBjQlltUG9tMnFUcWd5MzluUVZ0NDBLZlJuRWFuaVF0U3k0XC9CU1dIUzJybkorUEJ3Y2hRZTNcL0JqdjZnWjE5SXFiNm8iLCJtYWMiOiI2OTBjOTkzMTczYWQwNzRiZWY5MWMyY2JkNTQxYjlmZDE2OWUyYmNjNDNhNGYwNDAyYzRmYTk5M2JhNjg5ZmMwIn0%3D",
                "win4000_session":"eyJpdiI6Inc2dFprdkdMTHZMSldlMXZ2a1cwWGc9PSIsInZhbHVlIjoiQkZHVlNYWWlET0NyWWlEb2tNS0hDSXAwZGVZV05vTmY0N0ZiaFdTa1VRZUVqWkRmNWJuNGJjNkFNa3pwMWtBcFRleCt4SUFhdDdoYnlPMGRTS0dOR0tkdmVtVDhzUWdTTTc3YXpDb0ZPMjVBVGJzM2NoZzlGa045Qnl0MzRTVUciLCJtYWMiOiI2M2VmMTEyMDkxNTIwNmJjZjViYTg4MjIwZGIxNTlmZWUyMTJlYWZhNjk5ZmM0NzgyMTA3MWE4MjljOWY3NTBiIn0%3D"
            }
    
    def start_requests(self):
        """
          start_requests  ，      cookie   ，       
        """
        yield scrapy.Request('http://www.win4000.com/zt/fengjing.html', callback=self.parse, cookies=self.cookie)

    def parse(self,response):
    	#          
        next_selector = response.xpath('//a[@class="next"]')
        for url in next_selector.xpath('@href').extract():
            url = parse.urljoin(response.url,url)
            #     ，          
            time.sleep(3)
            #        
            yield scrapy.Request(url, cookies=self.cookie)
        #             
        item_selector = response.xpath('/html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li/a/@href')
        for item_url in item_selector.extract():
            item_url = parse.urljoin(response.url,item_url)
            #print(item_url)
            time.sleep(3)
            #       ，       callback      
            yield scrapy.Request(item_url,callback=self.parse_item, cookies=self.cookie)
            
    def parse_item(self,response):
        """
                
        """
        #   Scrapy           ，
        #               ，        ，
        #                      
        #       
        item = Win4000Item()
        item['url'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()
        index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
        item['name'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first() + '_' + index + '.jpg'
        yield item
        first_url = response.url
        num = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/em/text()').extract_first()
        num = int(num)
        for i in range(2,num+1):
            next_url = '.'.join(first_url.split('.')[:-1]) + '_' + str(i) + '.html'
            #       ，      self.parse_detail    
            yield scrapy.Request(next_url,callback=self.parse_detail,cookies=self.cookie)

    def parse_detail(self,response):
        """
                ，    
        """
        item = Win4000Item()
        item['url'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()
        index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
        item['name'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first() + '_' + index + '.jpg'
        yield item

プロファイルsettings.pyを変更します。win4000/win4000/settings.pyにおける以下の項目を修正する。


BOT_NAME = 'win4000'

SPIDER_MODULES = ['win4000.spiders']
NEWSPIDER_MODULE = 'win4000.spiders'
#        
IMAGES_STORE = './result'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#          
USER_AGENT = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:87.0) Gecko/20100101 Firefox/87.0'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#     
DOWNLOAD_DELAY = 3

# Disable cookies (enabled by default)
#     Cookie
COOKIES_ENABLED = True

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'win4000.pipelines.Win4000Pipeline': 300,
}

パイプファイルのpipeline s.pyを変更して写真をダウンロードします。win4000/win4000/pipelines.pyファイルを修正します。


from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import scrapy
import os
from scrapy.exceptions import DropItem

class Win4000Pipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        #     ，               
        # meta       spider  ，    meta       ：file_path
        yield scrapy.Request(url=item['url'],meta={'name':item['name']})

    def item_completed(self, results, item, info):
        #      ，               
        if not results[0][0]:
            with open('img_error_name.txt','a') as f_name:
                error_name = str(item['name'])
                f_name.write(error_name)
                f_name.write('
')

            with open('img_error_url.txt','a') as f_url:
                error_url = str(item['url'])
                f_url.write(error_url)
                f_url.write('
')
                raise DropItem('    ')
        return item

     #    ，       ，      ，           
    def file_path(self, request, response=None, info=None):
        #     meta         
        filename = request.meta['name']
        return filename

爬虫類起動ファイルを作成するbegin.pywin4000ディレクトリでBegin.pyを作成します。


# win4000/begin.py
from scrapy import cmdline

cmdline.execute('scrapy crawl pictures'.split())

最終ディレクトリツリー

win 4000

begin.py

win 4000

spides

__init_.py

pictures.py

__init_.py

items.py

middlewares.py

pipeline s.py

settings.py

scrapy.cfg

プロジェクト実行begin.pyの所在目録に入り、プログラムを実行し、scrapyを起動して爬虫類を行う。


$ python3 begin.py

登って結果を出す

後記
本プロジェクトはテスト用途のみに使用します。
Enjoy coding.
ここでPython爬虫類についての教えはScrpyを利用して写真を取る文章をここに紹介します。もっと関連のpythonの中でScrrapyを使って画像の内容を登ってください。以前の文章を検索したり、次の関連記事を見たりしてください。これからもよろしくお願いします。

北京オリンピック公式サイトのスライド切り替え効果flash版のパッケージダウンロード

ホームページコード常用小技巧まとめ第1/3ページ