Python乾物:Scrapyで電子商取引サイトに登る

4322 ワード

電子商取引のボス、マネージャーは自分の経営するウェブサイトに登る必要があるかもしれません.目的はホームページを監視し、ウェブサイトの流量を追跡し、最適化の機会を探すことです.
各項目について、Webサイトの監視を支援するには、離散ツール、ネットワークキャプチャツール、およびサービスを使用します.比較的少ない開発作業で、独自のサイト爬網プログラムとサイト監視システムを作成できます.
カスタム爬虫類サイトとモニタを構築し、Webサイトのすべてのページのリストを簡単に取得します.ここでは、Pythonプログラミング言語とScrapyというきれいなWeb爬網フレームワークを使用して、これらのページのリストを簡単に生成する方法について説明します.
サーバー、Python、Scrapyが必要です
これは開発プロジェクトです.PythonとScrapyのサーバーをインストールする必要があります.端末アプリケーションまたはSSHクライアントを介してサーバのコマンドラインにアクセスする必要がある.Pythonからもorgのドキュメントセクションでは、Pythonのインストールに関する情報を取得します.Scrapyのウェブサイトには良いインストールドキュメントがあります.サーバーがPythonとScrapyをインストールする準備ができていることを確認してください.
Scrapyプロジェクトの作成
Putty for WindowsのようなSSHクライアントやMac、Linuxコンピュータ上の端末アプリケーションを使用して、Scrapyプロジェクトを保持するディレクトリに移動します.内蔵のScrapyコマンドstartprojectを使用すると、必要な基本ファイルをすばやく生成できます.
この文書では、Business Idea Dailyという名前のWebサイトをキャプチャし、プロジェクトの名前をbidとします.
新しいScrapy Web Spiderを生成
便宜上、Scrapyにはもう一つのコマンドラインツールがあり、新しいWeb Spiderを自動的に生成することができます.scrapy genspider -t crawl getbid businessideadaily.com
最初の用語、scrapy、Scrapyフレームワークを参照してください.次にgenspiderコマンドがあり、Scrapyに新しいweb spiderがほしいか、あるいは、よろしければ、新しいネットワーク爬虫類がほしいと伝えています.
-tはScrapyに特定のテンプレートを選択したいと伝えた.genspiderコマンドは、basic、crawl、csvfeed、xmlfeedの4つの汎用Web Spiderテンプレートのいずれかを生成します.直接-tの後、希望するテンプレートを指定しました.この例では、ScrapyによってCrawlSpiderと呼ばれるテンプレートを作成します.「getbid」という言葉がspiderの名前です.
このコマンドの最後の部分は、Scrapyがどのサイトをキャプチャしたいかを教えてくれます.フレームワークは、新しいspiderのパラメータを埋め込むために使用されます.
Itemsの定義
Scrapyでは、Itemsは私たちのspiderを組織して特定のサイトを這うときに物を収集する方法/モデルです.特定のWebサイトのすべてのページのリストを取得する-Itemsを使用しない-ターゲットを簡単に達成できますが、後で爬虫類を拡張したい場合は、Itemsを使用しないと制限される可能性があります.
Itemを定義するには、プロジェクトを生成するときに作成したScrapyのitemsを開くだけです.pyファイル.ここにBidItemというクラスがあります.クラス名は、プロジェクトに提供された名前に基づいています.
`class BidItem(scrapy.Item):
define the fields for your item here like:
name = scrapy.Field()
pass`
urlという名前の新しいフィールドの定義をpassに置き換えます.url = scrapy.Field()
作成したドキュメントを保存
Web Spiderの構築
次に、プロジェクト内のクモディレクトリを開き、生成された新しいSpider Scrapyを検索します.この例では、このクモはgetbidと呼ばれているので、ファイルはgetbidです.py.
エディタでこのファイルを開くと、次のように表示されます.# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from bid.items import BidItem class GetbidSpider(CrawlSpider): name = 'getbid' allowed_domains = ['businessideadaily.com'] start_urls = ['http://www.businessideadaily.com/'] rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) def parse_item(self, response): i = BidItem() #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract() #i['name'] = response.xpath('//div[@id="name"]').extract() #i['description'] = response.xpath('//div[@id="description"]').extract() return i
私たちが生成したコードScrapyにいくつかの小さな変更が必要です.まず、LinkExtractorのパラメータをルールの下で変更する必要があります.かっこ内のすべての内容を削除します.Rule(LinkExtractor(), callback='parse_item', follow=True),
この更新により、spiderは開始ページ(ホームページ)に各リンクを見つけ、parse_に単一のリンクを渡します.itemメソッドは、Webサイトの次のページへのリンクに従って、各リンクページを取得することを確認します.
次にparse_を更新する必要がありますitemメソッド.すべてのコメント行を削除します.これらの線はScrapyが提供してくれた例にすぎません.def parse_item(self, response): i = BidItem() return i
意味のある変数名を使うのが好きです.だからiをhrefに変更します.これはHTMLリンクの属性の名前です.もしあれば、ターゲットリンクのアドレスを保存します.def parse_item(self, response): href = BidItem() return href
奇跡が起こりました.ページURLはItemsです.def parse_item(self, response): href = BidItem() href['url'] = response.url return href
これでいいです.新しいSpiderはもう登る準備ができています.
Webサイトのキャプチャ、データの取得
コマンドラインから、プロジェクトディレクトリにナビゲートします.このディレクトリに入ると、新しいクモを送信し、ページリストを取得するための簡単なコマンドを実行します.scrapy crawl getbid -o 012916.csv
このコマンドにはいくつかの部分があります.まず、Scrapyフレームワークを参照します.私たちはScrapyに登りたいと言った.getbidクモを使用することを指定します.
-oはScrapyに結果を出力するように伝えます.このコマンドの012916.csvセクションでは、Scrapyに結果をカンマ区切り値(.csv)ファイルに格納するように伝えます.
例では、Scrapyは3つのページアドレスを返します.私がこの例のためにこのサイトを選んだ理由の一つは、数ページしかないからです.数千ページのウェブサイトで似たようなクモを狙うと、実行に時間がかかりますが、似たような応答が返されます.
url
businessideadaily.com/auth/login
businessideadaily.com/
businessideadaily.com/password/em…
数行のコードだけで、独自のサイト監視アプリケーションの基礎を築くことができます.
本論文はデータ星河オリジナル
転載先:https://juejin.im/post/5b8dfd21f265da432008af71