scrapy学習ノート2---scrapyの基本コマンド
1.crawlコマンドなどのavailableは、scrapy projectルートディレクトリの下にのみ存在するscrapyコマンドがあります.
2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834
spiderディレクトリの下でtaobaoを自動的に生成する.py
他のテンプレートも使えます
scrapy genspider taobao2 http://detail.tmall.com/item.htm?id=12577759834 --template=crawl
3.現在のプロジェクトのすべてのspiderをリストする:scrapy list
4.viewコマンドブラウザでのWebコンテンツの表示
scrapy view http://www.example.com/some/page.html
5.表示設定
scrapy settings --get BOT_NAME
6.プロジェクトを作成する必要がなく、含まれているspiderから実行
scrapy runspider
7.scrapy projectの配置:scrapy deploy
spiderを導入するには、まずspiderのserver環境が必要です.一般的にscrapydを使用します.
scrapydのインストール:pip install scrapyd
ドキュメント:http://scrapyd.readthedocs.org/en/latest/install.html
8.使用可能なすべてのコマンド
C:\Users\IBM_ADMIN\PycharmProjects\pycrawl\project004>scrapy
Scrapy 0.24.4 - project: project004
Usage:
scrapy [options] [args]
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
deploy Deploy project in Scrapyd target
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834
spiderディレクトリの下でtaobaoを自動的に生成する.py
# -*- coding: utf-8 -*-
import scrapy
class TaobaoSpider(scrapy.Spider):
name = "taobao"
allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"]
start_urls = (
'http://www.http://detail.tmall.com/item.htm?id=12577759834/',
)
def parse(self, response):
pass
他のテンプレートも使えます
scrapy genspider taobao2 http://detail.tmall.com/item.htm?id=12577759834 --template=crawl
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from project004.items import Project004Item
class Taobao2Spider(CrawlSpider):
name = 'taobao2'
allowed_domains = ['http://detail.tmall.com/item.htm?id=12577759834']
start_urls = ['http://www.http://detail.tmall.com/item.htm?id=12577759834/']
rules = (
Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
)
def parse_item(self, response):
i = Project004Item()
#i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
#i['name'] = response.xpath('//div[@id="name"]').extract()
#i['description'] = response.xpath('//div[@id="description"]').extract()
return i
3.現在のプロジェクトのすべてのspiderをリストする:scrapy list
4.viewコマンドブラウザでのWebコンテンツの表示
scrapy view http://www.example.com/some/page.html
5.表示設定
scrapy settings --get BOT_NAME
6.プロジェクトを作成する必要がなく、含まれているspiderから実行
scrapy runspider
7.scrapy projectの配置:scrapy deploy
spiderを導入するには、まずspiderのserver環境が必要です.一般的にscrapydを使用します.
scrapydのインストール:pip install scrapyd
ドキュメント:http://scrapyd.readthedocs.org/en/latest/install.html
8.使用可能なすべてのコマンド
C:\Users\IBM_ADMIN\PycharmProjects\pycrawl\project004>scrapy
Scrapy 0.24.4 - project: project004
Usage:
scrapy
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
deploy Deploy project in Scrapyd target
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy