Scrapy爬虫類シリーズノートの6:itemを使用し、得られたデータを保存および処理するby_書欣

1532 ワード

カタログのアウトライン、つまりメモの第1編を参照して、大まかなルートを理解した後、ブログを閲覧することをお勧めします.どの章の分岐もはっきりしている.
2.3得られたデータを保存する
1つのurlのコンテンツをダウンロードし,セレクタを用いて選択してコンテンツを得た.私たちが得たコンテンツをどのように保存すればいいですか?
手順は以下の通りです:1.itemsで独自のitemをカスタマイズ
class ArticleItem(scrapy.Item):
 title = scrapy.Field()
 field = scrapy.Field()
 time = scrapy.Field()
 tag = scrapy.Field()

2.parse関数でitemクラスをインスタンス化し、データを埋め込む
from ArticleSpiser.item import ArticleItem
def parse(self,response):
 article_item = ArticleItem()
 '''
     
             title,field,time,tag  
 '''
 #    
 article_item["title"] = title
 article_item["field"] = field
 article_item["time"] = time
 article_item["tag"] = tag
 yeild article_item

3.これによりitemオブジェクトyeildがpipelinesに渡されます.pipelineで操作すれば、データのファイルへの格納が可能になります.データベースではファイルの保存やデータベースの格納は展開されません.データの多くは、静的なWebサイトの抽出やデータの格納を完了します.メモ1~10リンクhttp://blog.csdn.net/sx_csu2016sw/article/details/79284369 http://blog.csdn.net/sx_csu2016sw/article/details/79284427 http://blog.csdn.net/sx_csu2016sw/article/details/79284449 http://blog.csdn.net/sx_csu2016sw/article/details/79284469 http://blog.csdn.net/sx_csu2016sw/article/details/79284481 http://blog.csdn.net/sx_csu2016sw/article/details/79284491 http://blog.csdn.net/sx_csu2016sw/article/details/79284509 http://blog.csdn.net/sx_csu2016sw/article/details/79284525 http://blog.csdn.net/sx_csu2016sw/article/details/79284547 http://blog.csdn.net/sx_csu2016sw/article/details/79284567