Python scrapyは蘇州中古住宅取引データを取得します。
一、プロジェクトの需要
Srapyを使ってチェーンの家ネットの中で蘇州市の中古の部屋の取引のデータを登ってそしてCSVファイルの中で保存します。
要求:
住宅面積、総価格と単価は具体的な数字だけが必要で、単位の名称は必要ありません。
フィールドの不完全な住宅データを削除します。ある部屋の向きには「データがありません」と表示されます。削除すべきです。
CSVファイルに保存されたデータは、フィールドは以下の順序で並べられます。住宅の名前、住宅のタイプ、建築面積、住宅の向き、内装の状況、エレベーターがありますか?
二、プロジェクト分析
フローチャート
コンソールを通じて、すべての住宅情報は1つのulの中で、それぞれのliに部屋の情報を格納していることを発見しました。
必要なフィールドを探しましたが、ここでは住宅の名前を例にとって、ブロガーはlinuxでスクリーンショットして、写真を表示することができませんでした。この区間は真ん中の「景山バラ園」です。
他のフィールドも同様です。これ以上列挙しません。
必要なデータを取得したらエレベーターの装備がないことが分かりました。詳細ページ、つまりタイトルをクリックしてから入るページが必要です。
タイトルをクリックします
中に必要な情報があります。
詳細ページをつかむ
詳細ページのデータ分析を行います。
該当する位置を見つけてデータを取り込む。
三、プログラミング
プロジェクトを作成します。
1.item(データストア)の作成
ここには修正が必要なところだけ書いてください。
5.startを作成する(コマンドラインの代わりに)
締め括りをつける
今回のプロジェクトには簡単なデータ洗浄が追加されました。全体のデータキャプチャには新しい難易度が追加されていません。
ここでPython scrapyについて蘇州中古住宅の取引データを取得した記事を紹介します。多くの関連scrapyは中古住宅の取引データの内容を取得します。以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。
Srapyを使ってチェーンの家ネットの中で蘇州市の中古の部屋の取引のデータを登ってそしてCSVファイルの中で保存します。
要求:
住宅面積、総価格と単価は具体的な数字だけが必要で、単位の名称は必要ありません。
フィールドの不完全な住宅データを削除します。ある部屋の向きには「データがありません」と表示されます。削除すべきです。
CSVファイルに保存されたデータは、フィールドは以下の順序で並べられます。住宅の名前、住宅のタイプ、建築面積、住宅の向き、内装の状況、エレベーターがありますか?
二、プロジェクト分析
フローチャート
コンソールを通じて、すべての住宅情報は1つのulの中で、それぞれのliに部屋の情報を格納していることを発見しました。
必要なフィールドを探しましたが、ここでは住宅の名前を例にとって、ブロガーはlinuxでスクリーンショットして、写真を表示することができませんでした。この区間は真ん中の「景山バラ園」です。
他のフィールドも同様です。これ以上列挙しません。
必要なデータを取得したらエレベーターの装備がないことが分かりました。詳細ページ、つまりタイトルをクリックしてから入るページが必要です。
タイトルをクリックします
中に必要な情報があります。
詳細ページをつかむ
詳細ページのデータ分析を行います。
該当する位置を見つけてデータを取り込む。
三、プログラミング
プロジェクトを作成します。
1.item(データストア)の作成
import scrapy
class LianjiaHomeItem(scrapy.Item):
name = scrapy.Field() #
type = scrapy.Field() #
area = scrapy.Field() #
direction = scrapy.Field() #
fitment = scrapy.Field() #
elevator = scrapy.Field() #
total_price = scrapy.Field() #
unit_price = scrapy.Field() #
2.spider(データキャプチャ)の作成
from scrapy import Request
from scrapy.spiders import Spider
from lianjia_home.items import LianjiaHomeItem
class HomeSpider(Spider):
name = "home"
current_page=1 #
def start_requests(self): #
url="https://su.lianjia.com/ershoufang/"
yield Request(url=url)
def parse(self, response): #
list_selctor=response.xpath("//li/div[@class='info clear']")
for one_selector in list_selctor:
try:
#
name=one_selector.xpath("//div[@class='flood']/div[@class='positionInfo']/a/text()").extract_first()
#
other=one_selector.xpath("//div[@class='address']/div[@class='houseInfo']/text()").extract_first()
other_list=other.split("|")
type=other_list[0].strip(" ")#
area = other_list[1].strip(" ") #
direction=other_list[2].strip(" ") #
fitment=other_list[3].strip(" ") #
price_list=one_selector.xpath("div[@class='priceInfo']//span/text()")
#
total_price=price_list[0].extract()
#
unit_price=price_list[1].extract()
item=LianjiaHomeItem()
item["name"]=name.strip(" ")
item["type"]=type
item["area"] = area
item["direction"] = direction
item["fitment"] = fitment
item["total_price"] = total_price
item["unit_price"] = unit_price
#
url = one_selector.xpath("div[@class='title']/a/@href").extract_first()
yield Request(url=url,
meta={"item":item}, # item v
callback=self.property_parse) #
except:
print("error")
#
self.current_page+=1
if self.current_page<=100:
next_url="https://su.lianjia.com/ershoufang/pg%d"%self.current_page
yield Request(url=next_url)
def property_parse(self,response):#
#
elevator=response.xpath("//div[@class='base']/div[@class='content']/ul/li[last()]/text()").extract_first()
item=response.meta["item"]
item["elevator"]=elevator
yield item
3.pipelinesを作成する(データ処理)
import re
from scrapy.exceptions import DropItem
class LianjiaHomePipeline:#
def process_item(self, item, spider):
#
item["area"]=re.findall("\d+\.?\d*",item["area"])[0] #
#
item["unit_price"] = re.findall("\d+\.?\d*", item["unit_price"])[0] #
# ,
if item["direction"] ==" ":
raise DropItem(" , :%s"%item)
return item
class CSVPipeline(object):
file=None
index=0 #csv
def open_spider(self,spider): # , csv
self.file=open("home.csv","a",encoding="utf=8")
def process_item(self, item, spider):# 。
if self.index ==0:
column_name="name,type,area,direction,fitment,elevator,total_price,unit_price
"
self.file.write(column_name)#
self.index=1
home_str=item["name"]+","+item["type"]+","+item["area"]+","+item["direction"]+","+item["fitment"]+","+item["elevator"]+","+item["total_price"]+","+item["unit_price"]+"
"
self.file.write(home_str) #
return item
def close_soider(self,spider):# csv
self.file.close()
4.settingsを作成する(爬虫類設定)ここには修正が必要なところだけ書いてください。
USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
#
ROBOTSTXT_OBEY = False # robots
ITEM_PIPELINES = {
'lianjia_home.pipelines.LianjiaHomePipeline': 300,
#
'lianjia_home.pipelines.CSVPipeline': 400
#
#
}
これらの内容はsettingsではデフォルトでクローズされているものもあります。コメント用の菗を除いて開けます。5.startを作成する(コマンドラインの代わりに)
from scrapy import cmdline
cmdline.execute("scrapy crawl home" .split())
結果図を2枚添付します。締め括りをつける
今回のプロジェクトには簡単なデータ洗浄が追加されました。全体のデータキャプチャには新しい難易度が追加されていません。
ここでPython scrapyについて蘇州中古住宅の取引データを取得した記事を紹介します。多くの関連scrapyは中古住宅の取引データの内容を取得します。以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。