Pythonを使っているウェブサイトをscrapeする方法

2501 ワード

python テキストリンク

1 ) Python仮想環境を作成する

C:\Users\Owner> cd desktop
C:\Users\Owner\desktop> py -m venv scrap
C:\Users\Owner\desktop> cd scrap
C:\Users\Owner\desktop\scrap> Scripts\activate
(scrap)C:\Users\Owner\desktop\scrap>

2 )スクレーシーを取り付ける

(scrap)C:\Users\Owner\desktop\scrap>pip install scrapy

3 )スクレイピープロジェクトを作成する

scrapy startproject myproject

4 )基本的なクモを作成する
spider 1という名前のファイルを作成します.MySQLプロジェクトのPpyフォルダ.
サブクラス、名前、startounds URLを加えて、.readmore <p>タグですべてのテキストを得てください.

import scrapy
class ReviewSpider(scrapy.Spider):
    name = "quicken"
    start_urls = [
    "https://www.creditkarma.com/reviews/mortgage/single/id/quicken-loans-mortgage/",
    ]
    def parse(self, response):
      reviews = response.css('.readmoreInner p::text').getall()
      yield {"text" : reviews}

5 )蜘蛛を動かす

(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken

6 )データを保存する

(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken -o reviews.json

Beginner's Guide to Scrapy for Python

Reference

この問題について(Pythonを使っているウェブサイトをscrapeする方法), 我々は、より多くの情報をここで見つけました https://dev.to/ordinarycoders/how-to-scrape-websites-using-python-28pp

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

textareaボタンクリックで自動的にフォーカスを取得

C言語接続リスト1