実戦爬虫類抓取恥事百科ネタ(抓ネタ詳細ページ)

4878 ワード

PYTHON爬虫類 python

まず詳細ページのリンクをつかみ、正しいアドレス

につづる.

詳細ページデータをキャプチャし、不要な文字

を処理する.

正則書の結果が一意でない場合、スライスにより必要なデータ

を取得する.

# !/usr/bin/python
# Filename:        (    ).py
# Data    : 2020/06/15
# Author  : --king--
# ctrl+alt+L        


import requests
import re
import time


#       url
def detail_pages(url):
    headers = {
     
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
    html = requests.get(url, headers=headers)
    text = html.text
    detail_pages = re.findall(r'''.+?''', text, re.VERBOSE | re.DOTALL)
    urls = []
    for detail_page in detail_pages:
        detail_page = 'https://www.qiushibaike.com' + detail_page
        urls.append(detail_page)
    return urls


#         joke
def parse_page(urls):
    for url in urls:
        headers = {
     
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
        html = requests.get(url, headers=headers)
        text = html.text
        #        ,      
        joke = re.findall(r'''.+?(.+?)

''', text, re.VERBOSE | re.DOTALL)
#法案先出力結果に表情リンク

があり、置換
joke = re.sub(r'| | ', '', joke[0])
# jokes = jokes[0].replace('','')
print(joke)
time.sleep(2)
def main():
base_url = 'https://www.qiushibaike.com/text/page/{}/'
for i in range(1, 11):
page_url = base_url.format(i)
detai_page_list = detail_pages(page_url)
parse_page(detai_page_list)
time.sleep(2)
print(i)
break
if __name__ == '__main__':
main()

【LeetCode】76. Minimum Window Substring(C++)

ROSのコールバック関数に引数を増やす