Python入門教程!超簡単:マルチスレッドはHTTP代理ip技術の量産を呼び出して1080 P妹図を取得します.


Pythonはオブジェクト指向の解釈型プログラミング言語で、ソースコードと解釈器CPythonはGPLプロトコルを遵守し、Python文法は簡潔で明瞭です.爬虫類の技能をマスターして、後続の大きいデータの分析、発掘、機械の学習などのために重要なデータの源を提供することができます.
【Python実戦】効率アップ!超簡単:マルチスレッドはHTTP代理のip技術の量産を呼び出してお姉さんの美図を取りに行きます.
環境の準備
  • requests:http要求によりページ
  • を取得する.
  • lxml:pythonの解析ライブラリです.HTMLとXMLの解析をサポートしています.XPS解析方式をサポートしています.しかも、解析効率が非常に高いです.
  • Beautiful Soup 4:HTMLまたはXMLファイルからデータを抽出して端末に以下のpipコマンドをそれぞれ入力してインストールしてもいいです.
    python -m pip install beautifulsoup4
    python -m pip install lxml
    python -m pip install requests
    
    構想を実現する
    Pythonのurllibモジュールを利用してウェブページのすべてのコンテンツを取得し、Pythonのreモジュールを利用してウェブページの正則分析を行い、目標の壁紙を見つけたらPythonのurllibモジュールを利用して壁紙ダウンロードを行い、特定のフォルダに保存してこのフォルダを壁紙にして、システム壁紙を毎日自動的に更新することができます.
    HTTPプロキシIPを抽出する
  • は、抽出フォーマット、ip数、プロトコル、ポートなどのパラメータPython入门教程!超简单:多线程调用HTTP代理ip技术批量爬取1080P妹子图_第1张图片
  • を独自に選択する.
  • は、APIリンクを生成し、HTTP GET要求を呼び出して、必要なIP結果を返すことができる*必要なAPI Python入门教程!超简单:多线程调用HTTP代理ip技术批量爬取1080P妹子图_第2张图片
  • を、直接に以下のフォーマットに従って組み立てることができる.
    コードの実装
    #     1920 1080      
    def handleImgs(links, path):
        for link in links:
            href = link.get('href')
            if(href == 'http://pic.netbian.com/'): #       
                continue
    
            #      
            if('http://' in href): #                 
                url = href
            else:
                url = index + href
            select = 'div#main div.endpage div.pic div.pic-down a'
            link = screen(url, select)
            if(link == []):
                print(url + '     ,    ')
                continue
            href = link[0].get('href')
    
            #      
            url = index + href
    
            #       
            select = 'div#main table a img'
            link = screen(url, select)
            if(link == []):
                print(url + "            ,    ")
                continue
            name = link[0].get('alt').replace('\t', '').replace('|', '').replace(':', '').replace('\\', '').replace('/', '').replace('*', '').replace('?', '').replace('"', '').replace(', '').replace('>', '')
            print(name) #           
            src = link[0].get('src')
            if(requests.get(src).status_code == 404):
                print(url + '        404,    ')
                print()
                continue
            print()
            download(src, name, path)
            time.sleep(interval)
    #     
    def download(src, name, path):
        if(isinstance(src, str)):
            response = requests.get(src)
            path = path + '/' + name + '.jpg'
            while(os.path.exists(path)): #       
                path = path.split(".")[0] + str(random.randint(2, 17)) + '.' + path.split(".")[1]
            with open(path,'wb') as pic:
                for chunk in response.iter_content(128):
                    pic.write(chunk)