selenium 3.0.1 chromeを使用して、代理ipを設定してよじ登ります.

2486 ワード

仕事は宝を洗う情報を登って宝の宝物の評論を発見しなければならなくて、および日の猫の宝を洗う店の信用情報のページの中のデータはすべて暗号化したのです.
今年の上半期は登山する時もいいです.直接にjsを分析すればクッキーを書くことができます.seleniumを使うしかないです.
本来はphantomjsを使っていますが、代理ipは設定できません.たくさん登れば、宝を洗ってipを封鎖されます.
先日インターネットでいくつかの文章を見ましたが、firefoxを使いたいですが、結果はどうなりましたか?公式文書を見てchromeを使ってコンピュータを申請しました.selenium+chromeで情報を取りに来ました.
seleniumを取り付ける
pip install selenium
バージョンは3.0.1です
chromeとchromeDriverをインストールします.
chromeをインストールして、chromeDriverはここに行ってchromeDriverのバージョンをダウンロードして、あなたの本機chromeバージョンをサポートするchromeDriverを選択します.
ナイマです.win 32バージョンのchromeDriverしかないですが、64 bitのwin 7と64 bitのchromeです.
chromedriver.exeをダウンロードして、chromeディレクトリの下に置いてください.(chrome.exeとディレクトリ)そしてシステム環境変数の中でchromeディレクトリをパスに入れます.
from selenium import webdriver
driver = webdriver.Chrome(executable_path="C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe")
driver.get(taobao_url)                        #         ,  cookie
driver.get(taobao_comment_url)        #                 。     cookie        
print(driver.find_element_by_xpath('/html/body').text)

driver.quit()

webdriverが終了するには二つの種類があります.一つはcloseで、一つはquit closeは現在のラベルだけを閉じてキャッシュをクリアしないことです.quitを使うとブラウザを閉じます.数が多く登れば、quitを覚えてください.
プロキシを使う
宝を洗う情報を探して、実用的ではありませんて代行します.前に被害があった会社ではタオバオを全部登録しなければなりません.
from selenium import webdriver
PROXY = "124.206.133.227:80"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server={0}'.format(PROXY))
chrome = webdriver.Chrome(executable_path='C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe', chrome_options=chrome_options)
chrome.get('http://1212.ip138.com/ic.asp')
print('2: ', chrome.page_source)
# chrome.quit()

代理が失効すると判断します
代理は多くの失効があります.getを実行するとホームページが接続できないと表示されます.
PROXY = "61.168.162.32:80"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server={0}'.format(PROXY))
chrome = webdriver.Chrome(executable_path='C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe', chrome_options=chrome_options)
 
chrome.get(taobao_url)
if '       ' in chrome.page_source:
    print('      ')
if 'anti_Spider-checklogin&' in chrome.page_source:
    print(' anti_Spider check ')

自分で処理方法を書きましょう.ラララ~
本論文のリンクhttp://ludaming.com/posts/spider/selenium-chrome.html 私のブログ:ludaming.com