python爬虫類のcookies

1099 ワード

python 爬虫類

cookiesはweb分野では不思議なもので、あなたのスプーンとして理解することができます.例えば、新浪微博でログインしているのは、パスワードを覚えるという選択肢しかありません.次回ログインするときは、対応するアカウントのパスワードを入力する必要はありません.これはなぜですか?これがcookiesの用途で、あなたのアカウントのパスワードを覚えることができますが、覚えているのは明文のアカウントのパスワードではありません.それは暗号化されたデータのセグメントです.
どうやってクッキーを手に入れますか?回答:バッグをつかむ私たちがログインボタンをクリックするたびに、サイトはアカウントのパスワード、Host、Refer、User-Agentなどを含むいくつかの情報を提出します.同時に、cookiesを生成して、バッグをつかむソフトウェアを通じて送信したこの情報をつかんだ後、私たちは直接sinaに接続しました.cnの鍵.次回ログインするときは、そのままcookiesを送ればいいのですが、私が使っているパッケージソフトはFiddlerで、とても簡潔で、
では、クッキーを捕まえたらどう使いますか?前に2つのライブラリ、requests個urllib 2を紹介しました.HTTPCookieProcessor requestsにはcookies関数があります.この関数の具体的な機能はpython shellに以下のように入力して彼の情報を表示することができます.
dir(requests.cookies)
この変数を記入してから、もう一度getすると、欲しいhtmlデータが得られます.cookiesは时には変动するので、あなた达は自分で模索することができて、私はネットで勉强していますsina.cnの変動は簡単です.これから始めてもいいです.
もう一つ方法があるHTTPCookieProcessor

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)

これで追加され、必要なヘッダを追加するだけでurlopenに直接、

MATLAB LiveScriptでコピペできない問題の解決

【Python】XMLファイル解析のSAX(Simple API for XML)