Python学習ノート[python 3環境構築|爬虫基礎]

1288 ワード

私はPycharmというエディタを使っています.とても使いやすいです.ここで言う構成環境の問題も、それに基づいて、Pythonをインストールする穴で、私は2つに遭遇しました.まず、ネット上でPython 3をインストールするコードを見つけなければなりません.ここにはよく問題があります.Python 3をインストールするときはネットの速度がとても遅く、数Mのものは30分もかかります.だから、注意してください.パッケージをインストールするときは、速度が遅すぎて、代理(VPN)を掛けるべきです.このように何倍も速いです.彼を使ってサイトに登るときは、エージェントをオフにします.
爬虫類の最初のステップはページにアクセスし、ここにはかなり重要な概念があります.すべてのページへのアクセスは、実際にはローカルで、あなたが見るたびに、ネット上にいるような感じがしますが、実際にはローカルにキャッシュしてからローカルから展示されています.だから、爬虫類はページを手に入れる前に、ブラウザの動作をシミュレートして、ページをローカルにアクセスし、ネット上でrequestsライブラリの動作を受信にたとえている人がいて、私はとてもイメージしています.他の人のニュースを知りたいなら、まず他の人に手紙を送って、それから他の人はあなたにresponseを返して、このようにあなたは他の人が何を言っているかを見ることができます.OK、コードから見てみましょう.

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##   ，             ，     ，             
url = 'http://www.duoxinqi.com' ##    
response = requests.get(url, headers=headers) ##  requests get    url     ，       ，   response       ，    。
Soup = BeautifulSoup(response.text, 'lxml') ##  BeautifulSoup     ，（'lxml'       ）
li_list = Soup.find_all('li')  ##  BeautifulSoup             （find_all    ，                ，find_all        ）
for li in li_list:
    print(li)

c++ builder XE4, 10.2 Tokyo > TDateTime > ミリ秒 (msec) まで表示 > Now().FormatString(L"yyyy/mm/dd hh:nn:ss.zzz")

spark streamingカスタムkafka topicのoffset(python)を読み込む