PythonはHTTPプロトコルのファイルダウンロード方法のまとめを実現します。
本論文では、いくつかのよく使われているpythonがファイルをダウンロードする方法を紹介します。httplib 2、urllibなどのカバンを具体的に使って、皆さんに助けてもらいたいです。
1.簡単なファイルのダウンロード
httplib 2を使って、具体的なコードは以下の通りです。
2.大きなファイルのダウンロード
HTTPプロトコルを使ってダウンロードする場合は、ヘッドにRangeの範囲を設定するだけで断点更新ダウンロードができます。もちろん、まずサーバーは断点更新をサポートする必要があります。
Pythonのurllib 2モジュールを利用してブレークポイントの継続ダウンロードを完了した例:
1.簡単なファイルのダウンロード
httplib 2を使って、具体的なコードは以下の通りです。
h = httplib2.Http()
url = 'https://www.jb51.net/ip.zip'
resp, content = h.request(url)
if resp['status'] == '200':
with open(filename, 'wb') as f:
f.write(content)
urllibを使って、具体的なコードは以下の通りです。
filename = urllib.unquote(url).decode('utf8').split('/')[-1]
urllib.urlretrieve(url, filename)
2.大きなファイルのダウンロード
def down_file():
url = "https://www.jb51.net/download.abc"
file_name = url.split('/')[-1]
u = urllib2.urlopen(url)
f = open(file_name, 'wb')
meta = u.info()
file_size = int(meta.getheaders("Content-Length")[0])
file_size_dl = 0
block_sz = 8192
while True:
buffer = u.read(block_sz)
if not buffer:
break
file_size_dl += len(buffer)
f.write(buffer)
f.close()
ダウンロードファイル名を取得する過程で、urlを解析できます。コードは以下の通りです。
scheme, netloc, path, query, fragment = urlparse.urlsplit(url)
filename = os.path.basename(path)
if not filename:
filename = 'downloaded.file'
3.エンドポイントの継続ダウンロードHTTPプロトコルを使ってダウンロードする場合は、ヘッドにRangeの範囲を設定するだけで断点更新ダウンロードができます。もちろん、まずサーバーは断点更新をサポートする必要があります。
Pythonのurllib 2モジュールを利用してブレークポイントの継続ダウンロードを完了した例:
#!/usr/bin/python
# -*- coding: UTF-8 -*
'''
Created on 2013-04-15
Created by RobinTang
A demo for Resuming Transfer
'''
import urllib2
req = urllib2.Request('http://www.python.org/')
req.add_header('Range', 'bytes=0-20') # set the range, from 0byte to 19byte, 20bytes len
res = urllib2.urlopen(req)
data = res.read()
print data
print '---------'
print 'len:%d'%len(data)