我正在编写一个脚本,该脚本使用正则表达式在页面上查找 pdf 链接,然后下载所述链接。该脚本在我的个人目录中运行并正确命名文件,但它没有下载完整的 pdf 文件。 pdf 正在被拉取并且只有 19kb,一个损坏的 pdf,当它们应该是 approxemtely 15mb
import urllib, urllib2, re
url = 'http://www.website.com/Products'
destination = 'C:/Users/working/'
website = urllib2.urlopen(url)
html = website.read()
links = re.findall('.PDF">.*_geo.PDF', html)
for item in links:
DL = item[6:]
DL_PATH = url + '/' + DL
SV_PATH = destination + DL
urllib.urlretrieve(DL_PATH, SV_PATH)
url 变量链接到包含所有 pdf 链接的页面。当您单击 pdf 链接时,它会将您带到“www.website.com/Products/NorthCarolina.pdf”,该链接会在浏览器中显示 pdf。我不确定是否因此我应该使用不同的 python 方法或模块
请您参考如下方法:
你可以尝试这样的事情:
import requests
links = ['link.pdf']
for link in links:
book_name = link.split('/')[-1]
with open(book_name, 'wb') as book:
a = requests.get(link, stream=True)
for block in a.iter_content(512):
if not block:
break
book.write(block)
