Skip to main content
 首页 » 编程设计

python之用python下载pdf

2025年05月04日36www_RR

我正在编写一个脚本,该脚本使用正则表达式在页面上查找 pdf 链接,然后下载所述链接。该脚本在我的个人目录中运行并正确命名文件,但它没有下载完整的 pdf 文件。 pdf 正在被拉取并且只有 19kb,一个损坏的 pdf,当它们应该是 approxemtely 15mb

import urllib, urllib2, re 
 
url = 'http://www.website.com/Products' 
destination = 'C:/Users/working/' 
website = urllib2.urlopen(url) 
html = website.read() 
links = re.findall('.PDF">.*_geo.PDF', html) 
 
for item in links: 
    DL = item[6:] 
    DL_PATH = url + '/' + DL 
    SV_PATH = destination + DL 
    urllib.urlretrieve(DL_PATH, SV_PATH) 

url 变量链接到包含所有 pdf 链接的页面。当您单击 pdf 链接时,它会将您带到“www.website.com/Products/NorthCarolina.pdf”,该链接会在浏览器中显示 pdf。我不确定是否因此我应该使用不同的 python 方法或模块

请您参考如下方法:

你可以尝试这样的事情:

import requests 
 
 
links = ['link.pdf'] 
for link in links: 
    book_name = link.split('/')[-1] 
    with open(book_name, 'wb') as book: 
        a = requests.get(link, stream=True) 
 
        for block in a.iter_content(512): 
            if not block: 
                break 
 
            book.write(block)