当前位置: 首页 > news >正文

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识。

一. 引入Selenium自动爬取百度图片

        下面这部分Selenium代码的主要功能是:
            1.先自动运行浏览器,并访问百度图片链接:百度图片-发现多彩世界
            2.通过driver.find_element_by_xpath()函数获取输入框的位置;
            3.在输入框中自动输入搜索关键词"邓肯",再输入回车搜索"邓肯"相关图片;
            4.再通过find_element_by_xpath()获取图片的原图url,这里仅获取一张图片;
            5.调用urllib的urlretrieve()函数下载图片。
        最后整个动态效果如下图所示,但是图片却无法显示:


        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys   
importwebdriver.support.ui as ui  
fromwebdriver.common.action_chains importActionChains           #Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  #Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  #Download Pictures
get(elem_url)  
urlretrieve(elem_url,"picture.jpg")  
print"Download Pictures!!!"

二. 简单分析原因及知识巩固

       1.urllib.urlretrieve()
       通过urlretrieve()函数可设置下载进度发现图片是一下子就加载的。这里给大家巩固这个urlretrieve函数的方法和Python时间命名方式,代码如下:

# -*- coding: utf-8 -*-
importurllib  
importtime  
importos  #显示下载进度
defschedule(a,b,c):  
#a:已下载的数据块 b:数据块的大小 c:远程文件的大小  
per = 100.0 * a * b / c  
ifper > 100 :  
per = 100  
print'%.2f%%' % per  if__name__ == '__main__':  
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
#定义文件名时间命名  
t = time.localtime(time.time())  
#反斜杠连接多行
filename = str(t.__getattribute__("tm_year")) + "_"+ \  
str(t.__getattribute__("tm_mon")) + "_"+ \  
str(t.__getattribute__("tm_mday"))  
target = "%s.jpg"% filename  
printtarget  
urlretrieve(url,target,schedule)  
print"Download Picture!!!"  

        发现该图片的大小仅为168字节,其中输出结果如下图,获取的URL地址如下:
页面不存在_百度搜索 
而换张图片是能显示下载进度的,如我的头像。显然我想让程序加个进度就能爬取图片的想法失败。头像地址:https://avatar.csdn.net/F/8/5/1_eastmount.jpg

        猜测可能获取的百度URL不是原图地址,或者是个服务器设置了相应的拦截或加密。参考"Python爬虫抓取网页图片",函数相关介绍如下:

>>> help(urllib.urlretrieve)  
Help on function urlretrieve inmodule urllib:  
urlretrieve(url, filename=None, reporthook=None, data=None)  参数url:
指定的下载路径  
参数finename:  
指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)  
参数reporthook:  
是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,
我们可以利用这个回调函数来显示当前的下载进度。
参数data:
指post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,  
filename 表示保存到本地的路径,header 表示服务器的响应头。

       2.urllib2.urlopen()
       换个方法urlopen()实现,同时设置消息头试试,并输出信息和图片大小。

# -*- coding: utf-8 -*-
importos        
importsys      
importurllib  
importurllib2  #设置消息头
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \  
AppleWebKit/537.36 (KHTML, like Gecko) \  
Chrome/35.0.1916.114 Safari/537.36',  
'Cookie': 'AspxAutoDetectCookieSupport=1'
}  
request = urllib2.Request(url, None, header)  
response = urllib2.urlopen(request)  
printheaders['Content-Length']  with open("picture.jpg","wb") as f:  
write(response.read())  
printgeturl()  
printinfo()    #返回报文头信息
printurlopen(url).read()  

        返回内容是”HTTPError: HTTP Error 403: Forbidden“,Selenium打开如下:

 其中403错误介绍如下,服务器拒绝服务:

        换成我的博客图像那张图是能下载的,同时设置消息头和代理,推荐一篇文章:
        [Python]网络爬虫(五):urllib2的使用细节与抓站技巧


 

三. 解决方法

        主要参考三篇文章和自己的一些想法:
        selenium+python 爬取网络图片(2) -- 百度
        Python 3 多线程下载百度图片搜索结果
        CSDN博客搬家到WordPress  - curl设置headers爬取

        第一个方法 F12审查元素和SRC的骗局
        这是感谢"露为霜"同学提供的方法,如果你通过浏览器点开百度搜索"邓肯"的第一张图片,复制网址后,会发现图片真实的地址为:
        http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
        此时你再分析百度搜索页面,你会发现"F12审查元素和获取src元素的行为欺骗了你",正是因为它俩定位到了错误的图片链接。而真实的URL是在"ul/li/"中的"data-objurl"属性中。

        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  #Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  #Get the URL of Pictures
num = 1  
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")  
forelem inelem_pic:  
elem_url = elem.get_attribute("data-objurl")  
printelem_url  
#Download Pictures
name = "%03d"% num  
urlretrieve(elem_url, str(name) + ".jpg")  
num = num + 1  
else:  
print"Download Pictures!!!"  

        运行代码成功爬取了9张图片,显然成功了!虽然最后报错:IOError: [Errno socket error] [Errno 10060] ,只爬取了9张图片,但是至少可以正确解决了该问题。运行截图如下所示:

        同样的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可获取正确的图片地址并正确下载。
        PS:百度图片动态加载的功能是非常强大的,当你的鼠标拖动时,它会自动增加新的页面,在<ul>中包括新的一批<li>张图片,这也是不同于其它网页在右下角点击"1、2、3..."翻页的,可能也会成为海量图片爬取的又一难点。

        第二个方法 Selenium使用右键另存为
        还是使用老的链接,虽然读取是无法显示的,但尝试通过Selenium的鼠标右键另存为功能,看能不能爬取成功。

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  #Open PhantomJS 
driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)  #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  #Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  #鼠标移动至图片上右键保存图片
get(elem_url)  
printpage_source  
elem = driver.find_element_by_xpath("//img")  
action = ActionChains(driver).move_to_element(elem)  
context_click(elem) #右键#当右键鼠标点击键盘光标向下则移动至右键菜单第一个选项
send_keys(Keys.ARROW_DOWN)  
send_keys('v') #另存为
perform()  
print"Download Pictures!!!"

        运行效果如下图所示。虽然它能实现右键另存为,但是需要手动点击保存,其原因是selenium无法操作操作系统级的对话框,又说"set profile"代码段的设置能解决问题的并不靠谱。通过钩子Hook函数可以实现,以前做过C#的钩子自动点击功能,但是想到下载图片需要弹出并点击无数次对话框就很蛋疼,所以该方法并不好!
        钩子函数java版本结合robot可以阅读下面这篇文章:
        selenium webdriver 右键另存为下载文件(结合robot and autoIt)


        第三个方法 通过Selenium自动点击百度的下载按钮
        其实现过程就是通过Selenium找到"下载"按钮,再点击或获取链接即可。
        该方法参考文章:selenium+python 爬取网络图片(2) -- 百度
        同时,这里需要强调百度动态加载,可以通过Selenium模拟滚动窗口实现,也参考上面文章。其中核心代码为:

        driver.maximize_window()pos += i*500   # 每次下滚500js = "document.documentElement.scrollTop=%d" % posdriver.execute_script(js)


       第四个方法 百度图片解码下载及线程实现
       参考文章:Python 3 多线程下载百度图片搜索结果

相关文章:

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto&#xff08;谷歌镜像&#xff09;等图片时&#xff0c;出现"无法打开图片或已损坏"的问题&#xff0c;作者对它进行简单的探讨。同时&#xff0c;作者将进一步帮你巩固selenium自动化操作和urllib…...

vue项目预览pdf功能(解决动态文字无法显示的问题)

最近&#xff0c;因为公司项目需要预览pdf的功能&#xff0c;开始的时候找了市面上的一些pdf插件&#xff0c;都能用&#xff0c;但是&#xff0c;后面因为pdf变成了需要根据内容进行变化的&#xff0c;然后&#xff0c;就出现了需要动态生成的文字不显示了。换了好多好多的插件…...

vue3 样式穿透:deep不生效

初学vue3&#xff0c;今天需要修改el-input组件的属性&#xff08;去掉border和文字居右&#xff09; 网上搜了一下&#xff0c;大致都是采用:deep 样式穿透来修改el-input的属性 <div class"input-container"><el-input placeholder"请输入111&qu…...

云原生反模式

通过了解这些反模式并遵循云原生最佳实践&#xff0c;您可以设计、构建和运营更加强大、可扩展和成本效益高的云原生应用程序。 1.单体架构&#xff1a;在云上运行一个大而紧密耦合的应用程序&#xff0c;妨碍了可扩展性和敏捷性。2.忽略成本优化&#xff1a;云服务可能昂贵&am…...

【2023年11月第四版教材】《第5章-信息系统工程(合集篇)》

《第5章-信息系统工程&#xff08;合集篇&#xff09;》 章节说明1 软件工程1.1 架构设计1.2 需求分析1.3 软件设计1.4 软件实现&#xff3b;补充第三版教材内容&#xff3d; 1.5 部署交付 2 数据工程2.1 数据建模2.2 数据标准化2.3 数据运维2.4 数据开发利用2.5 数据库安全 3 …...

【qiankun】微前端在项目中的具体使用

1、安装qiankun npm install qiankun --save2、主应用中注册和配置qiankun 在主应用的入口文件main.ts中&#xff0c;引入qiankun的注册方法&#xff1a; import { registerMicroApps, start } from qiankun;创建一个数组&#xff0c;用于配置子应用的相关信息。每个子应用都…...

云安全与多云环境管理:讨论在云计算和多云环境下如何保护数据、应用程序和基础设施的安全

随着云计算和多云环境的广泛应用&#xff0c;企业正面临着数据、应用程序和基础设施安全的新挑战。在这个数字化时代&#xff0c;保护敏感信息和业务运作的连续性变得尤为重要。本文将深入探讨在云计算和多云环境下如何有效地保护数据、应用程序和基础设施的安全。 章节一&…...

npm install ffi各种失败,换命令npm i ffi-napi成功

网上各种帖子安装ffi&#xff0c;基本上到了windows build tools这里会卡住。 使用命令npm install --global --production windows-build-tools 安装报错信息如下&#xff1a; PS E:\codes\nodejsPath\tcpTest> npm install --global --production windows-build-tools …...

0.flink学习资料

论文&#xff1a; &#xff08;1&#xff09;google dataflow model 下载链接&#xff1a;p1792-Akidau.pdf (vldb.org) Akidau T, Bradshaw R, Chambers C, et al. The dataflow model: a practical approach to balancing correctness, latency, and cost in massive-scal…...

C语言:字符函数和字符串函数

往期文章 C语言&#xff1a;初识C语言C语言&#xff1a;分支语句和循环语句C语言&#xff1a;函数C语言&#xff1a;数组C语言&#xff1a;操作符详解C语言&#xff1a;指针详解C语言&#xff1a;结构体C语言&#xff1a;数据的存储 目录 往期文章前言1. 函数介绍1.1 strlen1.…...

基于.Net Core开发的医疗信息LIS系统源码

SaaS模式.Net Core版云LIS系统源码 医疗信息LIS系统是专为医院检验科设计的一套实验室信息管理系统&#xff0c;能将实验仪器与计算机组成网络&#xff0c;使病人样品登录、实验数据存取、报告审核、打印分发&#xff0c;实验数据统计分析等繁杂的操作过程实现了智能化、自动化…...

部署工业物联网可以选择哪些通信方案?

部署工业物联网有诸多意义&#xff0c;诸如提升生产效率&#xff0c;降低管理成本&#xff0c;保障生产品质稳定&#xff0c;应对长期从业劳动力变化趋势等。针对不同行业、场景&#xff0c;工业物联网需要选择不同的通信方案&#xff0c;以达到成本和效益的最佳平衡。本篇就简…...

flutter-移动端适配

不同屏幕之间的尺寸适配 使用插件 flutter_screenutil flutter_screenutil flutter 屏幕适配方案&#xff0c;用于调整屏幕和字体大小的flutter插件&#xff0c;让你的UI在不同尺寸的屏幕上都能显示合理的布局! 安装 # add flutter_screenutil flutter_screenutil: ^5.8.4 o…...

MySQL 常用函数

一、数学函数 1、ABS(x) 返回绝对值。 mysql> select abs(-4); --------- | abs(-4) | --------- | 4 | --------- 1 row in set (0.00 sec) 2、PI&#xff08;&#xff09; 返回圆周率&#xff0c;并四舍五入保留五位小数。 mysql> select pi(); ----------…...

动态路由的实现—正则表达式

文章目录 前言一、什么是正则表达式&#xff1f;二、正则表达式在动态路由中的作用三、实现一个简单的路由调度器总结 前言 动态路由有很多种实现方式&#xff0c;支持的规则、性能等有很大的差异。例如开源的路由实现gorouter支持在路由规则中嵌入正则表达式&#xff0c;例如…...

Android实现超出固定行数折叠文字“查看全文“、“收起全文“

先上效果图 分析问题 网上有很多关于这个的代码&#xff0c;实现都过于复杂了&#xff0c;github上甚至还看到一篇文章600多行代码&#xff0c;结果一跑起来全是bug。还是自己写吧&#xff01;&#xff01;&#xff01; 如果我们需要换行的"查看全文"、"收起全…...

Python上楼梯问题:递归解法探究(斐波那契变种)(记忆化递归)

文章目录 上楼梯问题&#xff1a;递归解法探究问题定义解决方案1. 递归2. 记忆化递归关于python memo{}默认参数和字典的语法语法功能版本信息注意事项 结论 上楼梯问题&#xff1a;递归解法探究 在这篇文章中&#xff0c;将对上楼梯问题进行深入探讨。上楼梯问题是一种常见的…...

AI重新定义音视频生产力“新范式”

// 编者按&#xff1a;AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战&#xff0c;该如何应对&#xff1f;LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。 文/武磊 编辑/LiveVideoStack …...

Jmeter生成可视化的HTML测试报告

Jmeter也是可以生成测试报告的。 性能测试工具Jmeter由于其体积小、使用方便、学习成本低等原因&#xff0c;在现在的性能测试过程中&#xff0c;使用率越来越高&#xff0c;但其本身也有一定的缺点&#xff0c;比如提供的测试结果可视化做的很一般。 不过从3.0版本开始&…...

5G技术与其对智能城市、物联网和虚拟现实领域的影响

随着第五代移动通信技术&#xff08;5G&#xff09;的到来&#xff0c;我们即将迈向一个全新的数字化世界。5G技术的引入将带来更高的速度、更低的延迟和更大的连接性&#xff0c;推动了智能城市、物联网和虚拟现实等领域的发展。 首先&#xff0c;5G技术将带来超越以往的网络速…...

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案&#xff1a; 语义化标签&#xff1a; <header>&#xff1a;页头<nav>&#xff1a;导航<main>&#xff1a;主要内容<article>&#x…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波&#xff1a;可以用来解决所提出的地质任务的波&#xff1b;干扰波&#xff1a;所有妨碍辨认、追踪有效波的其他波。 地震勘探中&#xff0c;有效波和干扰波是相对的。例如&#xff0c;在反射波…...

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来&#xff0c;Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。 同样的技术也是 Power BI 数据…...

docker 部署发现spring.profiles.active 问题

报错&#xff1a; org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列&#xff1f;2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...

音视频——I2S 协议详解

I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议&#xff0c;专门用于在数字音频设备之间传输数字音频数据。它由飞利浦&#xff08;Philips&#xff09;公司开发&#xff0c;以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...

提升移动端网页调试效率:WebDebugX 与常见工具组合实践

在日常移动端开发中&#xff0c;网页调试始终是一个高频但又极具挑战的环节。尤其在面对 iOS 与 Android 的混合技术栈、各种设备差异化行为时&#xff0c;开发者迫切需要一套高效、可靠且跨平台的调试方案。过去&#xff0c;我们或多或少使用过 Chrome DevTools、Remote Debug…...

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务&#xff0c;但是又不想花钱&#xff0c;所以就想着自己搭建一个&#xff0c;刚好我们用的一个开源框架已经集成了MinIO&#xff0c;所以就选了这个 我这边对文件服务性能要求不是太高&#xff0c;单机版就可以 安装非常简单&#xff0c;几个命令就…...

git: early EOF

macOS报错&#xff1a; Initialized empty Git repository in /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/.git/ remote: Enumerating objects: 2691797, done. remote: Counting objects: 100% (1760/1760), done. remote: Compressing objects: 100% (636/636…...