当前位置: 首页 > news >正文

10个python爬虫入门实例

昨天带伙伴学习python爬虫,准备了几个简单的入门实例,涉及主要知识点:

web是如何交互的

requests库的get、post函数的应用

response对象的相关函数,属性

python文件的打开,保存

代码中给出了注释,并且可以直接运行哦

如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境)

windows用户:打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口;

Linux用户:权限不够的话在命令前加入sudo即可。

1、爬取强大的BD页面,打印页面信息

第一个爬虫示例,爬取百度页面

import requests #导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://www.baidu.com”) #

生成一个response对象

response.encoding = response.apparent_encoding #设置编码格式

print(“状态码:”+ str( response.status_code ) ) #打印状态码

print(response.text)#输出爬取的信息

2、常用方法之get方法实例,下面还有传参实例

第二个get方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://httpbin.org/get”) #get方法

print( response.status_code ) #状态码

print( response.text )

3、常用方法之post方法实例,下面还有传参实例

第三个 post方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.post(“http://httpbin.org/post”) #post方法访问

print( response.status_code ) #状态码

print( response.text )

4、put方法实例

第四个 put方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.put(“http://httpbin.org/put”) # put方法访问

print( response.status_code ) #状态码

print( response.text )

5、常用方法之get方法传参实例(1)

如果需要传多个参数只需要用&符号连接即可如下

第五个 get传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://httpbin.org/get?name=hezhi&age=20”) # get传参

print( response.status_code ) #状态码

print( response.text )

6、常用方法之get方法传参实例(2)

params用字典可以传多个

第六个 get传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

data = {

“name”:“hezhi”,

“age”:20

}

response = requests.get( “http://httpbin.org/get” , params=data ) # get传参

print( response.status_code ) #状态码

print( response.text )

7、常用方法之post方法传参实例(2)(PS:和上一个有没有很像?)

第七个 post传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

data = {

“name”:“hezhi”,

“age”:20

}

response = requests.post( “http://httpbin.org/post” , params=data ) # post传参

print( response.status_code ) #状态码

print( response.text )

8、关于绕过反爬机制,以zh爸爸为例

第好几个方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get( “http://www.zhihu.com”) #第一次访问知乎,不设置头部信息

print( “第一次,不设头部信息,状态码:”+response.status_code )# 没写headers,不能正常爬取,状态码不是 200

#下面是可以正常爬取的区别,更改了User-Agent字段

headers = {

“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36”

}#设置头部信息,伪装浏览器

response = requests.get( “http://www.zhihu.com” , headers=headers ) #get方法访问,传入headers参数,

print( response.status_code ) # 200!访问成功的状态码

print( response.text )

9、爬取信息并保存到本地

因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息

注意文件保存时的encoding设置

爬取一个html并保存

import requests

url = “http://www.baidu.com”

response = requests.get( url )

response.encoding = “utf-8” #设置接收编码格式

print(" r的类型" + str( type(response) ) )

print(" 状态码是:" + str( response.status_code ) )

print(" 头部信息:" + str( response.headers ) )

print( " 响应内容:" )

print( response.text )

#保存文件

file = open(“D:\爬虫\baidu.html”,“w”,encoding=“utf”) #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制

file.write( response.text )

file.close()

10、爬取图片,保存到本地

#保存百度图片到本地

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“https://www.baidu.com/img/baidu_jgylogo3.gif”) #get方法的到图片响应

file = open(“D:\爬虫\baidu_logo.gif”,“wb”) #打开一个文件,wb表示以二进制格式打开一个文件只用于写入

file.write(response.content) #写入文件

file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

相关文章:

10个python爬虫入门实例

昨天带伙伴学习python爬虫,准备了几个简单的入门实例,涉及主要知识点: web是如何交互的 requests库的get、post函数的应用 response对象的相关函数,属性 python文件的打开,保存 代码中给出了注释,并且…...

麒麟KYLINOS命令行设置系统静音

原文链接:麒麟KYLINOS命令行设置系统静音 hello,大家好啊,今天给大家带来一篇在麒麟KYLINOS上使用命令行调节系统静音的方法,有时候需要制作模板,便可以采用此方法,话不多说,一起来看看吧。 1、…...

零信任安全:构建无懈可击的网络防护体系

随着网络技术的飞速发展,信息安全问题日益凸显,传统的安全防护手段已经无法满足复杂多变的安全需求。在此背景下,零信任安全模型逐渐受到广泛关注。本文将探讨零信任安全的概念、优势以及如何构建无懈可击的网络防护体系。 一、零信任安全概念…...

华为李鹏:到 2025 年智能算力需求将达到目前水平的 100 倍

在第十四届全球移动宽带论坛上,华为高级副总裁、运营商 BG 总裁李鹏表示,大模型为代表的 AI 应用发展带来对智能算力的爆发式需求。 李鹏在题为《加速 5G 商业正循环,拥抱更繁荣的 5.5G》的讲话中表示,「5G 已经走在商业成功的正确…...

【漏洞复现】深信服下一代防火墙NGAF存在任意文件上传漏洞 附POC

漏洞描述 深信服下一代防火墙(Next-Generation Application Firewall)NGAF是面向应用层设计,能够精确识别用户、应用和内容,具备完整安全防护能力,能够全面替代传统防火墙,并具有强劲应用层处理能力的全新网络安全设备。NGAF解决了传统安全设备在应用识别、访问控制、内…...

城市内涝积水预防,万宾科技内涝监测仪如何预警?

近几年来城市内涝所引发的安全隐患极为突出,影响着城市道路安全,而且也让市民心中多有惶恐。一旦城市内涝问题出现背后不仅是路面积水问题,更会导致城市无法正常运行,导致市民日常生活和工作受到影响。所以对于排水防涝设施的建设…...

SpringBoot定时任务打成jar 引入到新的项目中后并自动执行

一、springBoot开发定时任务 ①&#xff1a;连接数据库实现新增功能 1. 引入依赖 <dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional> </dependency> <dependen…...

AD9371 官方例程 NO-OS 主函数 headless 梳理(一)

AD9371 系列快速入口 AD9371ZCU102 移植到 ZCU106 &#xff1a; AD9371 官方例程构建及单音信号收发 ad9371_tx_jesd -->util_ad9371_xcvr接口映射&#xff1a; AD9371 官方例程之 tx_jesd 与 xcvr接口映射 AD9371 官方例程 时钟间的关系与生成 &#xff1a; AD9371 官方…...

SHAP 和 LIME 解释模型

内容大纲 1、SHAP 解释器1.1 案例&#xff1a;用于预测患者肺癌1.2 案例中使用的shap解释器1.3 SHAP工作原理1.4 举例说明 2、LIME 解释器2.1 案例&#xff1a;判断法律案件胜诉可能性2.2 LIME解释器工作原理2.3 本地解释模型的训练过程2.4 举例说明1&#xff1a;新闻分类2.4 举…...

若依vue-初步下载使用

若依框架可以满足大部分的后台管理系统的开发,使用频率也是比较高的,所以这里讲一下如何使用若依框架 若依框架代码克隆 首先去若依官网 http://www.ruoyi.vip/ 这里演示的是若依-vue版本的使用 我们点击下载 会跳转到码云仓库 或者直接点击下面的链接去码云仓库 https://git…...

Android 使用.9图 NinePatchDrawable实现动态聊天气泡

最近一段时间&#xff0c;在做一个需求&#xff0c;需要实现一个聊天气泡的动画效果&#xff0c;如下图所示&#xff1a; GitHub源码demo &#xff0c;建议下载demo&#xff0c;运行查看。 动态聊天气泡动画 静态聊天气泡 经过一段时间调研&#xff0c;实现方案如下: 实现方…...

力扣 LCR 024. 反转链表两种解法

目录 1.解题思路Ⅰ2.代码实现Ⅰ3.解题思路Ⅱ4.代码实现Ⅱ 1.解题思路Ⅰ 利用头插法&#xff0c;遍历数组将后面的元素头插到前面的元素. 2.代码实现Ⅰ struct ListNode* reverseList(struct ListNode* head) { struct ListNode*curhead;;struct ListNode*newheadNULL;whil…...

掌握Capture One 23 Pro,打造专业级图片编辑体验!

作为一位摄影师&#xff0c;您是否曾经为自己的照片无法达到预期效果而烦恼&#xff1f;或者您是否在寻找一种能够让您轻松处理和编辑照片的工具&#xff1f;如果是&#xff0c;那么您一定不能错过Capture One 23 Pro这款图片编辑软件&#xff01; Capture One 23 Pro的特点 …...

MFC-TCP网络编程服务端-Socket

目录 1、通过Socket建立服务端&#xff1a; 2、UI设计&#xff1a; 3、代码的实现&#xff1a; &#xff08;1&#xff09;、CListenSocket类 &#xff08;2&#xff09;、CConnectSocket类 &#xff08;3&#xff09;、CTcpServerDlg类 1、通过Socket建立服务端&#xff…...

ChatGPT辅助下的小组学习

1 网上分享会-主题 1.9曾子曰&#xff1a;“慎终追远&#xff0c;民德归厚矣。” Master Zeng said:“Be circumspect in funerary services and continue sacrifices to the distant ancestors, and the virtue (de 德) of the common people will thrive.” 2 过程记录 听…...

Linux相关命令

切换root用户&#xff1a;sudo su 串口功能测试&#xff1a;cutecom 某某驱动查询&#xff1a;nvidia-smi #xxx-smi查询某某驱动 在线安装某某程序&#xff1a;apt install xxx 设置文件权限chmod 常用&#xff1a;chmod 777 sudo chmod 600 &#xff08;只有所有者…...

详解卷积神经网络结构

前言 卷积神经网络是以卷积层为主的深度网路结构&#xff0c;网络结构包括有卷积层、激活层、BN层、池化层、FC层、损失层等。卷积操作是对图像和滤波矩阵做内积&#xff08;元素相乘再求和&#xff09;的操作。 1. 卷积层 常见的卷积操作如下&#xff1a; 卷积操作解释图解…...

java读取pdf数据

目录 读取方式有两种: 方式一: 方式一所需要的maven依赖如下: 方式一读取的Java代码如下:<...

arcmap / arcgis 安装教程

ArcGIS 10.8 for Desktop 完整安装教程&#xff08;含win7/8/10 32/64位下载地址亲测可用汉化&#xff09; | 麻辣GIS (malagis.com) 关于GIS语言汉化包&#xff08;中文&#xff09;安装失败的解决办法_arcgis中文语言包_miumiuniya的博客-CSDN博客 检查安装路径&#xff1a;…...

CMake中的变量: 改变构建行为的变量

文章目录 变量名称描述BUILD_SHARED_LIBS全局标志&#xff0c;用于在启用时使add_library()创建共享库。 如果存在并且为true&#xff0c;则这将导致所有库被构建为共享库&#xff0c;除非该库被明确添加为静态库。这个变量通常作为option()添加到项目中&#xff0c;这样项目的…...

前沿趋势:GEO优化与私域的联动增长

核心观点&#xff1a;随着技术发展&#xff0c;私域增长有了新的可能。GEO&#xff08;生成式引擎优化&#xff09;与私域的联动&#xff0c;可以帮助企业更精准地挖掘目标用户需求&#xff0c;实现高效引流与转化。趋势解读&#xff1a;&#xff1a;依托AI语义优化技术&#x…...

XML核心技术解析与应用实践指南

1. XML基础概念与核心特性XML&#xff08;Extensible Markup Language&#xff09;本质上是一种元标记语言&#xff0c;它允许用户自定义标签来描述数据结构。与HTML这类固定标签集的标记语言不同&#xff0c;XML的核心价值在于其可扩展性——你可以为音乐乐谱创建<note>…...

C++入门之内存处理详解

兜兜转转,我们终于结束了C中非常重要的一环**(类和对象),现在来到了C中的内存管理章节.在此篇文章中,博主将会介绍内存的分布,不同于c的新型申请堆区空间方法,new,delete和C中的malloc等有什么不同.** C/C内存分布 在c和c中,内存区大概分为这几个板块:栈区,内存映射段,堆区,数…...

40天极限通关|6月PMP“末班车”呼啸而来,最后冲刺指南请收好

大家好&#xff0c;我是那个考前42天、书都没拆封就极限上岸的大头。今天是4月27日。说个吓人的事实——距离6月14日PMP考试&#xff0c;只剩40天出头了。再掰开算一算&#xff0c;五一假期还想出去玩&#xff1f;去掉假期、去掉工作日加班、去掉你必须休息回血的时间&#xff…...

ANI3DHUMAN:3D人体动画技术的自引导随机采样解析

1. ANI3DHUMAN&#xff1a;基于自引导随机采样的3D人体动画技术解析在数字内容创作领域&#xff0c;3D人体动画一直面临着逼真度与可控性难以兼得的困境。传统运动学方法能精确控制骨骼动作&#xff0c;却无法模拟衣物飘动等自然动态&#xff1b;而基于物理模拟的方案虽能呈现逼…...

基于深度学习残差网络的复杂工业过程故障识别【附源码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导&#xff0c;毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;查看文章底部二维码&#xff08;1&#xff09;多维度特征融合与深度重构残差的故障检测方法&…...

AI智能体浏览器自动化实战:绕过反爬虫与验证码的终极方案

1. 项目概述&#xff1a;为AI智能体赋予“真实浏览器之手”如果你正在使用Claude Code、Cursor、OpenClaw这类AI编程助手&#xff0c;并且尝试过让它们帮你自动完成一些网页操作——比如抓取商品价格、监控新闻动态、或者自动填写表单——那你大概率经历过这样的挫败&#xff1…...

【025】类加载:双亲委派与应用隔离

前面我们聊过 JVM 运行时数据区&#xff08;022 篇&#xff09;和对象创建&#xff08;022 篇&#xff09;&#xff0c;这篇来深入聊聊类加载。 你有没有遇到过这些问题&#xff1a; 明明引入了 jar 包&#xff0c;却报 ClassNotFoundException升级了一个依赖库&#xff0c;结果…...

面试官问我C++的const和虚函数,我这样回答让他当场给了offer

征服C面试&#xff1a;从const到虚函数的深度解析与实战技巧 1. 面试中的C核心概念解析 在技术面试中&#xff0c;C的基础概念往往是考察的重点。面试官通常会从最基础的const关键字开始&#xff0c;逐步深入到虚函数、模板等高级特性。掌握这些核心概念不仅能帮助你在面试中脱…...

如何快速掌握雀魂AI助手Akagi:免费提升麻将水平的完整指南

如何快速掌握雀魂AI助手Akagi&#xff1a;免费提升麻将水平的完整指南 【免费下载链接】Akagi 支持雀魂、天鳳、麻雀一番街、天月麻將&#xff0c;能夠使用自定義的AI模型實時分析對局並給出建議&#xff0c;內建Mortal AI作為示例。 Supports Majsoul, Tenhou, Riichi City, A…...