当前位置: 首页 > news >正文

Python爬虫-requests模块

前戏:
        1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源...
        2.你是否在节假日出行高峰的时候,想快速抢购火车票成功..。
        3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品.

什么是爬虫:
        - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程,

爬虫的价值:

        -实际应用

        -就业

爬虫究竟是合法还是违法的?

        在法律中是不被禁止

        具有违法风险

        善意爬虫 恶意爬虫

爬虫带来的风险可以体现在如下2方面:
        -爬虫干扰了被访问网站的正常运营
        -爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?

        - 时常的优化自己的程序,避免干扰被访问网站的正常运行

        -在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播

爬虫在使用场景中的分类
        -通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
        -聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。        

        -增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。


爬虫的矛与盾
        反爬机制
        门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
        反反爬策略
        爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户


robots.txt协议:任意网站后+/robots.txt即可见
        君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

http协议

        - 概念:就是服务器和客户端进行数据交互的一种形式。

常用请求头信息:请求载体的身份标识

- User-Agent:Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
-Content-Type:服务器响应回客户端的数据类型


https协议:- 安全的超文本传输协议(security)
加密方式
对称秘钥加密
非对称秘钥加密
证书秘钥加密

正文

import requests# 检查当前脚本是否作为主程序运行
if __name__ == "__main__":# 定义 KFC 官方网站获取门店列表信息的 URLurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx'# 定义 HTTP 请求的头部信息,模拟浏览器请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}# 提示用户输入一个位置信息,作为搜索门店的关键词keyword = input('enter location:')  # 例如 "北京"# 循环请求第1页到第9页的数据for page in range(1,10):  # 定义发送请求时所需的参数params = {'op': 'keyword',  # 操作类型为关键词搜索'cname': '',  # 城市名称(此处为空)'pid': '',  # 其他参数(此处为空)'keyword': keyword,  # 用户输入的关键词'pageIndex': page,  # 当前请求的页面索引'pageSize': 1000,  # 每页显示的门店数量}# 尝试发送请求并处理响应try:# 发送 GET 请求,请求参数包括 URL、参数和头部信息response = requests.get(url=url, params=params, headers=headers)# 检查响应状态码,如果不是 200,将引发 HTTPError 异常response.raise_for_status()  # 获取响应内容page_text = response.text# 构建文件名,包括关键词、页码和 .html 扩展名filename = f'{keyword}_page_{page}.html'# 打开一个文件,以写入模式打开,并指定编码为 utf-8with open(filename, 'w', encoding='utf-8') as fp:# 将响应内容写入到文件中fp.write(page_text)# 打印一条消息,表明文件已经成功保存print(f'{filename} 保存成功!!!')# 捕获由 requests 库抛出的任何异常except requests.RequestException as e:# 打印异常信息print(f'请求错误: {e}')

相关文章:

Python爬虫-requests模块

前戏: 1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源... 2.你是否在节假日出行高峰的时候,想快速抢购火车票成功..。 3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品. …...

适用于PyTorch 2.0.0的Ubuntu 22.04上CUDA v11.8和cuDNN 8.7安装指南

将下面内容保存为install.bash,直接用bash执行一把梭解决 #!/bin/bash### steps #### # verify the system has a cuda-capable gpu # download and install the nvidia cuda toolkit and cudnn # setup environmental variables # verify the installation ######…...

使用conda安装openturns

目录 1. 有效方法2. 整体分析使用pip安装使用conda安装验证安装安装过程中可能遇到的问题 1. 有效方法 conda install -c conda-forge openturns2. 整体分析 OpenTURNS是一个用于概率和统计分析的软件库,主要用于不确定性量化。你可以通过以下步骤在Python环境中安…...

Chameleon:动态UI框架使用详解

文章目录 引言Chameleon框架原理核心概念工作流程 基础使用安装与配置创建基础界面 高级使用自定义组件响应式布局数据流与状态管理 结论 引言 Chameleon,作为一种动态UI框架,旨在通过灵活、高效的方式帮助开发者构建跨平台、响应用户交互的图形用户界面…...

7.10飞书一面面经

问题描述 Redis为什么快? 这个问题我遇到过,但是没有好好总结,导致答得很乱。 答:Redis基于内存操作: 传统的磁盘文件操作相比减少了IO,提高了操作的速度。 Redis高效的数据结构:Redis专门设计…...

[数据结构] 归并排序快速排序 及非递归实现

()标题:[数据结构] 归并排序&&快速排序 及非递归实现 水墨不写bug (图片来源于网络) 目录 (一)快速排序 类比递归谋划非递归 快速排序的非递归实现: (二)归并排序 归…...

面试题 12. 矩阵中的路径

矩阵中的路径 题目描述示例 题解 题目描述 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通过相邻的单元格内的字母构成&#xff0…...

钉钉扫码登录第三方

钉钉文档 实现登录第三方网站 - 钉钉开放平台 (dingtalk.com) html页面 将html放在 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>登录</title>// jquery<script src"http://code.jqu…...

多GPU系统中的CUDA设备不可用问题

我们在使用多GPU系统时遇到了CUDA设备不可用的问题&#xff0c;详细情况如下&#xff1a; 问题描述&#xff1a; 我们在一台配备有8块NVIDIA GeForce RTX 3090显卡的服务器上运行CUDA程序时&#xff0c;遇到了如下错误&#xff1a; cudaErrorDevicesUnavailable: CUDA-capabl…...

python的列表推导式

文章目录 前言一、解释列表推导式二、在这句代码中的应用三、示例四、使用 for 循环的等价代码总结 前言 看看这一行代码&#xff1a;questions [q.strip() for q in examples["question"]] &#xff0c;问题是最外层的 中括号是做什么的&#xff1f; 最外层的中括…...

类与对象(2)

我们在了解了类的简单创建后&#xff0c;需要对类的创建与销毁有进一步的了解&#xff0c;也就是对于类的构造函数与析构函数的了解。 目录 注意&#xff1a; 构造函数的特性&#xff1a; 析构函数&#xff1a; 注意&#xff1a; 该部分内容为重难点内容&#xff0c;在正常…...

迂回战术:“另类“全新安装 macOS 15 Sequoia beta2 的极简方法

概述 随着 WWDC 24 的胜利闭幕&#xff0c;Apple 平台上各种 beta 版的系统也都“跃跃欲出”&#xff0c;在 mac 上自然也不例外。 本次全新的 macOS 15 Sequoia&#xff08;红杉&#xff09;包含了诸多重磅升级&#xff0c;作为秃头开发者的我们怎么能不先睹为快呢&#xff1…...

如何设计一个秒杀系统,(高并发高可用分布式集群)

设计一个高并发、高可用的分布式秒杀系统是一个非常具有挑战性的任务&#xff0c;需要从架构、数据库、缓存、并发控制、降级限流等多个维度进行考虑。以下是一个典型的秒杀系统设计思路&#xff1a; 1. 系统架构 微服务架构 拆分服务&#xff1a;将系统功能拆分为多个微服务…...

深度优先搜索(所有可达路径)

参考题目&#xff1a;所有可达路径 题目描述 给定一个有 n 个节点的有向无环图&#xff0c;节点编号从 1 到 n。请编写一个函数&#xff0c;找出并返回所有从节点 1 到节点 n 的路径。每条路径应以节点编号的列表形式表示。 输入描述 第一行包含两个整数 N&#xff0c;M&…...

如何配置yolov10环境?

本文介绍如何快速搭建起yolov10环境&#xff0c;用于后续项目推理、模型训练。教程适用win、linux系统 yolo10是基于yolo8&#xff08;ultralytics&#xff09;的改进&#xff0c;环境配置跟yolo8几乎一模一样。 目录 第1章节&#xff1a;创建虚拟环境 第2章节&#xff1a;…...

『大模型笔记』GraphRAG:利用复杂信息进行发现的新方法!

GraphRAG:利用复杂信息进行发现的新方法! 文章目录 一. GraphRAG:利用复杂信息进行发现的新方法!1. 将RAG应用于私人数据集2. 整个数据集的推理3. 创建LLM生成的知识图谱4. 结果指标5. 下一步二. 参考文献微软官方推文:https://www.microsoft.com/en-us/research/blog/gra…...

数据结构1:C++实现变长数组

数组作为线性表的一种&#xff0c;具有内存连续这一特点&#xff0c;可以通过下标访问元素&#xff0c;并且下标访问的时间复杂的是O(1)&#xff0c;在数组的末尾插入和删除元素的时间复杂度同样是O(1)&#xff0c;我们使用C实现一个简单的边长数组。 数据结构定义 class Arr…...

C++入门基础篇(下)

目录 6.引用 6.1 引用的特性 6.2 const引用 7.指针和引用的关系 8.内联函数 9.nullptr 6.引用 引⽤不是新定义⼀个变量&#xff0c;⽽是给已存在变量取了⼀个别名&#xff0c;编译器不会为引⽤变量开辟内存空间&#xff0c; 它和它引⽤的变量共⽤同⼀块内存空间。比如&a…...

LabVIEW图像分段线性映射

介绍了如何使用LabVIEW对图像进行分段线性映射处理&#xff0c;通过对特定灰度值区间进行不同的线性映射调整&#xff0c;以优化图像的显示效果。案例中详细展示了如何配置和使用LabVIEW中的图像处理工具&#xff0c;包括设置分段区间、计算映射参数和应用映射函数等步骤。 实…...

Linux开发:进程件通过UDS传递内存文件句柄

Linux开发:进程间通过Unix Domain Socket传递文件描述符-CSDN博客 介绍了通过UDS传递文件描述符 Linux开发:通过memfd_create创建一个内存文件-CSDN博客 介绍了如果创建一个内存文件 将两者相结合,就可以通过UDS传递一块内存文件句柄也就是内存数据 //uds_fd.hpp #pragma …...

ChatGPT 2023年3月14日更新解读:GPT-4接入Plus,正式进入GPT-4时代

&#x1f525;个人主页&#xff1a;杨利杰YJlio❄️个人专栏&#xff1a;《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》&#x1f31f; 让复杂的事情更…...

Windows 11终极优化指南:如何用Win11Debloat快速清理系统垃圾与保护隐私

Windows 11终极优化指南&#xff1a;如何用Win11Debloat快速清理系统垃圾与保护隐私 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to…...

别再瞎猜了!手把手教你算清FPGA Aurora IP核的用户时钟(附8B/10B编码影响)

别再瞎猜了&#xff01;手把手教你算清FPGA Aurora IP核的用户时钟&#xff08;附8B/10B编码影响&#xff09; 当你在Xilinx Vivado中配置Aurora 8B/10B IP核时&#xff0c;是否曾被USER_CLK的计算问题困扰&#xff1f;这个看似简单的参数背后&#xff0c;其实隐藏着线速率、数…...

Spring Boot API 文档与 OpenAPI 集成最佳实践

Spring Boot API 文档与 OpenAPI 集成最佳实践 引言 API 文档是现代软件开发中不可或缺的一部分&#xff0c;它不仅帮助前端开发者理解如何调用后端接口&#xff0c;也是团队协作和维护的重要参考。Spring Boot 提供了丰富的工具来自动生成 API 文档&#xff0c;其中最流行的…...

百度网盘秒传技术终极指南:打破文件分享的时间限制

百度网盘秒传技术终极指南&#xff1a;打破文件分享的时间限制 【免费下载链接】rapid-upload-userscript-doc 秒传链接提取脚本 - 文档&教程 项目地址: https://gitcode.com/gh_mirrors/ra/rapid-upload-userscript-doc 在数字信息爆炸的时代&#xff0c;文件分享已…...

SpringBoot项目里用Sharding-JDBC做分库分表,这5个配置项最容易踩坑

SpringBoot整合Sharding-JDBC分库分表&#xff1a;五大高频配置陷阱与实战解决方案 当数据库单表数据量突破千万级大关时&#xff0c;分库分表几乎是每个Java开发者必须面对的课题。作为Apache ShardingSphere的核心模块&#xff0c;Sharding-JDBC以其轻量级、低侵入的特性成为…...

44《实车CAN总线报文ID含义与数据初步解读》

001、CAN总线基础与实车网络拓扑概述 从一次凌晨三点的“丢帧”说起 去年冬天,某主机厂的新能源车型在做冬季标定。凌晨三点,测试工程师打来电话,语气里带着疲惫和焦躁:“VCU发的车速信号,BMS偶尔收不到,但用CANoe监控又一切正常。”我赶到现场,第一件事不是看代码,而…...

AI编程新范式:基于.cursorrules的角色扮演开发环境实战指南

1. 项目概述&#xff1a;当AI助手有了“人设”&#xff0c;开发会变成一场情景喜剧吗&#xff1f;最近在折腾Cursor这个AI编程工具&#xff0c;发现了一个特别有意思的玩意儿&#xff1a;.cursorrules文件。简单来说&#xff0c;这玩意儿就像是你给Cursor这位“AI程序员”设定的…...

企者不立,跨者不行,SAP BTP 开发里的克制、边界与长久之道

老子这句话很像一段架构评审意见。站得太高,脚跟离地,反而站不稳;步子跨得太大,身体失衡,反而走不远;只相信自己的视角,反而看不明;只认自己的判断,反而不能显明价值;自我夸功,功劳反而站不住;自我矜持,生命力反而不长。把这段话放到 SAP BTP 开发里,它不是劝我们…...

动态紧凑模型在电子热设计中的高效应用

1. 动态紧凑模型在电子热设计中的核心价值在电子设备日益小型化、高功率化的今天&#xff0c;热管理已成为决定产品可靠性的关键因素。传统热仿真方法面临两大痛点&#xff1a;一是计算资源消耗大&#xff0c;特别是处理复杂封装结构时&#xff1b;二是难以准确预测半导体器件的…...