Python爬虫-requests模块
前戏:
1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源...
2.你是否在节假日出行高峰的时候,想快速抢购火车票成功..。
3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品.
什么是爬虫:
- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程,
爬虫的价值:
-实际应用
-就业
爬虫究竟是合法还是违法的?
在法律中是不被禁止
具有违法风险
善意爬虫 恶意爬虫
爬虫带来的风险可以体现在如下2方面:
-爬虫干扰了被访问网站的正常运营
-爬虫抓取了收到法律保护的特定类型的数据或信息
如何在使用编写爬虫的过程中避免进入局子的厄运呢?
- 时常的优化自己的程序,避免干扰被访问网站的正常运行
-在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播
爬虫在使用场景中的分类
-通用爬虫:
抓取系统重要组成部分。抓取的是一整张页面数据。
-聚焦爬虫:
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
-增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
爬虫的矛与盾
反爬机制
门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户
robots.txt协议:任意网站后+/robots.txt即可见
君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
http协议
- 概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息:请求载体的身份标识
- User-Agent:Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
-Content-Type:服务器响应回客户端的数据类型
https协议:- 安全的超文本传输协议(security)
加密方式
对称秘钥加密
非对称秘钥加密
证书秘钥加密
正文
import requests# 检查当前脚本是否作为主程序运行
if __name__ == "__main__":# 定义 KFC 官方网站获取门店列表信息的 URLurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx'# 定义 HTTP 请求的头部信息,模拟浏览器请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}# 提示用户输入一个位置信息,作为搜索门店的关键词keyword = input('enter location:') # 例如 "北京"# 循环请求第1页到第9页的数据for page in range(1,10): # 定义发送请求时所需的参数params = {'op': 'keyword', # 操作类型为关键词搜索'cname': '', # 城市名称(此处为空)'pid': '', # 其他参数(此处为空)'keyword': keyword, # 用户输入的关键词'pageIndex': page, # 当前请求的页面索引'pageSize': 1000, # 每页显示的门店数量}# 尝试发送请求并处理响应try:# 发送 GET 请求,请求参数包括 URL、参数和头部信息response = requests.get(url=url, params=params, headers=headers)# 检查响应状态码,如果不是 200,将引发 HTTPError 异常response.raise_for_status() # 获取响应内容page_text = response.text# 构建文件名,包括关键词、页码和 .html 扩展名filename = f'{keyword}_page_{page}.html'# 打开一个文件,以写入模式打开,并指定编码为 utf-8with open(filename, 'w', encoding='utf-8') as fp:# 将响应内容写入到文件中fp.write(page_text)# 打印一条消息,表明文件已经成功保存print(f'{filename} 保存成功!!!')# 捕获由 requests 库抛出的任何异常except requests.RequestException as e:# 打印异常信息print(f'请求错误: {e}')
相关文章:
Python爬虫-requests模块
前戏: 1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源... 2.你是否在节假日出行高峰的时候,想快速抢购火车票成功..。 3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品. …...
适用于PyTorch 2.0.0的Ubuntu 22.04上CUDA v11.8和cuDNN 8.7安装指南
将下面内容保存为install.bash,直接用bash执行一把梭解决 #!/bin/bash### steps #### # verify the system has a cuda-capable gpu # download and install the nvidia cuda toolkit and cudnn # setup environmental variables # verify the installation ######…...
使用conda安装openturns
目录 1. 有效方法2. 整体分析使用pip安装使用conda安装验证安装安装过程中可能遇到的问题 1. 有效方法 conda install -c conda-forge openturns2. 整体分析 OpenTURNS是一个用于概率和统计分析的软件库,主要用于不确定性量化。你可以通过以下步骤在Python环境中安…...
Chameleon:动态UI框架使用详解
文章目录 引言Chameleon框架原理核心概念工作流程 基础使用安装与配置创建基础界面 高级使用自定义组件响应式布局数据流与状态管理 结论 引言 Chameleon,作为一种动态UI框架,旨在通过灵活、高效的方式帮助开发者构建跨平台、响应用户交互的图形用户界面…...
7.10飞书一面面经
问题描述 Redis为什么快? 这个问题我遇到过,但是没有好好总结,导致答得很乱。 答:Redis基于内存操作: 传统的磁盘文件操作相比减少了IO,提高了操作的速度。 Redis高效的数据结构:Redis专门设计…...
[数据结构] 归并排序快速排序 及非递归实现
()标题:[数据结构] 归并排序&&快速排序 及非递归实现 水墨不写bug (图片来源于网络) 目录 (一)快速排序 类比递归谋划非递归 快速排序的非递归实现: (二)归并排序 归…...
面试题 12. 矩阵中的路径
矩阵中的路径 题目描述示例 题解 题目描述 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通过相邻的单元格内的字母构成࿰…...
钉钉扫码登录第三方
钉钉文档 实现登录第三方网站 - 钉钉开放平台 (dingtalk.com) html页面 将html放在 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>登录</title>// jquery<script src"http://code.jqu…...
多GPU系统中的CUDA设备不可用问题
我们在使用多GPU系统时遇到了CUDA设备不可用的问题,详细情况如下: 问题描述: 我们在一台配备有8块NVIDIA GeForce RTX 3090显卡的服务器上运行CUDA程序时,遇到了如下错误: cudaErrorDevicesUnavailable: CUDA-capabl…...
python的列表推导式
文章目录 前言一、解释列表推导式二、在这句代码中的应用三、示例四、使用 for 循环的等价代码总结 前言 看看这一行代码:questions [q.strip() for q in examples["question"]] ,问题是最外层的 中括号是做什么的? 最外层的中括…...
类与对象(2)
我们在了解了类的简单创建后,需要对类的创建与销毁有进一步的了解,也就是对于类的构造函数与析构函数的了解。 目录 注意: 构造函数的特性: 析构函数: 注意: 该部分内容为重难点内容,在正常…...
迂回战术:“另类“全新安装 macOS 15 Sequoia beta2 的极简方法
概述 随着 WWDC 24 的胜利闭幕,Apple 平台上各种 beta 版的系统也都“跃跃欲出”,在 mac 上自然也不例外。 本次全新的 macOS 15 Sequoia(红杉)包含了诸多重磅升级,作为秃头开发者的我们怎么能不先睹为快呢࿱…...
如何设计一个秒杀系统,(高并发高可用分布式集群)
设计一个高并发、高可用的分布式秒杀系统是一个非常具有挑战性的任务,需要从架构、数据库、缓存、并发控制、降级限流等多个维度进行考虑。以下是一个典型的秒杀系统设计思路: 1. 系统架构 微服务架构 拆分服务:将系统功能拆分为多个微服务…...
深度优先搜索(所有可达路径)
参考题目:所有可达路径 题目描述 给定一个有 n 个节点的有向无环图,节点编号从 1 到 n。请编写一个函数,找出并返回所有从节点 1 到节点 n 的路径。每条路径应以节点编号的列表形式表示。 输入描述 第一行包含两个整数 N,M&…...
如何配置yolov10环境?
本文介绍如何快速搭建起yolov10环境,用于后续项目推理、模型训练。教程适用win、linux系统 yolo10是基于yolo8(ultralytics)的改进,环境配置跟yolo8几乎一模一样。 目录 第1章节:创建虚拟环境 第2章节:…...
『大模型笔记』GraphRAG:利用复杂信息进行发现的新方法!
GraphRAG:利用复杂信息进行发现的新方法! 文章目录 一. GraphRAG:利用复杂信息进行发现的新方法!1. 将RAG应用于私人数据集2. 整个数据集的推理3. 创建LLM生成的知识图谱4. 结果指标5. 下一步二. 参考文献微软官方推文:https://www.microsoft.com/en-us/research/blog/gra…...
数据结构1:C++实现变长数组
数组作为线性表的一种,具有内存连续这一特点,可以通过下标访问元素,并且下标访问的时间复杂的是O(1),在数组的末尾插入和删除元素的时间复杂度同样是O(1),我们使用C实现一个简单的边长数组。 数据结构定义 class Arr…...
C++入门基础篇(下)
目录 6.引用 6.1 引用的特性 6.2 const引用 7.指针和引用的关系 8.内联函数 9.nullptr 6.引用 引⽤不是新定义⼀个变量,⽽是给已存在变量取了⼀个别名,编译器不会为引⽤变量开辟内存空间, 它和它引⽤的变量共⽤同⼀块内存空间。比如&a…...
LabVIEW图像分段线性映射
介绍了如何使用LabVIEW对图像进行分段线性映射处理,通过对特定灰度值区间进行不同的线性映射调整,以优化图像的显示效果。案例中详细展示了如何配置和使用LabVIEW中的图像处理工具,包括设置分段区间、计算映射参数和应用映射函数等步骤。 实…...
Linux开发:进程件通过UDS传递内存文件句柄
Linux开发:进程间通过Unix Domain Socket传递文件描述符-CSDN博客 介绍了通过UDS传递文件描述符 Linux开发:通过memfd_create创建一个内存文件-CSDN博客 介绍了如果创建一个内存文件 将两者相结合,就可以通过UDS传递一块内存文件句柄也就是内存数据 //uds_fd.hpp #pragma …...
Grok-1深度实战指南:3140亿参数混合专家模型的高级部署与优化
Grok-1深度实战指南:3140亿参数混合专家模型的高级部署与优化 【免费下载链接】grok-1 马斯克旗下xAI组织开源的Grok AI项目的代码仓库镜像,此次开源的Grok-1是一个3140亿参数的混合专家模型 项目地址: https://gitcode.com/GitHub_Trending/gr/grok-1…...
终极指南:Fn与云原生生态的完美集成,如何与Istio、Prometheus等工具无缝协作
终极指南:Fn与云原生生态的完美集成,如何与Istio、Prometheus等工具无缝协作 【免费下载链接】fn The container native, cloud agnostic serverless platform. 项目地址: https://gitcode.com/gh_mirrors/fn/fn Fn是一款容器原生的无服务器平台&…...
MiniCPM-o-4.5-nvidia-FlagOS与ChatGPT对比评测:代码生成与逻辑推理
MiniCPM-o-4.5-nvidia-FlagOS与ChatGPT对比评测:代码生成与逻辑推理 最近在开发者圈子里,关于开源大模型和闭源大模型谁更强的讨论一直没停过。特别是涉及到代码生成和逻辑推理这种硬核任务,大家心里都有一杆秤。今天,我们就拿一…...
30分钟快速搭建企业级工作流系统:RuoYi-Flowable-Plus完整指南
30分钟快速搭建企业级工作流系统:RuoYi-Flowable-Plus完整指南 【免费下载链接】RuoYi-Flowable-Plus 本项目基于 RuoYi-Vue-Plus 进行二次开发扩展Flowable工作流功能,支持在线表单设计和丰富的工作流程设计能力。如果觉得这个项目不错,麻烦…...
告别传统拍摄:THE LEATHER ARCHIVE低成本生成高质量皮衣展示图
告别传统拍摄:THE LEATHER ARCHIVE低成本生成高质量皮衣展示图 1. 时尚行业的数字革命 在时尚电商领域,商品展示图的质量直接影响消费者的购买决策。传统皮衣拍摄面临三大痛点: 高昂成本:专业模特、摄影师、场地租赁等费用动辄…...
告别传统BPMN:wflow工作流设计器如何让普通员工5分钟搭建审批流程?
告别传统BPMN:wflow工作流设计器如何让普通员工5分钟搭建审批流程? 【免费下载链接】wflow workflow 工作流设计器,企业OA流程设计。表单流程设计界面操作超级简单!!普通用户也能分分钟上手,不需要专业知识…...
Golang面试避坑指南:这5个并发问题90%的人答不对
Golang面试避坑指南:这5个并发问题90%的人答不对 刚接触Go语言的开发者往往会被其简洁的语法和高效的并发模型所吸引,但真正深入使用后才会发现,并发编程中隐藏着许多意想不到的陷阱。特别是在技术面试中,面试官常常会通过精心设计…...
ChatGPT API调用实战:从基础接入到生产环境优化指南
ChatGPT API调用实战:从基础接入到生产环境优化指南 作为一名开发者,在将ChatGPT这类强大的AI能力集成到自己应用中的过程中,我踩过不少坑。从最初的简单请求,到后来面对高并发、长对话、成本控制等生产级挑战,整个过…...
使用快马平台基于OpenSpec一键生成RESTful API原型,加速后端服务开发
今天想和大家分享一个快速搭建RESTful API原型的经验。最近在开发一个用户管理系统,发现用OpenSpec规范配合InsCode(快马)平台可以省去大量重复工作,特别适合需要快速验证想法的场景。 OpenSpec规范的价值 OpenSpec(也就是OpenAPI规范&#x…...
突破Steam依赖:SteamEmulator让局域网游戏自由联机的实现与价值
突破Steam依赖:SteamEmulator让局域网游戏自由联机的实现与价值 【免费下载链接】SteamEmulator MIRROR REPO - Credits : Mr. Goldberg. Steam emulator that emulates Steam online features. Lets you play games that use the Steam multiplayer APIs on a LAN …...
