爬虫笔记_
爬虫简介


爬虫初始深入
爬虫在使用场景中的分类
- 通用爬虫:
- 抓取系统重要组成部分。抓取的是一整张页面数据
- 聚焦爬虫:
- 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。
- 增量式爬虫
- 监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
- 反爬机制
-
- 可以通过制定相应的策略或技术手段防止爬虫进行爬取。
- 反反爬策略
-
- 可以通过制定相关策略或技术手段破解反爬机制从而可以获取门户网站中相关的数据。
反爬机制:robots.txt协议
君子协议,规定了网站中哪些数据可以被爬虫爬取,哪些不可以。
HTTP&HTTPS
超文本传输协议:服务器和客户端进行数据交互的一种形式
常用请求头信息
- User-Agent:请求载体的身份标识
- Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
- Content-Type: 服务器响应回客户端的数据类型。
https协议
- 安全的超文本传输协议
加密方式
- 对称密钥加密:将密文和密钥一起发送
- 非对称密钥加密:公开密钥加密,私有密钥解密。(客户端拿到的公钥可能被篡改)
- 证书密钥加密(https):加入证】书认证机构

requests模块基础


以json文件保存到本地
file = open('./huanzhuanpin.json','w',encoding='utf-8')
json.dump(all_data,fp=file,ensure_ascii=False)
相关文章:
爬虫笔记_
爬虫简介 爬虫初始深入 爬虫在使用场景中的分类 通用爬虫: 抓取系统重要组成部分。抓取的是一整张页面数据 聚焦爬虫: 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。 增量式爬虫 监测网站中数据更新的情况。只会抓取网站中最新更新出来的…...
Spring设计模式,事务管理和代理模式的应用
扩充:贝叶斯定理答案见底。 设计模式对关于面向对象问题的具体解决方案. 1,单例多例 在设计单例模式时,要注意两个点 1.构造方法要私有 2.成员变量要私有 3.创建对象所用的方法要被synchronized修饰.(因为方法体中会涉及到判断当…...
基于海康Ehome/ISUP接入到LiveNVR实现海康摄像头、录像机视频统一汇聚,做到物联网无插件直播回放和控制
LiveNVR支持海康NVR摄像头通EHOME接入ISUP接入LiveNVR分发视频流或是转GB28181 1、海康 ISUP 接入配置2、海康设备接入2.1、海康EHOME接入配置示例2.2、海康ISUP接入配置示例 3、通道配置3.1、直播流接入类型 海康ISUP3.2、海康 ISUP 设备ID3.3、启用保存3.4、接入成功 4、相关…...
Linux下git安装及使用
Linux下Git使用 1. git的安装 sudo apt install git安装完,使用git --version查看git版本 2. 配置git git config --global user.name "Your Name“ ##配置用户 git config --global user.email emailexample.com ##配置邮箱git config --global --list …...
python读取图片
要在Python中读取图片,你可以使用第三方库Pillow(Python Imaging Library,PIL)或OpenCV。以下是使用这两个库的示例: 使用Pillow库读取图片: 首先,确保你已经安装了Pillow库。如果还没有安装&am…...
虚幻4学习笔记(15)读档 和存档 的实现
虚幻4学习笔记 读档存档 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 读档 添加UI蓝图 SaveGame_UMG 添加Scroll Box 修改Scrollbar Thickness滚动条厚度 15 15 勾选 is variable 添加text 读档界面 添加背景模糊 添加UI蓝图 SaveGame_Slot …...
Spring面试题22:Spring支持哪些ORM框架?优缺点分别是什么?Spring可以通过哪些方式访问Hibernate?
该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Spring支持哪些ORM框架?优缺点分别是什么? Spring 支持多种 ORM(对象关系映射)框架,其中包括: Hibernate:Hibernate 是一个强大的 ORM 框架…...
流行的Python库numpy及Pandas简要介绍
numpy.ndarray 是NumPy库中的主要数据结构,它是一个多维数组,用于存储和操作数值数据。NumPy是Python中用于数值计算的强大库,numpy.ndarray 是它的核心数据类型,提供了高效的数值运算和广泛的数学函数。 以下是 numpy.ndarray 的…...
【二、安装centOS】
下载 地址:https://mirrors.aliyun.com/centos/ 地址 1、https://mirrors.aliyun.com/centos/7.9.2009/ 2、https://mirrors.aliyun.com/centos/7.9.2009/isos/ 3、https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/ 选哪一个 可以选择第一个࿰…...
【动手学深度学习-Pytorch版】序列到序列的学习(包含NLP常用的Mask技巧)
序言 这一节是对于“编码器-解码器”模型的实际应用,编码器和解码器架构可以使用长度可变的序列作为输入,并将其转换为固定形状的隐状态(编码器实现)。本小节将使用“fra-eng”数据集(这也是《动手学习深度学习-Pytor…...
AUTOSAR 面试知识回顾
如果答不上来,就讲当时做了什么 1. Ethernet基础: 硬件接口: ECU到PHY: data 是MII总线, 寄存器控制是SMI总线【MDCMDIO两根线, half duplex】PHY输出(100BASE-T1): MDI总线,2 wire 【T1: twisted 1 pair …...
华为NFC设置教程(门禁卡/公交卡/校园卡等)
今天把华为NFC设置教程分享给大家 出门带门禁卡、校园卡、银行卡、身份证……东西又多,携带又麻烦,还容易搞丢,有没有一种方法可以把它们都装下?有!只要一部手机,出门不带卡包,各种证件&#x…...
基于微信小程序的音乐播放器设计与实现(源码+lw+部署文档+讲解等)
前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 👇🏻…...
如何取消显示Notepad++每行显示的CRLF符号
新电脑中重新安装了Nodepad,打开记事本后发现出现了许多黑底的CR|LF标记,特别碍眼。 如何取消呢? 视图 -> 显示符号 -> 取消勾选 显示行尾符操作步骤 预期效果...
数据结构与算法之时间复杂度和空间复杂度(C语言版)
1. 时间复杂度 1.1 概念 简而言之,算法中的基本操作的执行次数,叫做算法的时间复杂度。也就是说,我这个程序执行了多少次,时间复杂度就是多少。 比如下面这段代码的执行次数: void Func1(int N) {int count 0;for…...
TLS/SSL(十) session缓存、ticket 票据、TLS 1.3的0-RTT
一 TLS优化手段 TLS 为了提升握手速度而提出优化手段,主要是减少TLS握手中RTT消耗的时间关于session cache和session ticket,nginx关于ssl握手的地方都有影子 [指令] https面经 ① session 缓存 resume: 重用,复用 案例: 第二次访问www.baidu.com 说明&#x…...
C++设计模式_06_Decorator 装饰模式
本篇将会介绍Decorator 装饰模式,它是属于一个新的类别,按照C设计模式_03_模板方法Template Method中介绍的划分为“单一职责”模式。 “单一职责”模式讲的是在软件组件的设计中,如果责任划分的不清晰,使用继承得到的结果往往是随…...
MySQL 8.0数据库主从搭建和问题处理
错误处理: 在从库通过start slave启动主从复制时出现报错 Last_IO_Error: error connecting to master slaveuser10.115.30.212:3306 - retry-time: 60 retries: 1 message: Authentication plugin caching_sha2_password reported error: Authentication require…...
公众号迁移多久可以完成?
公众号账号迁移的作用是什么?只能变更主体吗?长期以来,由于部分公众号在注册时,主体不准确的历史原因,或者公众号主体发生合并、分立或业务调整等现实状况,在公众号登记主体不能对应实际运营人的情况下&…...
Spring Cloud Stream Kafka(3.2.2版本)使用
问题 正在尝试只用Spring Cloud Stream Kafka。 步骤 配置 spring:cloud:function:definition: project2Building stream:kafka:binder:brokers: xxxx:9002configuration:enable.auto.commit: falsesession.timeout.ms: 30000max.poll.records: 30allow.auto.create.top…...
别光记公式!用Python+OpenCV手把手带你标定相机内参外参(附完整代码)
别光记公式!用PythonOpenCV手把手带你标定相机内参外参(附完整代码) 在计算机视觉项目中,相机标定是构建三维感知系统的第一步。很多开发者能背诵内参矩阵的数学形式,却对如何用代码实际获取这些参数一头雾水。本文将用…...
VutronMusic:重新定义跨平台音乐体验的全能播放器
VutronMusic:重新定义跨平台音乐体验的全能播放器 【免费下载链接】VutronMusic 高颜值的第三方网易云播放器;支持流媒体音乐,如navidrome、jellyfin、emby;支持本地音乐播放、离线歌单、逐字歌词、桌面歌词、Touch Bar歌词、Mac状…...
OpenClaw隐私保护机制:Qwen3.5-9B-AWQ-4bit处理证件照自动打码
OpenClaw隐私保护机制:Qwen3.5-9B-AWQ-4bit处理证件照自动打码 1. 为什么需要自动化隐私保护 去年帮家人整理电子档案时,我遇到了一个棘手问题:上百张包含身份证、银行卡的照片需要手动打码。用PS一张张处理不仅耗时,还容易遗漏…...
Zabbix7监控Oracle 19c实战:手把手教你配置zabbix-agent2环境变量与TSN
Zabbix7监控Oracle 19c全栈配置指南:从环境变量到TSN深度解析 在当今企业级监控领域,Zabbix7与Oracle 19c的组合已成为数据库监控的黄金标准。本文将带您深入探索如何通过zabbix-agent2实现Oracle数据库的全方位监控,特别聚焦于CentOS7.9环境…...
新手零基础入门:借助快马AI生成带详细注释的51单片机流水灯项目
作为一个刚接触51单片机的新手,我最近尝试用InsCode(快马)平台完成了第一个流水灯项目。整个过程比我预想的顺利很多,特别适合零基础入门。下面分享我的学习过程和关键要点: 项目准备阶段 刚开始连开发板长什么样都不知道,通过平台…...
XUnity.AutoTranslator实战指南:Unity游戏实时翻译解决方案与开发者实践指南
XUnity.AutoTranslator实战指南:Unity游戏实时翻译解决方案与开发者实践指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 1. 游戏翻译的核心痛点与技术破局 游戏玩家和开发者常常面临三大…...
音频处理必看:短时傅里叶变换(STFT)在语音识别中的5个典型应用场景
音频处理必看:短时傅里叶变换(STFT)在语音识别中的5个典型应用场景 语音识别技术正以前所未有的速度渗透到智能家居、车载系统、客服机器人等日常场景中。作为这项技术的核心算法之一,短时傅里叶变换(STFT)就像一位隐形的音频解码…...
终极moondream内存优化指南:解决大图像处理OOM问题的5个实用技巧
终极moondream内存优化指南:解决大图像处理OOM问题的5个实用技巧 【免费下载链接】moondream tiny vision language model 项目地址: https://gitcode.com/GitHub_Trending/mo/moondream moondream作为一款轻量级视觉语言模型(tiny vision langua…...
BepuPhysics2多线程架构解密:如何充分利用现代CPU实现并行物理仿真
BepuPhysics2多线程架构解密:如何充分利用现代CPU实现并行物理仿真 【免费下载链接】bepuphysics2 Pure C# 3D real time physics simulation library, now with a higher version number. 项目地址: https://gitcode.com/gh_mirrors/be/bepuphysics2 BepuPh…...
8GB显存跑大模型?Qwen3-0.6B-FP8部署与效果实测全记录
8GB显存跑大模型?Qwen3-0.6B-FP8部署与效果实测全记录 1. 引言:轻量级大模型的新选择 在AI模型日益庞大的今天,如何在有限硬件资源上运行高效的大语言模型成为开发者关注的焦点。Qwen3-0.6B-FP8作为阿里达摩院最新推出的轻量级模型࿰…...
