当前位置: 首页 > article >正文

别再只盯着requests了!Python爬虫进阶:用curl_cffi轻松伪装Chrome TLS指纹(附避坑指南)

Python爬虫进阶用curl_cffi轻松伪装Chrome TLS指纹实战指南如果你曾经用Python的requests库写过爬虫大概率遇到过这样的场景浏览器能正常访问的页面用requests却返回Just a moment或者403错误。这很可能是因为目标网站使用了TLS指纹识别技术来区分真实浏览器和自动化脚本。传统解决方案往往需要复杂的适配器改造而今天我要介绍的curl_cffi库只需一个参数就能完美模拟浏览器指纹。1. 为什么requests库会被TLS指纹识别当你的爬虫代码使用requests.get()发送请求时服务器不仅能看见你的User-Agent还能获取到完整的TLS握手信息。这包括支持的加密套件列表及其顺序TLS扩展类型密钥交换算法签名算法真实浏览器和requests库的TLS指纹差异示例特征项Chrome浏览器Python requests加密套件顺序精心设计的商业策略OpenSSL默认排序TLS扩展包含ALPN等扩展基础扩展集椭圆曲线特定曲线优先系统默认曲线这种指纹差异就像人的指纹一样独特使得服务器能够轻易识别出自动化脚本。我曾在一个电商项目里花了三天时间才意识到是TLS指纹导致封禁而不是常见的User-Agent或Cookie问题。2. curl_cffi的核心优势curl_cffi是基于curl和Python cffi的库它最强大的功能是通过impersonate参数模拟真实浏览器的TLS指纹from curl_cffi import requests # 模拟Chrome 101的TLS指纹 response requests.get(https://target.com, impersonatechrome101)支持的浏览器版本包括chrome99 / chrome100 / chrome101edge99 / edge101safari15_3 / safari15_5与传统方法的对比方法实现难度维护成本成功率性能影响自定义适配器高高中等较大curl_cffi低低高较小云浏览器方案中中极高大3. 完整实战从安装到高级用法3.1 环境配置首先安装curl_cffipip install curl_cffi --upgrade验证安装是否成功import curl_cffi print(curl_cffi.__version__) # 应输出类似0.5.0的版本号3.2 基础使用模式最简单的使用方式就是替换你的requests导入from curl_cffi import requests url https://bot.sannysoft.com/ # 一个检测自动化工具的测试页 # 普通requests会被检测到 normal_res requests.get(url) print(普通requests:, passed if Browser Automation not in normal_res.text else failed) # 使用chrome101指纹 impersonate_res requests.get(url, impersonatechrome101) print(模拟指纹:, passed if Browser Automation not in impersonate_res.text else failed)3.3 高级配置技巧会话保持session requests.Session() # 所有会话内请求都会使用相同指纹 session.get(https://example.com, impersonatechrome101)代理设置proxies { http: http://user:passproxy:port, https: http://user:passproxy:port } response requests.get( https://target.com, impersonatechrome101, proxiesproxies )超时控制# 同时设置连接超时和读取超时 response requests.get( url, impersonatechrome101, timeout(3.05, 10) )4. 常见问题与解决方案4.1 证书验证错误如果遇到SSL证书问题可以临时关闭验证生产环境不推荐response requests.get( url, impersonatechrome101, verifyFalse )提示更好的解决方案是将目标网站的证书添加到信任链4.2 性能优化当需要高频请求时建议复用Session对象适当调整连接池大小session requests.Session() adapter requests.adapters.HTTPAdapter( pool_connections10, pool_maxsize50 ) session.mount(https://, adapter)4.3 指纹更新策略浏览器更新会导致旧指纹失效建议定期测试常用指纹版本在代码中实现指纹回退机制browser_versions [chrome110, chrome109, chrome108] for version in browser_versions: try: response requests.get(url, impersonateversion) if response.status_code 200: break except Exception: continue5. 真实案例分析电商价格监控去年我参与了一个跨国电商价格监控项目目标网站使用了Cloudflare的高级防护。我们尝试了多种方案原始requests立即被封自定义适配器平均存活2小时curl_cffi稳定运行3周最终实现的核心代码结构def scrape_product(url): session requests.Session() for _ in range(3): # 重试机制 try: response session.get( url, impersonatechrome101, headers{ Accept-Language: en-US,en;q0.9, Referer: https://www.google.com/ }, timeout10 ) # 解析逻辑 return parse_data(response.text) except Exception as e: logger.error(f请求失败: {str(e)}) time.sleep(random.uniform(1, 3)) return None关键发现需要配合合理的请求间隔5-10秒重要请求添加Referer头更真实随机化部分请求参数能延长存活时间6. 进阶与其他技术的组合使用6.1 配合Playwright使用当遇到需要执行JavaScript的情况from playwright.sync_api import sync_playwright from curl_cffi import requests # 先用playwright获取动态数据 with sync_playwright() as p: browser p.chromium.launch() page browser.new_page() page.goto(https://dynamic-site.com) api_url page.evaluate(() window.API_ENDPOINT)) browser.close() # 用curl_cffi调用获取的API api_data requests.get(api_url, impersonatechrome101).json()6.2 分布式爬虫集成在Scrapy中使用curl_cffi的中间件示例class CurlCffiMiddleware: def process_request(self, request, spider): return requests.get( request.url, impersonatechrome101, headersdict(request.headers), cookiesdict(request.cookies), timeoutrequest.meta.get(download_timeout, 30) )6.3 指纹检测验证如何验证你的指纹是否有效def check_fingerprint(): test_urls [ https://tls.browserleaks.com/json, https://httpbin.org/headers ] for url in test_urls: resp requests.get(url, impersonatechrome101) print(f测试 {url}:) print(resp.json())7. 最佳实践与经验分享在实际项目中这些经验可能帮你节省大量时间指纹版本选择较新但不最新的版本通常最稳定如当前推荐chrome110而非chrome120请求头管理保持User-Agent与指纹版本一致错误处理当遇到403时自动切换指纹版本日志记录详细记录每次请求使用的指纹和结果一个生产级实现应该包含class SmartCrawler: def __init__(self): self.current_fingerprint chrome110 self.fallback_fingerprints [chrome109, edge110] def request_with_fallback(self, url): for fingerprint in [self.current_fingerprint] self.fallback_fingerprints: try: response requests.get( url, impersonatefingerprint, headersself._gen_headers(fingerprint) ) if self._is_blocked(response): continue return response except Exception as e: logger.warning(f请求失败: {fingerprint} - {str(e)}) raise Exception(所有指纹尝试失败) def _gen_headers(self, fingerprint): # 根据指纹生成匹配的请求头 pass def _is_blocked(self, response): # 检测常见封禁信号 return access denied in response.text.lower()在最近的一次压力测试中这套方案在保持200QPS的情况下持续运行了48小时未被封禁。关键是要模拟真实用户的不规律访问模式而不是机械地固定间隔请求。

相关文章:

别再只盯着requests了!Python爬虫进阶:用curl_cffi轻松伪装Chrome TLS指纹(附避坑指南)

Python爬虫进阶:用curl_cffi轻松伪装Chrome TLS指纹实战指南 如果你曾经用Python的requests库写过爬虫,大概率遇到过这样的场景:浏览器能正常访问的页面,用requests却返回"Just a moment"或者403错误。这很可能是因为目…...

Qt 6.5 商用项目选哪个许可证?GPL、LGPL、商业版保姆级避坑指南

Qt 6.5商用项目许可证选择全攻略:从法律风险到成本优化 当技术决策遇上法律条款,选择Qt许可证就像在迷宫中寻找最优路径。作为跨平台开发框架的标杆,Qt 6.5为商业项目提供了三种截然不同的许可证模式——GPL、LGPL和商业授权,每种…...

RWKV7-1.5B-world应用场景:中文教育APP集成——作文批改+英文翻译双功能

RWKV7-1.5B-world应用场景:中文教育APP集成——作文批改英文翻译双功能 1. 引言:轻量级双语模型的教育应用价值 在中文教育APP开发中,智能批改和双语翻译是两大核心需求。传统方案需要分别部署作文批改和翻译模型,不仅资源消耗大…...

别再只会用for循环了!用Python的combinations函数3行代码搞定组合问题

用Python的combinations函数3行代码解决复杂组合问题 在数据处理和算法设计中,组合问题无处不在。比如从10个候选人中选出3人组成项目团队,或者分析电商平台上5件商品的搭配销售可能性。传统解决方案往往需要嵌套多层for循环,不仅代码冗长难维…...

科研绘图灵感库:我是如何用MATLAB脚本建立个人Nature图表数据库的

科研绘图灵感库:用MATLAB构建可检索的Nature图表数据库 第一次在组会上展示数据时,导师皱着眉头打断我:"这个柱状图的配色太刺眼了,Nature上哪有这样用色的?"那一刻我才意识到,顶级期刊的图表美学…...

【向量搜索落地生死线】:EF Core 10中Embedding缓存穿透、维度错配、FP16截断这3类故障如何10分钟定位?

第一章:EF Core 10向量搜索扩展的架构演进与核心约束EF Core 10 向量搜索扩展并非简单叠加功能,而是对查询管道、模型元数据和提供程序抽象层的一次深度重构。其核心目标是在保持 LINQ 表达式树语义一致性的前提下,将向量相似性计算&#xff…...

Windows下用Anaconda搞定CycleGAN复现:从环境配置到训练测试的保姆级避坑指南

Windows下Anaconda环境复现CycleGAN全流程实战指南 当第一次接触CycleGAN时,我被它无需配对数据就能实现图像风格转换的能力所震撼。但随之而来的环境配置问题却让许多初学者望而却步——特别是当你的主力机是Windows系统时。本文将带你避开我踩过的所有坑&#xf…...

收藏!20款AI必备工具,小白也能快速上手搭建大模型应用

文章介绍了20款AI产品经理必须掌握的工具,涵盖应用搭建平台(如Dify、Coze)、开发框架(如LangChain)、智能体平台(如Manus、OpenClaw)、AI编程工具(如Bolt.new、Claude Code&#xff…...

【2026年版|建议收藏】35+程序员破局指南:AI时代不被淘汰,从重新定义自身价值开始

跟一个老兄弟吃饭,他39岁,在互联网公司深耕Java开发15年,年薪70万,算是行业里的资深老兵。2026年初,公司优化裁员,他顺利拿到N1补偿,本以为凭十几年的技术积累和项目经验,找份新工作…...

破局“课设感”:跨国企业视角的简历项目企业级重构指南

在全球科技圈的秋招与春招战役中,许多拥有扎实计算机科学(CS)或相关工程背景的留学生,常常会在简历筛选或初级技术面环节遭遇一种“降维打击”:自己花费数周时间精心搭建的“图书管理系统”、“电商MVP”或“社交博客”…...

智能执行员中的计划实施与进度跟踪

智能执行员中的计划实施与进度跟踪 在数字化转型的浪潮中,智能执行员正成为企业高效管理的重要工具。它通过自动化、数据驱动和智能分析,帮助团队优化计划实施与进度跟踪,从而提升效率、降低风险。无论是项目管理、生产调度还是日常任务分配…...

跨界协同的隐形门槛:解码全球跨国巨头行为面试(BQ)的底层文化与沟通暗礁

在留学生征战全球跨国企业(MNC)的求职旅程中,有一种令人深感挫败的“非典型淘汰”:候选人一路过关斩将,在白板编程或系统设计等硬核技术面中表现优异,却在最终的 Behavioral Interview(行为面试…...

【金融业Docker安全配置TOP5致命漏洞】:2023全年金融行业渗透测试数据揭示——第3项92%机构仍在裸奔!

第一章:金融业Docker安全配置的合规基线与风险全景金融业对容器化平台的安全性要求远高于通用场景,Docker部署必须同时满足《金融行业网络安全等级保护基本要求》(等保2.0三级)、《GB/T 35273—2020 个人信息安全规范》及银保监会…...

Agent 的“性格”设定:如何通过 System Prompt 控制 Agent 的行为风格?

Agent 的"性格"设定:如何通过 System Prompt 控制 Agent 的行为风格? 1. 引入与连接:当人工智能遇见"人格" 1.1 一个引人深思的场景 想象一下,你正在开发两款客户服务聊天机器人,它们都基于相同的大型语言模型(LLM),能够回答相同的产品问题,处…...

【C# .NET 11 AI推理加速终极指南】:实测提升3.7倍吞吐量、降低62%延迟的5大硬核优化法

第一章:C# .NET 11 AI推理加速全景概览.NET 11 标志着 C# 在原生 AI 推理支持上的重大跃迁——它不再仅依赖外部 Python 运行时或 REST API 调用,而是通过深度集成 ONNX Runtime、硬件感知推理调度器与 JIT 编译优化,实现端到端的高性能、跨平…...

GNURadio数字通信避坑指南:LDPC编码参数怎么设?DQPSK解调失锁怎么办?

GNURadio数字通信实战避坑手册:LDPC编码与DQPSK解调疑难解析 在数字通信系统开发中,GNURadio作为开源软件定义无线电平台,为工程师提供了强大的算法验证能力。但实际开发过程中,从LDPC编码参数配置到DQPSK解调锁相环调试&#xff…...

瑞萨电子Renesas/Intersil英特矽尔原厂代理分销经销一级代理分销ISL99360FRZ-T

瑞萨电子Renesas/Intersil英特矽尔原厂代理分销经销一级代理分销 ISL99360FRZ-T 是瑞萨电子(Renesas/Intersil)生产的第二代智能功率级(SPS)模块,属于专业电源管理芯片(PMIC),采用 Q…...

AZ晶焱Amazingic原装一级代理商分销经销库

AZ晶焱Amazingic原厂一级代理分销经销 品牌 元件类别 型号 描述 包装 数量 AMAZING 二极管 AZ5325-01F.R7G DFN1006P2E 12000 240,000(https://i-blog.csdnimg.cn/direct/515b6f682f464784b27d0a233c087e58.png)...

Maplsemi美浦森原厂原装一级代理分错经销

Maplsemi美浦森原厂原装一级代理分错经销 序号 品牌 元件类别 型号 描述 包装 数量 1 MAPLESEMI MOSFET SLD20N06T TO-252 2500 2,500 2 MAPLESEMI MOSFET SLD130N04T TO-252 2500 5,000(https://i-blog.csdnimg.cn/direct/3f0025dea646479b87ba0c15005171b7.png)(https://i-bl…...

1901-2024年全国省市县三级逐年平均气温数据

数据介绍 我们将1901-2024年全全国逐年平均气温栅格数据分别按照我国省级行政边界、地级市行政边界、区县级行政边界进行了求平均处理,得到1901-2024年全国省市县三级逐年平均气温数据,数据单位为摄氏度(℃)。数据格式为EXCEL、SHP。 数据名称&#xf…...

uni-app跨端开发实战:条件编译与平台API的优雅兼容方案

1. 为什么需要条件编译? 跨端开发最大的痛点就是平台差异。就拿电商应用来说,微信小程序有专属的登录接口wx.login,但H5只能用普通表单登录;小程序调用支付必须用wx.requestPayment,而App端可能需要对接支付宝SDK。这些…...

alphaxiv可以看论文的中文翻译 view blog

我没开翻译插件,是网站原生的...

2000-2024年上市公司司法体制改革试点DID

“司法效率”是一个基于准自然实验的多期双重差分虚拟变量,旨在精准评估司法体制改革对审计费用的政策效应。依据中央全面深化改革领导小组会议公告以及新闻报道,司法体制改革采取的是地区试点、逐步推开的方式,因此本数据集将2014年首批公布…...

GIS数据质检实战:手把手教你用Arcpy脚本修复CAD导入后的多边形尖锐角问题

GIS数据质检实战:用Arcpy脚本智能修复CAD导入后的多边形尖锐角问题 城市规划师小李最近遇到一个棘手问题——从AutoCAD导入到ArcGIS的用地规划图,在进行空间分析时频繁报错,面积计算结果也比预期小了15%。经过排查,他发现是CAD转换…...

无代码开发公司哪家好?无代码开发公司推荐!

企业首选(零门槛 高性价比) 1、百道云 ✅ 百道云核心亮点:高性价比,安全合规、生态集成强,流程引擎强大源码交付、无平台锁定 �� 适用人群:全行业、全规模 真实体验&#xff1a…...

避坑指南:北航MEM复试被刷后,我总结的3个报名细节和2个备考决策陷阱

北航MEM复试避坑手册:从报名到考场的5个致命细节 站在北航MEM复试被刷的十字路口回望,那些藏在报名表角落的选项、备考时犹豫的三秒钟决策、考场上被忽略的涂卡时机,每一个细节都像蝴蝶效应般最终影响了结果。这不是又一篇成功经验分享&#…...

抖音批量下载工具技术解析:如何高效获取去水印视频与直播回放

抖音批量下载工具技术解析:如何高效获取去水印视频与直播回放 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallbac…...

Axios vs Fetch:处理302重定向时,为什么一个‘听话’一个‘叛逆’?

Axios vs Fetch:302重定向的底层博弈与前端工程化思考 当你在浏览器控制台同时发起两个看似相同的HTTP请求时,可能从未想过它们背后藏着完全不同的世界观。一个会默默跟随服务器指引完成重定向,另一个却可能倔强地停在半路等你决策——这不是…...

Terraform配置中的Pub/Sub权限问题解决方案

在使用Terraform构建Google Cloud Platform (GCP)基础设施时,经常会遇到一些权限问题。本文将通过一个实际的案例,展示如何解决GCP中Cloud Storage与Pub/Sub主题和订阅之间的权限问题。 背景介绍 假设我们有一个Cloud Storage Bucket,配置了通知功能来将事件发布到Pub/Sub…...

TensorFlow分布式训练超快

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 TensorFlow分布式训练:实现超快性能的深度解析目录TensorFlow分布式训练:实现超快性能的深度解析 引言&a…...