如何设置爬虫的User-Agent?
在爬虫开发中,设置合适的 User-Agent 是非常重要的一步。User-Agent 是 HTTP 请求头中的一个字段,用于标识客户端(通常是浏览器)的类型、版本、操作系统等信息。通过设置 User-Agent,可以模拟正常的浏览器访问行为,从而避免被目标网站识别为爬虫并限制访问。
以下是如何在不同编程语言中设置爬虫的 User-Agent 的方法:
1. 在 Python 中设置 User-Agent
在 Python 中,通常使用 requests 库发送 HTTP 请求。可以通过设置请求头(headers)来指定 User-Agent。
示例代码:
import requests# 目标 URL
url = "https://example.com"# 设置 User-Agent
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}# 发送请求
response = requests.get(url, headers=headers)# 输出响应内容
print(response.text)
常见的 User-Agent 示例:
-
Chrome 浏览器:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 -
Firefox 浏览器:
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0 -
Safari 浏览器:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15
2. 在 PHP 中设置 User-Agent
在 PHP 中,通常使用 cURL 或 GuzzleHttp 库发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。
使用 cURL 设置 User-Agent:
<?php
// 目标 URL
$url = "https://example.com";// 初始化 cURL 会话
$ch = curl_init($url);// 设置 User-Agent
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");// 设置返回响应内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);// 执行请求
$response = curl_exec($ch);// 关闭 cURL 会话
curl_close($ch);// 输出响应内容
echo $response;
使用 GuzzleHttp 设置 User-Agent:
<?php
require 'vendor/autoload.php';use GuzzleHttp\Client;// 创建 GuzzleHttp 客户端
$client = new Client();// 目标 URL
$url = "https://example.com";// 设置请求头
$headers = ["User-Agent" => "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
];// 发送请求
$response = $client->request('GET', $url, ['headers' => $headers]);// 输出响应内容
echo $response->getBody();
3. 在 JavaScript (Node.js) 中设置 User-Agent
在 Node.js 中,通常使用 axios 或 fetch 发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。
使用 Axios 设置 User-Agent:
const axios = require('axios');// 目标 URL
const url = "https://example.com";// 设置请求头
const headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};// 发送请求
axios.get(url, { headers }).then(response => {console.log(response.data);}).catch(error => {console.error(error);});
使用 Fetch 设置 User-Agent:
// 目标 URL
const url = "https://example.com";// 设置请求头
const headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};// 发送请求
fetch(url, { headers }).then(response => response.text()).then(data => console.log(data)).catch(error => console.error(error));
4. 如何选择合适的 User-Agent?
选择合适的 User-Agent 非常重要,因为它会影响目标网站对请求的识别。以下是一些建议:
(1)使用常见浏览器的 User-Agent
-
模拟常见的浏览器(如 Chrome、Firefox、Safari)的 User-Agent,可以降低被识别为爬虫的风险。
-
可以从 WhatIsMyBrowser 获取最新的 User-Agent 示例。
(2)定期更换 User-Agent
-
如果频繁访问目标网站,建议定期更换 User-Agent,以避免被封禁。
-
可以使用 User-Agent 列表随机选择一个 User-Agent。
(3)自定义 User-Agent
-
如果需要,可以自定义 User-Agent,但建议包含常见的浏览器标识(如
Mozilla/5.0),以避免被识别为爬虫。
示例:随机选择 User-Agent
import randomuser_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15"
]# 随机选择一个 User-Agent
headers = {"User-Agent": random.choice(user_agents)
}
5. 注意事项
(1)遵守目标网站的规则
-
在设置 User-Agent 时,必须遵守目标网站的使用协议,避免触发反爬机制。
-
避免使用过于明显的爬虫标识(如
Python-urllib或PHP)作为 User-Agent。
(2)合理设置请求频率
-
即使设置了合适的 User-Agent,过高的请求频率仍可能触发反爬机制。建议合理控制请求频率。
(3)监控响应状态
-
如果目标网站识别到异常请求,可能会返回特定的状态码(如 403 Forbidden 或 429 Too Many Requests)。建议监控响应状态并进行相应处理。
总结
设置合适的 User-Agent 是爬虫开发中的重要步骤,可以有效降低被识别为爬虫的风险。通过模拟常见浏览器的 User-Agent,并合理控制请求频率,可以确保爬虫行为更加自然和安全。希望本文能为你提供有价值的参考,帮助你更好地开发爬虫程序。
相关文章:
如何设置爬虫的User-Agent?
在爬虫开发中,设置合适的 User-Agent 是非常重要的一步。User-Agent 是 HTTP 请求头中的一个字段,用于标识客户端(通常是浏览器)的类型、版本、操作系统等信息。通过设置 User-Agent,可以模拟正常的浏览器访问行为&…...
C++ 二叉搜索树代码
C 二叉搜索树代码 #include <iostream> using namespace std;template<typename T> struct TreeNode{T val;TreeNode *left;TreeNode *right;TreeNode():val(0), left(NULL), right(NULL){}TreeNode(T x):val(x), left(NULL), right(NULL){} };template<typena…...
OpenAI Whisper:开启语音转文本的智能时代
在人工智能技术飞速发展的今天,OpenAI推出的Whisper语音识别系统正悄然改变着人类与机器的交互方式。作为一款开源的AI驱动语音转文本工具,Whisper凭借其跨语言能力、高精度识别和灵活的生态系统,成为开发者和普通用户共同追捧的技术标杆。 核心技术与突破 Whisper基于深度…...
基于CSDN资源,搭建AI赋能农业典型场景落地方案
农业场景,不但是信息化、自动化等薄弱的产业,更是AI落地困难的场景。基于此,想通过这篇文章查找一个CSDN相关资源,论证一下AI赋能农业三个典型场景的实现思路。 场景1:水质-土壤智能调控 **痛点:**水质恶…...
python量化交易——金融数据管理最佳实践——使用qteasy大批量自动拉取金融数据
文章目录 使用数据获取渠道自动填充数据QTEASY数据拉取功能数据拉取接口refill_data_source()数据拉取API的功能特性多渠道拉取数据实现下载流量控制实现错误重试日志记录其他功能 qteasy是一个功能全面且易用的量化交易策略框架, Github地址在这里。使用它&#x…...
RoboBrain:从抽象到具体的机器人操作统一大脑模型
25年2月来自北大、北京智源、中科院自动化所等的论文“RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete”。 目前的多模态大语言模型(MLLM) 缺少三项必备的机器人大脑能力:规划能力,将复杂…...
DeepSeek本地接口调用(Ollama)
前言 上篇博文,我们通过Ollama搭建了本地的DeepSeek模型,本文主要是方便开发人员,如何通过代码或工具,通过API接口调用本地deepSeek模型 前文:DeepSeek-R1本地搭建_deepseek 本地部署-CSDN博客 注:本文不仅…...
数据库索引的作用:提升数据检索效率的关键
在数据库管理系统中,数据如同浩瀚海洋中的宝藏,如何快速准确地找到所需信息,成为了一个关键问题。这时候,数据库索引就如同一张精确的航海图,指引着我们高效地定位数据。那么,数据库索引究竟是什么…...
高效便捷的 Spring Boot 通用控制器框架
✨高效便捷的 Spring Boot 通用控制器框架✨ 一、简介 在 Java 开发中,重复性的基础接口编写工作常令人头疼。本框架基于 Spring Boot 与 MyBatis-Plus,精心构建通用控制器类BaseController,旨在为开发者排忧解难,极大减少繁琐的…...
SQL_语法
1 数据库 1.1 新增 create database [if not exists] 数据库名; 1.2 删除 drop database [if exists] 数据库名; 1.3 查询 (1) 查看所有数据库 show databases; (2) 查看当前数据库下的所有表 show tables; 2 数据表 2.1 新增 (1) 创建表 create table [if not exists…...
在 CentOS 上,常用几种方法来确保 Python 脚本在断开终端后继续运行
在 CentOS 上,你可以使用以下几种方法来确保 Python 脚本在断开终端后继续运行: 1. 使用 nohup 命令 nohup 命令可以让进程在终端关闭后继续运行。 nohup python main.py > output.log 2>&1 &nohup:忽略挂断信号,…...
全面回顾复习——C++语法篇1(基于牛客网C++题库)
注:牛客网允许使用万能头文件#include<bits/stdc.h> 1、求类型长度——sizeof()函数 2、将浮点数四舍五入——round()函数——前面如果加上static_cast会更安全一些 在C语言中可以使用printf(“.0l…...
一、数据库 MySQL 基础学习 (上)
一、数据库的概念 DB 数据库(database):存储数据的“仓库”,保存一系列有组织的数据 DBMS:数据库管理系统(Database Management System)。数据库是通过 DBMS 创建和操作的容器 创建的 DBMS: MySQL、Oracl…...
基于Django创建一个WEB后端框架(DjangoRestFramework+MySQL)流程
一、Django项目初始化 1.创建Django项目 Django-admin startproject 项目名 2.安装 djangorestframework pip install djangorestframework 解释: Django REST Framework (DRF) 是基于 Django 框架的一个强大的 Web API 框架,提供了多种工具和库来构建 RESTf…...
AutoGen学习笔记系列(七)Tutorial - Managing State
这篇文章瞄准的是AutoGen框架官方教程中的 Tutorial 章节中的 Managing State 小节,主要介绍了如何对Team内的状态管理,特别是如何 保存 与 加载 状态,这对于Agent系统而言非常重要。 官网链接:https://microsoft.github.io/auto…...
Redis渐进式遍历数据库
目录 渐进式遍历 数据库 渐进式遍历 keys*可以一次性的把整个redis中所有key都获取到,这个操作是非常危险的,因为可能一下获取到太多的key,阻塞redis服务器。要想很好的获取到所有的key,又不想出现卡死的情况,就可以…...
机器学习中的线性代数:奇异值分解 SVD
线性代数 奇异值分解(SVD) 参考资料: 超详细!彻底搞懂矩阵奇异值分解(SVD)本质计算应用!_哔哩哔哩_bilibili 非常好的视频,本文内容主要来自于该视频,在此表示感谢&#…...
【每日八股】计算机网络篇(三):IP
目录 DNS 查询服务器的基本流程DNS 采用 TCP 还是 UDP,为什么?默认使用 UDP 的原因需要使用 TCP 的场景?总结 DNS 劫持是什么?解决办法?浏览器输入一个 URL 到显示器显示的过程?URL 解析TCP 连接HTTP 请求页…...
6. PromQL的metric name(在node exporter复制下来交给AI解释的)
目录 前言: Go 运行时指标: Go 内存统计指标: CPU 指标: 内存指标: 磁盘指标: 网络指标: 系统指标: 前言: 写这个得目的是为了后续方便查询,因为在pro…...
基于单片机的速度里程表设计(论文+源码)
1 系统方案 本次智能速度里程表的总体架构如图2-1所示,在硬件上包括了STC89C52单片机,电机,显示模块,报警模块,DS1302时钟模块,超速检测模块,按键等等。在软件设计功能的功能上,按下…...
计算机毕业设计Python+Django+Vue3微博数据舆情分析平台 微博用户画像系统 微博舆情可视化(源码+ 文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
nvidia驱动升级-ubuntu 1804
升级 1.从官网下载*.run驱动文件 2.卸载原始驱动 sudo /usr/bin/nvidia-uninstall sudo apt-get --purge remove nvidia-\* # 可能不需要加-\ sudo apt-get purge nvidia-\* # 可能不需要加-\ sudo apt-get purge libnvidia-\* # 可能不需要…...
如何使用SSH命令安全连接并转发端口到远程服务器
ssh -p 22546 rootconnect.westc.gpuhub.com d6IS/mQKq/iG ssh -CNgv -L 6006:127.0.0.1:6006 rootconnect.westc.gpuhub.com -p 22546 第一条命令:用于登录远程服务器,进行交互式操作。第二条命令:用于建立 SSH 隧道,进行端口转…...
2025年天梯赛第1场选拔赛
目录 A:徐老师的积木山峰 B:徐老师的最长上升子序列 C:徐老师的机器命令 D:徐老师的地下堡 E:徐老师的新鲜羊腿 F:徐老师的黄金矿工 G:徐老师的成绩统计 H:春节糖果 I:幸运函数 J:好坏钥匙 A:徐老师的积木山峰 徐老师有 n 块积木排成一排,从左往右数编号依次为 1∼…...
06实现相册小项目
一、涉及的知识点: 1、bmp的显示 2、双向循环链表实现图片的轮播 3、触摸屏的滑动算法实现图片的切换 4、目录操作用以检索bmp图片文件 5、项目的优化方向 (1)可以实现不同图片大小的显示 (2)图片轮播的时候可以…...
Dify+DeepSeek | Excel数据一键可视化(创建步骤案例)(echarts助手.yml)(文档表格转图表、根据表格绘制图表、Excel绘制图表)
Dify部署参考:Dify Rag部署并集成在线Deepseek教程(Windows、部署Rag、安装Ragan安装、安装Dify安装、安装ollama安装) DifyDeepSeek - Excel数据一键可视化(创建步骤案例)-DSL工程文件(可直接导入&#x…...
RK3568平台(GPIO篇)Android平台集成libgpiod库
一.libgpiod 介绍 libgpiod 是一个用于与 Linux GPIO(通用输入输出)子系统交互的用户空间库。它提供了一组简单且高效的 API,允许开发者通过用户空间程序控制 GPIO 引脚,而无需编写内核模块或直接操作 /sys/class/gpio 接口。libgpiod 是 Linux 内核推荐的 GPIO 访问方式,…...
API和SDK
API(Application Programming Interface)和 SDK(Software Development Kit)是软件开发中密切相关的概念,但它们之间存在一些区别: 定义 API :是一组预先定义的函数、协议和规范,用…...
CR电路介绍
CR电路(RC电路)介绍 CR电路(电阻-电容电路)由电阻(R)和电容(C)组成,是电子系统中的基础模块,广泛用于信号处理、定时、滤波等场景。以下是其核心功能、实现方…...
安装与配置 STK-MATLAB 接口
STK版本为11.6 Matlab版本为R2018a STK 提供 Connect 和 Object Model (COM) 两种接口与 MATLAB 交互,推荐使用 COM接口进行二次开发。 确保安装了 STK,并且 MATLAB 可以访问 STK Object Model。 在 MATLAB 中运行: % 添加 STK COM 库&#…...
