当前位置: 首页 > news >正文

域名校验?反爬界的掩耳盗铃!

这一集我们讲一个比较简单的域名校验,可能你没有听过这个名字,因为这个名字是我编的,那么它究竟是什么呢?又为什么说它是掩耳盗铃呢?我们来看看下面的案例:

  1. 必应搜索页隐藏内容
  2. 虎嗅新闻跳转404
import requests
import chardet
from bs4 import BeautifulSoup,Commentdef remove_css(html):soup = BeautifulSoup(html, 'html.parser')# print(soup.text)# 删除<style>标签# for style_tag in soup('style'):#     style_tag.decompose()# 删除<link>标签# for link_tag in soup('link'):#     link_tag.decompose()# 删除<symbol>标签for symbol_tag in soup('symbol'):symbol_tag.decompose()# 删除<script>标签for script_tag in soup('script'):script_tag.decompose()# 删除<svg>标签for script_tag in soup('svg'):script_tag.decompose()# 删除注释comments = soup.find_all(string=lambda text: isinstance(text, Comment))for comment in comments:comment.extract()return str(soup)def download_page(url,file_name):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'}r = requests.get(url=url, headers=headers)encoding = chardet.detect(r.content)["encoding"]if encoding.lower() == "gb2312":encoding = 'gb18030'html = r.content.decode(encoding)with open(file_name,'w',encoding='utf-8') as f:f.write(html)# f.write(remove_css(html))url = 'https://cn.bing.com/search?q=%E5%AE%A4%E6%B8%A9%E8%B6%85%E5%AF%BC&form=QBLH&sp=-1&lq=0&pq=%E5%AE%A4%E6%B8%A9%E8%B6%85%E5%AF%BC&sc=10-4&qs=n&sk=&cvid=DA87FC09FB9F4425908E34195B622973&ghsh=0&ghacc=0&ghpl='
download_page(url=url,file_name='1.biying.html')
url = 'https://www.huxiu.com/article/1870796.html'
download_page(url=url,file_name='2.huxiu.html')

这两个页面获取到之后都无法正常显示,需要去掉请求到的页面里的js代码,就正常了

为什么说有掩耳盗铃的嫌疑呢?因为数据是真正获取到的,只是不给看到。

视频教程地址:https://www.bilibili.com/video/BV1RN411h78z/

相关文章:

域名校验?反爬界的掩耳盗铃!

这一集我们讲一个比较简单的域名校验&#xff0c;可能你没有听过这个名字&#xff0c;因为这个名字是我编的&#xff0c;那么它究竟是什么呢&#xff1f;又为什么说它是掩耳盗铃呢&#xff1f;我们来看看下面的案例&#xff1a; 必应搜索页隐藏内容虎嗅新闻跳转404 import re…...

Cesium 实战教程 - 调整 3dtiles 倾斜摄影大小

Cesium 实战教程 - 调整 3dtiles 倾斜摄影大小 核心代码完整代码在线示例 之前由于误解遇到一个特殊的需求&#xff1a;想要把三维球上叠加倾斜摄影进行自由放大缩小&#xff0c;跟随地图的缩放进行缩放。 后来经过搜索、尝试&#xff0c;终于实现了需求。 但是&#xff0c;后…...

python机器学习(七)决策树(下) 特征工程、字典特征、文本特征、决策树算法API、可视化、解决回归问题

决策树算法 特征工程-特征提取 特征提取就是将任意数据转换为可用于机器学习的数字特征。计算机无法直接识别字符串&#xff0c;将字符串转换为机器可以读懂的数字特征&#xff0c;才能让计算机理解该字符串(特征)表达的意义。 主要分为&#xff1a;字典特征提取(特征离散化)…...

数据结构与算法中的双向链表

链表概念在现实世界中使用得很普遍。当我们使用 Spotify 播放队列中的下一首歌曲时&#xff0c;我们学到的单链表的概念就开始发挥作用。但是要播放队列中的上一首歌曲到底可以做什么呢&#xff1f; 在这篇博客中&#xff0c;我们将了解与数据结构相关的另一个概念&#xff0c…...

数据安全治理的关键-数据分类分级工具

强大的资产发现能力 多种资产发现方式的组合应用&#xff0c;能够最大程度地提高资产发现能力。 灵活的敏感数据分类分级规则 内置丰富的敏感数据分类分级规则&#xff0c;支持正则表达式、关键词组、非结构化指纹、结构化指纹、机器聚类等多种匹配方式&#xff0c;并且规则…...

Spring集成Junit

目录 1、简介 2、Junit存在的问题 3、回顾Junit注解 4、集成步骤 4.1、导入坐标 4.2、Runwith 4.3、ContextConfiguration 4.4、Autowired 4.5、Test 4.6、代码 5、补充说明 5.1、Runwith 5.2、BlockJUnit4ClassRunner 5.3、没有配置Runwith ⭐作者介绍&#xff1…...

Java正则校验密码至少包含:字母数字特殊符号中的2种

一、语法 字符说明\将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如&#xff0c; n匹配字符 n。\n 匹配换行符。序列 \\\\ 匹配 \\ &#xff0c;\\( 匹配 (。^匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性&#xff0c;^ 还会与"\n…...

Stable Diffusion教程(6) - 扩展安装

打开stable diffusion webUI界面 加载插件列表 依次点击扩展->可用->加载自 搜索插件 首先在搜索框输入你要安装的插件&#xff0c;然后点击插件后面的安装按钮 如果你需要的插件这里面没有找到&#xff0c;可通过通网址安装的方式安装。 在git仓库网址输入框输入的你插件…...

Jenkins通过OpenSSH发布WinServer2016

上一篇文章> Jenkins集成SonarQube代码质量检测 一、实验环境 jenkins环境 jenkins入门与安装 容器为docker 主机IP系统版本jenkins10.10.10.10rhel7.5 二、OpenSSH安装 1、下载 官网地址&#xff1a;https://learn.microsoft.com/zh-cn/windows-server/administration/op…...

字母异位词分组 LeetCode热题100

题目 给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 思路 将字符串按字符升序排列后作为key&#xff0c;原字符串作为value存储到map上。 代码 class Solution…...

使用angular和electron 构建桌面应用

使用angular和electron 构建桌面应用 初始设置 新建一个angular app npm install -g @angular/cli ng new angular-electron cd angular-electron修改src/index.html文件内容 将绝对路径改为相对路径,加个点,使electron可以访问到angular文件资源 <base href=".…...

安达发制造工业迈向智能化:APS高级计划排程助力提升生产效率

随着市场竞争的加剧&#xff0c;制造企业纷纷寻求提高生产效率和降低成本的方法。近年来&#xff0c;越来越多的制造企业开始采用APS(高级计划与排程)系统&#xff0c;以优化生产计划和排程&#xff0c;提高生产效率&#xff0c;并在竞争中取得优势。 现代制造业通常面临复杂的…...

Flink - sink算子

水善利万物而不争&#xff0c;处众人之所恶&#xff0c;故几于道&#x1f4a6; 文章目录 1. Kafka_Sink 2. Kafka_Sink - 自定义序列化器 3. Redis_Sink_String 4. Redis_Sink_list 5. Redis_Sink_set 6. Redis_Sink_hash 7. 有界流数据写入到ES 8. 无界流数据写入到ES 9. 自定…...

【项目 线程2】3.5 线程的分离 3.6线程取消 3.7线程属性

3.5 线程的分离 #include <stdio.h> #include <pthread.h> #include <string.h> #include <unistd.h>void * callback(void * arg) {printf("chid thread id : %ld\n", pthread_self());return NULL; }int main() {// 创建一个子线程pthread…...

Filebeat+ELK 部署

目录 //在 Node1 节点上操作 1&#xff0e;安装 Filebeat 2&#xff0e;设置 filebeat 的主配置文件 3&#xff0e;在 Logstash 组件所在节点上新建一个 Logstash 配置文件 4&#xff0e;浏览器访问 http://192.168.193.40:5601 登录 Kibana&#xff0c;单击“Create In…...

el-table点击表格某一行添加到URL参数,访问带参URL加载表格内容并滚动到选中行位置 [Vue3] [Element-plus 2.3]

写在最前 需求&#xff1a;有个表格列出了一些行数据&#xff0c;每个行数据点击后会加载出对应的详细数据&#xff0c;想要在点击了某一行后&#xff0c;能够将该点击反应到URL中&#xff0c;这样我复制这个URL发给其他人&#xff0c;他们打开时也能看到同样的行数据。 url会根…...

【树】 二叉树 堆与堆排序 平衡(AVL)树 红黑(RB)树

目录 1 树1.1 认识树1.2 树的相关概念1.3 树的表示孩子兄弟表示法 2 二叉树2.1 概念2. 2 特殊二叉树2.3 二叉树的性质2.4 二叉树的存储结构 3 堆 — 完全二叉树的顺序结构实现3.1 堆的概念3.2 核心代码3.3 堆应用1 堆排序2 TOP-K问题 4 二叉树的链式存储4.1 二叉链结构与初始化…...

信号平滑或移动平均滤波研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...

黑客技术(网络安全)自学

一、黑客是什么 原是指热心于计算机技术&#xff0c;水平高超的电脑专家&#xff0c;尤其是程序设计人员。但后来&#xff0c;黑客一词已被用于泛指那些专门利用电脑网络搞破坏或者恶作剧的家伙。 二、学习黑客技术的原因 其实&#xff0c;网络信息空间安全已经成为海陆空之…...

使用七牛云、阿里云、腾讯云的对象存储上传文件

说明&#xff1a;存在部分步骤省略的情况&#xff0c;请根据具体文档进行操作 下载相关sdk composer require qiniu/php-sdkcomposer require aliyuncs/oss-sdk-php composer require alibabacloud/sts-20150401composer require qcloud/cos-sdk-v5 composer require qcloud_s…...

Vulnhub sar

Vulnhub sar 扫描主机 扫描端口 扫描目录 只开了80端口&#xff0c;访问页面&#xff0c;默认的apache2页面 Robots.txt 查询漏洞&#xff0c;版本一致都是远程代码执行漏洞 提供了利用路径 github源码 http://192.168.68.128/sar2HTML/index.php?plot;whoami 反弹shell 直…...

Java实战:通过URL调用自动化触发DolphinScheduler工作流

1. 为什么需要自动化触发工作流&#xff1f; 想象一下你负责一个电商平台的订单处理系统。每当用户下单时&#xff0c;系统需要自动触发一系列操作&#xff1a;库存扣减、支付状态更新、物流信息生成...如果每次都手动点击"运行"按钮&#xff0c;不仅效率低下&#…...

飞牛NAS部署小雅Emby全家桶时遇到端口冲突?手把手教你修改迅雷端口

1. 端口冲突问题现象分析 最近在飞牛NAS上部署小雅Emby全家桶时&#xff0c;不少用户反馈会遇到容器启动失败的情况。经过排查发现&#xff0c;这通常是由于小雅Emby默认使用的2345端口与迅雷的默认端口冲突导致的。具体表现为&#xff1a;当尝试启动小雅Emby容器时&#xff0c…...

【渗透工具】Venom多级代理实战:从零构建内网渗透通道

1. Venom工具入门&#xff1a;多级代理的核心价值 第一次接触Venom是在去年的一次内网渗透项目中。当时客户的内网结构复杂&#xff0c;常规代理工具难以穿透多层网络&#xff0c;直到同事推荐了这个用Go语言开发的神器。简单来说&#xff0c;Venom就像个数字隧道挖掘机&#x…...

5分钟搞懂LLM、Token、Agent,解锁AI核心价值!

本文深入浅出地解析了AI核心概念&#xff0c;从基础的大语言模型&#xff08;LLM&#xff09;到Token、Tools、Skills、MCP&#xff0c;再到智能体&#xff08;Agent&#xff09;的演进。强调了AI虽擅长语言生成但缺乏实际操作能力&#xff0c;并通过工具和接口&#xff08;Too…...

Polars 2.0大规模清洗踩坑实录:3类隐性OOM陷阱+4步零拷贝修复法,DBA紧急封存的内部手册

第一章&#xff1a;Polars 2.0大规模清洗踩坑实录&#xff1a;3类隐性OOM陷阱4步零拷贝修复法&#xff0c;DBA紧急封存的内部手册三类隐性OOM陷阱真实复现 在处理12TB电商日志&#xff08;单文件超80GB Parquet&#xff09;时&#xff0c;Polars 2.0默认配置下静默触发OOM——非…...

介绍一下多 Agent 如何实现工作?多个 Agent 之间如何协调和分工?

1. 题目分析 一个 Agent 能做的事情终归有限。当你试图让单个 Agent 去完成一个真正复杂的任务——比如从零开始做一次完整的市场调研并输出 PPT 报告——你会发现它要么因为上下文窗口塞满而"失忆"&#xff0c;要么因为角色定位太泛而每一步都做得半吊子。这就像让…...

别再死记硬背‘三层两网’了!用一张图看懂智能变电站的‘大脑’、‘神经’和‘手脚’

智能变电站解剖课&#xff1a;用人体系统秒懂"三层两网"架构 第一次走进智能变电站控制室时&#xff0c;那些闪烁的指示灯、跳动的数据曲线和密集的机柜总让人联想到科幻电影里的场景。但当你把整个系统想象成一个人的身体——大脑负责思考决策&#xff0c;神经系统…...

最新陪玩陪聊系统网站源码 娱乐交友系统公众号版

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示一、详细介绍 最新陪玩陪聊系统网站源码 娱乐交友系统 附安装教程 二、效果展示 1.部分代码 代码如下&#xff08;示例&#xff09;&#xff1a; <section id"cliens" class"cliens section-bg&…...

Windows系统清理完全指南:使用WindowsCleaner高效解决C盘爆红问题

Windows系统清理完全指南&#xff1a;使用WindowsCleaner高效解决C盘爆红问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否经常遇到Windows系统C盘空间不…...