当前位置: 首页 > article >正文

Python与爬虫

爬虫是一种Python编写的按照既定的规则抓取网站数据的脚本程序其优点在于语言简洁工作效率高适合重复性工作1.先导入模块首先打开wiindows命令行输入pip install requests下载requests这个模块打开trae用import request语句导入request模块把该模块下的Python代码拷贝到当前这个py文件当中。2.通过requests这个模块通过get的请求方式访问目标url3.将访问结果用utf-8的方式进行编码防止出现乱码4.从lxml库中导入etree模块把resp源码转换成dom树结构通过html进行节点查询找到目标节点转换成python容易执行的格式所有导入的模块文件都不用加py后缀5.利于for i in range语句进行循环i为盒子6.利用def做自定义函数函数功能用add定义 [def add a,b] return ab先设好形参再设实参最终print输出的结果以实参为准没有实参以形参的值为准7.json的格式内容要用花括号括起来8.将id后面设置占位符可以不断地去爬取网站上不同id用户的数据爬取过程当中useragent伪装成浏览器避免被识别成爬虫referer模拟访问来源伪造正常跳转路径cookie提供登录凭证获取访问权限三种东西最好一种都不能少不然网站会以为你不是真人是爬虫就会限制你访问9.max id代表id用户数的最大值但是实际上你的id取值范围最大值后面还要加个1但这个最大值id加1是不可取的然后要以get方式收取url响应try尝试执行代码块是操作主体except捕获异常当try块出错时执行此处pass忽略错误保证程序继续执行10.各种工具dirsearch可暴力破解网站目录和文件发现隐藏资源针对可能的有价值的网站目录进行探测并拿到信息sqlmap适合SQL注入要在授权的情况下去测试这款工具是根据python语言写的

相关文章:

Python与爬虫

爬虫是一种Python编写的,按照既定的规则,抓取网站数据的脚本程序,其优点在于,语言简洁,工作效率高,适合重复性工作1.先导入模块,首先打开wiindows命令行,输入pip install requests下…...

【多模态大模型落地自动驾驶实战白皮书】:20年智驾专家首曝3大失败场景、5类传感器融合陷阱与实时推理优化黄金公式

第一章:多模态大模型在自动驾驶中的应用 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型正深刻重塑自动驾驶系统的感知、推理与决策范式。传统 pipeline 架构依赖独立模块分别处理摄像头、激光雷达、毫米波雷达及高精地图数据,而多模态大模…...

【紧急预警】HuggingFace最新v4.45更新已默认禁用legacy cross-attention kernel——你的多模态微调Pipeline可能已在静默崩溃!

第一章:多模态大模型中的注意力机制 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型的核心挑战在于如何对齐与融合来自图像、文本、音频等异构模态的语义表征,而注意力机制正是实现跨模态动态关联的关键引擎。它不再局限于单一模态内的局部…...

Windows 下部署与配置 Hermes Agent 完全指南:AI 智能体、OpenRouter、LLM、本地大模型、WSL2、自动化、自进化 AI、Ollama、Claude 3.5、GPT-4

本文内容深度融合相关以下技术相关词的汇,放在文章开头以便于您快速阅读以及学习: 平台:Windows、WSL2核心项目:Hermes AgentAI 能力:AI 智能体(AI Agent)、自进化 AI、自动化任务、代码解释器、…...

.json标记转换.txt格式小工具

当使用自建数据库对YOLO等模型进行训练时,有时候会碰到无法直接使用.json文件进行训练的问题,而labelme有时候标出来是.json格式。这里提供一个工具脚本,在训练前先运行一遍可以有效解决该问题。该脚本原本用于YOLO-v8-seg模型训练&#xff0…...

数组增删改查及双指针法

刷题日记:LeetCode 27 移除元素 —— 双指针法真的太香了!今天死磕了 LeetCode 第 27 题「移除元素」,从一开始的暴力暴力,到最后秒懂双指针法,真的有一种“打通任督二脉”的感觉!把这一题的学习心得写成一…...

第一范式是关系型数据库设计的最基本要求,核心规则是**关系模式的所有属性都是不可再分的原子数据项**

第一范式是关系型数据库设计的最基本要求,核心规则是关系模式的所有属性都是不可再分的原子数据项,即表中每一列的取值都是单一值,不存在组合值或多值情况。 1NF的典型问题 以教材中的FIRST关系表为例(供应商-零件供应关系&#x…...

函数依赖是关系数据库中属性之间的一种约束关系,表示当属性集合X的值确定时

函数依赖是关系数据库中属性之间的一种约束关系,表示当属性集合X的值确定时,属性集合Y的值也被唯一确定,记作X→Y,其中X称为决定因素。 函数依赖的类型: 完全函数依赖:若X→Y,且X的任何真子集都…...

Java面试通关宝典,内容涵盖Java所有热门技术!

金三银四快过去了,不少人找LZ咨询,问我现在的面试需要提前准备什么?为了造福更多的开发者,也为了让更多的小伙伴通过面试;LZ近期也一直想着怎么才能帮到大家。所以近期在各大渠道整合大厂相关面试题,并结合…...

Meta新模型Muse Spark上手体验

Meta发布了Muse Spark,这是他们自Llama 4几乎整整一年前以来的首个模型发布。它是托管的,不是开放权重,API目前"仅向选定用户开放私人预览",但你今天就可以在meta.ai上试用(需要Facebook或Instagram登录&…...

AIAgent联邦学习架构设计核心矛盾解析(通信开销×模型收敛×合规边界三重博弈)

第一章:AIAgent联邦学习架构设计核心矛盾解析(通信开销模型收敛合规边界三重博弈) 2026奇点智能技术大会(https://ml-summit.org) 在AI Agent驱动的联邦学习系统中,各参与方既是智能体又是数据孤岛守护者,其架构设计天…...

线上 CPU 暴涨 99%!MySQL只用了这一招,回表次数竟然减半?

周一早高峰,手机疯狂振动。 线上 CPU 报警 99.9%,慢查询日志塞满了磁盘。 小开发在一旁满头大汗:“Fox 哥,明明加了组合索引,回表次数怎么还是这么高?” 我端起咖啡,淡定一笑:“兄弟…...

Unsloth量化指南:手把手教你压缩模型,速度提升2倍

Unsloth量化指南:手把手教你压缩模型,速度提升2倍 1. Unsloth量化技术概述 1.1 什么是模型量化 模型量化是一种通过降低模型参数的数值精度来减小模型体积和加速推理的技术。想象一下,当你需要搬运一堆书籍时,把精装本换成平装…...

SystemVerilog 中浅拷贝与深拷贝的实战应用与陷阱解析

1. 从生活中的复印机说起:理解拷贝的基本概念 想象一下办公室里的复印机。当你把一张纸放进去复印,会得到一张看起来一模一样的新纸。这就是拷贝的基本概念——创建一个与原对象相同的新对象。在SystemVerilog中,我们处理类对象时也经常需要这…...

操作系统中的资源管理与调度算法

操作系统中的资源管理与调度算法 现代操作系统作为计算机系统的核心,负责协调硬件与软件资源的高效利用。资源管理与调度算法是操作系统的关键组成部分,直接影响系统性能、响应速度及用户体验。无论是多任务处理、内存分配,还是磁盘I/O调度&…...

ClaudeCode 中子 Agent 的权限机制

概述 如果子 Agent 尝试使用未在 allowed-tools 中声明的工具或 Skill,会经历两层拦截,最终被拒绝执行: 第一层拦截:工具集过滤(Tool Pool Filtering) 子 Agent 启动时,resolveAgentTools() 会根据 allowed-tools 白名单从 availableTools 中过滤出 resolvedTools。不…...

qy2格式怎么转成MP3?7种方法一次讲清楚(附详细步骤)

很多人在使用 爱奇艺 下载音频或缓存内容时,可能会遇到一种比较少见的格式——QY2。这种格式属于平台专用的加密音频文件,主要用于版权保护,在官方APP内可以正常播放,但一旦导出到其他设备,就会出现无法识别、无法播放…...

OntoKG:Schema-First 知识图谱构建新范式

📌 一句话总结: 本工作提出 OntoKG,一种以本体(ontology)为核心的知识图谱构建框架,通过 intrinsic-relational routing 实现 schema-first 的结构化建模与下游可复用性。 🔍 背景问题&#x…...

SITS2026正式发布:5个被92%企业忽略的AIAgent部署关键指标(附Gartner验证清单)

第一章:SITS2026正式发布:AIAgent最佳实践指南 2026奇点智能技术大会(https://ml-summit.org) SITS2026(Smart Intelligent Task System 2026)是面向生产级AI Agent系统设计与落地的权威实践框架,由ML Summit联合Open…...

图像描述生成不再依赖大模型:2026奇点大会首发轻量化多模态对齐引擎(参数量<1.2B,BLEU-4提升21.6%)

第一章:2026奇点智能技术大会:图像描述生成 2026奇点智能技术大会(https://ml-summit.org) 本届大会首次设立“视觉语义协同”专项赛道,聚焦图像描述生成(Image Captioning)在多模态大模型驱动下的范式跃迁。与传统基…...

C语言分支与循环学习笔记

一、分支语句1. if 语句多分支:例题:判断奇偶数注意: 条件要用 比较,不要写成 (赋值)即使只有一条语句,也建议加 {},避免后面加语句时出错2. switch 语句适合同一个表达式与多个固…...

扩展异常对象的批量处理脚本

该PL/SQL脚本可自动识别扩展使用率≥95%的段对象(表、索引、分区等),并批量将其MAX_EXTENTS设置为UNLIMITED,解决“段无法扩展”的核心问题,避免手动逐个修改的低效与遗漏。 一、批量处理脚本 SET SERVEROUTPUT ON; DECLARE-- 定义变量:存储对象信息V_SEGMENT_NAME …...

Python 循环基础:for、while、break、continue

文章目录前言一、循环到底是干嘛的?先把逻辑搞明白二、for循环:Python里最常用的“批量工具”2.1 for循环基础语法2.2 最简单的for循环示例2.3 遍历字符串:for循环也能拆文字2.4 遍历字典:键、值、键值对全拿下2.5 for循环嵌套&am…...

大模型窗口越来越大,为什么 Agent 还是总会失控?

前端出身,跨进智能体这个坑已经有一段时间了。写这个系列,是想把自己摸索的过程留下来,不是教程,是记录。 很多刚开始接触 Agent 的人,都会有一个直觉: 现在模型的上下文窗口不是已经越来越大了吗&#x…...

应届生面试:3分钟搞定自我介绍

文章目录前言一、为什么应届生面试,自我介绍这么重要?1.1 面试官的真实目的:3秒筛选,3分钟定印象1.2 3分钟不是上限,是“黄金区间”1.3 2026年校招趋势:更看重“务实”,不看“空喊口号”二、90%…...

uniapp中uview组件库的NoticeBar滚动通知进阶配置与实战技巧

1. NoticeBar组件核心功能解析 滚动通知栏作为移动端高频使用的UI组件,在uniapp生态中通过uView的NoticeBar实现了开箱即用的解决方案。这个看似简单的组件实际上隐藏着不少值得深挖的特性。先说说它的基础能力:支持水平和垂直两种滚动模式,水…...

Springboot常见内存溢出与线程报错分析

Springboot内存溢出与线程报错分析 Spring Boot 应用在生产环境中常见的内存溢出(OOM)和线程相关报错,主要源于 JVM 内存模型、线程模型与应用代码/配置的交互。以下是系统性整理:一、常见 内存溢出(OutOfMemoryError&…...

Kotlin密封类实战指南:如何优雅地处理受限类层次结构

1. 密封类是什么?为什么你需要它 第一次看到Kotlin的密封类时,我也有点懵——这不就是个加强版的枚举吗?直到在一个电商项目中踩了坑才恍然大悟。想象你正在开发一个订单状态系统:订单可能是"待支付"、"已发货&quo…...

SQL触发器定义在不同版本间的兼容性_使用标准SQL语法编写

MySQL 5.7与8.0的CREATE TRIGGER差异主要在DEFINER权限处理、严格模式对非法数据的中断行为;PostgreSQL强制函数绑定且返回TRIGGER;SQL Server的INSTEAD OF需手动处理伪表;各数据库触发器语法均不兼容ANSI标准。MySQL 5.7 和 8.0 的 CREATE T…...

CSS 毛玻璃效果:从基础实现到高级应用

1. 毛玻璃效果基础实现 毛玻璃效果(Frosted Glass Effect)是近年来网页设计中非常流行的一种视觉效果,它能让界面元素呈现出半透明的磨砂质感,就像我们常见的磨砂玻璃一样。这种效果最大的特点就是既能保持背景内容的可见性&#…...