用python来爬取某鱼的商品信息(1/2)
目录
前言
第一大难题——找到网站入口
曲线救国
模拟搜索
第二大难题——登录
提一嘴
第一种
第二种
原因
解决办法
最后
出现小问题
总结
下一篇博客(大部分代码实现)
前言
本章讲理论,后面一节讲代码
拿来练练手的,练练selenium包,实战一下
(本来想拿来练手的,没想到他喵的有挺多防爬的,直接开局就困难难度我靠,凸(艹皿艹 ))

找到可以爬取的网站
第一大难题——找到网站入口
但是咸鱼官方的网站已经关闭了(开局就不利)
闲鱼.淘宝二手 - 轻松卖闲置,放心淘二手闲鱼.淘宝二手是一个社区化的二手闲置交易市场,不仅支持各种同城及线上的担保交易,更安全,同时还有最专业的放心购二手商家,让你轻松在这买卖二手闲置。
https://goofish.com/
GG
曲线救国
但是后面发现可以通过淘宝手机版网页版的入口直接进入咸鱼网页版的入口(反正都是爬取怎么进的不重要啦!!!)
链接放着里了,怎么进别问我了
淘宝淘宝网 - 亚洲较大的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 数亿优质商品,同时提供担保交易(先收货后付款)等安全交易保障服务,并由商家提供退货承诺、破损补寄等消费者保障服务,让你安心享受网上购物乐趣!
https://main.m.taobao.com/index.html
好了第一大难题(找到网页版入口解决了)

模拟搜索
接下来就是利用python的selenium包模拟点击
右键搜索款点击检查就可以定位到该元素的xpath的路径(新版的selenium有许多不同的用法我会在下一章中进行代码实现,这一章主要讲解理论)

然后在python代码中输入你要搜索的文字内容再回车即可
第二大难题——登录
在这一个咸鱼网页版中,你必须要登录才可以

这样你就要先登录才可以访问网页
最大难题——登录界面滑块验证
提一嘴
在这个登录页面中,登录页面是iframe内嵌入其中的页面的
所以你无法直接定位到登录框(我搞了好久反应过来,真的离谱!!)

登录cookie获取
所以你有两种选择
第一种
直接在python中打开登录页面进入登录页面然后登录直接用selenium库中的get_cookie获取cookie并保存
登录
https://passport.goofish.com/mini_login.htm?ttid=h5%40iframe&redirectType=iframeRedirect&returnUrl=%2F%2Fh5.m.goofish.com%2Fapp%2Fvip%2Fh5-webapp%2Flib-login-message.html%3Forigin%3Dhttps%253A%252F%252Fh5.m.goofish.com&appName=xianyu&appEntrance=web&isMobile=true想法相对来说不这么绕,但是遗憾的是我无法登录(因为登录有滑块验证,我是几乎过不了的,手动都不行)
第二种
在正常网页中登入之后用浏览器插件提取出来
我用的是cookie editor

在网页版中正常登录可以过滑块验证
之后用插件复制出json文件,并且进行粘贴

第四大难题——无法使用导出的cookie
使用代码导入是报错
assert cookie_dict[‘sameSite‘] in [‘Strict‘, ‘Lax‘] AssertionError()
原因
提取出来的cookie中samesite的值不为strict以及lax两种中的一种,他就会报错
解决办法
只需要在json字典中把samesite的值全部改为Strict即可
最后
然后添加cookie然后刷新界面就可以发现搜索结果出来了
出现小问题
由于然后短时间内多次请求依旧会有阴间的滑块验证,所以我推荐设置好后半小时爬取一次即可
总结
这一次实战经历真的让我遇到了selenium许多奇奇怪怪的反爬手段,也是让我可以大幅度提升自己实战经验的一个经历,前前后后排bug,绕反爬,这一个项目打了整整两天。累die

下一篇博客(大部分代码实现)
用python来爬取某鱼的商品信息(2/2)_木木em哈哈的博客-CSDN博客首先要说的是这个通过python不如通过app抓包来的稳定页面中你登录的cookie的失效时间是不确定的,所以你可能需要经常更新cookie(看个人情况)无法频繁(比如5分钟一次)搜索,否则会跳滑块验证,或者你有多个账号也可以搞(大概也就这个流程)写出来的代码只是提取出来网页源代码——其实都提取出网页源代码了,使用就只有一个筛选了(csdn上有大把的优质博主和大佬教你通过源代码过滤有用的信息)当然如果需要的话我可以再水一篇博客。https://blog.csdn.net/mumuemhaha/article/details/132260466?spm=1001.2014.3001.5501
相关文章:
用python来爬取某鱼的商品信息(1/2)
目录 前言 第一大难题——找到网站入口 曲线救国 模拟搜索 第二大难题——登录 提一嘴 登录cookie获取 第一种 第二种 第四大难题——无法使用导出的cookie 原因 解决办法 最后 出现小问题 总结 下一篇博客(大部分代码实现) 前言 本章讲理…...
网工最常犯的9大错误,越早知道越吃香
下午好,我的网工朋友 我们常说,人要学会避免错误,尤其是对在职场生活的打工人来说,更是如此。 学生时代,我们通过错题本收集错误,提高刷题正确率和分数,但到了职场,因为没有量化的…...
Windows - UWP - 网络不好的情况下安装(微软商店)MicrosoftStore的应用
Windows - UWP - 网络不好的情况下安装(微软商店)MicrosoftStore的应用 前言 UWP虽然几乎被微软抛弃了,但不得不否认UWP应用给用户带来的体验。沙箱的运行方式加上微软的审核,用户使用起来非常放心,并且完美契合Wind…...
1040:输出绝对值
【题目描述】 输入一个浮点数,输出这个浮点数的绝对值,保留到小数点后两位。 【输入】 输入一个浮点数,其绝对值不超过10000。 【输出】 输出这个浮点数的绝对值,保留到小数点后两位。 【输入样例】 -3.14 【输出样例】 …...
[Docker精进篇] Docker部署和实践 (二)
前言: Docker部署是通过使用Docker容器技术,将应用程序及其所有相关依赖项打包为一个可移植、自包含的镜像,然后在任何支持Docker的环境中快速部署和运行应用程序的过程。 文章目录 Docker部署1️⃣为什么需要?2️⃣有什么作用&am…...
day9 | 28. 实现 strStr()、459.重复的子字符串
目录: 解题及思路学习 28. 实现 strStr() https://leetcode.cn/problems/find-the-index-of-the-first-occurrence-in-a-string/ 给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下…...
hive on tez资源控制
sql insert overwrite table dwintdata.dw_f_da_enterprise2 select * from dwintdata.dw_f_da_enterprise; hdfs文件大小数量展示 注意这里文件数有17个 共计321M 最后是划分为了21个task 为什么会有21个task?不是128M 64M 或者说我这里小于128 每个文件一个map…...
企业有VR全景拍摄的需求吗?能带来哪些好处?
在传统图文和平面视频逐渐疲软的当下,企业商家如何做才能让远在千里之外的客户更深入、更直接的详细了解企业品牌和实力呢?千篇一律的纸质材料已经过时了,即使制作的再精美,大家也会审美疲劳;但是你让客户远隔千里&…...
【问题解决】Git命令行常见error及其解决方法
以下是我一段时间没有使用xshell,然后用git命令行遇到的一些系列错误和他们的解决方法 遇到了这个报错: fatal: Not a git repository (or any of the parent directories): .git 我查阅一些博客和资料,可以解决的方式: git in…...
【100天精通python】Day34:使用python操作数据库_ORM(SQLAlchemy)使用
目录 专栏导读 1 ORM 概述 2 SQLAlchemy 概述 3 ORM:SQLAlchemy使用 3.1 安装SQLAlchemy: 3.2 定义数据库模型类: 3.3 创建数据表: 3.4 插入数据: 3.5 查询数据: 3.6 更新数据: 3.7 删…...
CCLINK IE转MODBUS-TCP网关modbus tcp协议详解
你是否曾经遇到过需要同时处理CCLINK IE FIELD BASIC和MODBUS两种数据协议的情况?捷米的JM-CCLKIE-TCP网关可以帮助你解决这个问题。 捷米JM-CCLKIE-TCP网关可以分别从CCLINK IE FIELD BASIC一侧和MODBUS一侧读写数据,然后将数据存入各自的缓冲区。接着…...
vue2根据不同的电脑分辨率显示页面内容及不同设备适配显示
1.安装插件: npm install postcss-px2rem px2rem-loader --save npm i lib-flexible --save 2.创建flexible.js,并在main.js引用 ;(function(win, lib) {var doc = win.document;var docEl = doc.documentElement;var metaEl = doc.querySelector(meta[name="viewport&…...
概率论:多维随机变量及分布
多维随机变量及分布 X X X为随机变量, ∀ x ∈ R , P { X ≤ x } F ( x ) \forall x\in R,P\{X\le x\}F(x) ∀x∈R,P{X≤x}F(x) 设 F ( x ) F(x) F(x)为 X X X的分布函数,则 (1) 0 ≤ F ( x ) ≤ 1 0\le F(x)\le1 0≤F(x)≤1 &am…...
flutter-第三方组件
卡片折叠 stacked_card_carousel 扫一扫组件 qr_code_scanner 权限处理组件 permission_handler 生成二维码组件 pretty_qr_code 角标组件 badges 动画组件 animations app更新 app_installer 带缓存的图片组件 cached_network_image 密码输入框 collection 图片保存 image_g…...
迪瑞克斯拉算法
迪锐克斯拉算法 简单来说就是在有向图中,给定一个图中具体的出发点,从这个点出发能够到达的所有的点,每个点的最短距离是多少。到不了的点,距离则是正无穷。有向,无负权重,可以有环。 所以说,迪…...
数据结构:力扣OJ题(每日一练)
目录 题一:环形链表 思路一: 题二:复制带随机指针的链表 思路一: 本人实力有限可能对一些地方解释的不够清晰,可以自己尝试读代码,望海涵! 题一:环形链表 给定一个链表的头节点…...
【论文阅读】基于深度学习的时序预测——Informer
系列文章链接 论文一:2020 Informer:长时序数据预测 论文二:2021 Autoformer:长序列数据预测 论文三:2022 FEDformer:长序列数据预测 论文四:2022 Non-Stationary Transformers:非平…...
机器学习 | Python实现GBDT梯度提升树模型设计
机器学习 | Python实现GBDT梯度提升树模型设计 目录 机器学习 | Python实现GBDT梯度提升树模型设计基本介绍模型描述模型使用参考资料基本介绍 机器学习 | Python实现GBDT梯度提升树模型设计。梯度提升树(Grandient Boosting)是提升树(Boosting Tree)的一种改进算法,GBDT也…...
elementUi表单恢复至初始状态并不触发表单验证
elementUi表单恢复至初始状态并不触发表单验证 1.场景再现2.解决方法 1.场景再现 左侧是树形列表,右侧是显示节点的详情,点击按钮应该就是新增一个规则的意思,表单内容是没有改变的,所以就把需要把表单恢复至初始状态并不触发表单…...
大模型相关知识
一. embedding 简单来说,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)…...
Spring Boot消息队列终极指南:RabbitMQ与Kafka快速集成实战
Spring Boot消息队列终极指南:RabbitMQ与Kafka快速集成实战 【免费下载链接】spring-boot Spring Boot helps you to create Spring-powered, production-grade applications and services with absolute minimum fuss. 项目地址: https://gitcode.com/gh_mirrors…...
Anthropic Harness工程入门基础教程(非常详细),收藏这一篇就够了!
用 ChatGPT 和用 Claude Code,是两种完全不同的体感。 前者就是聊天,后者是在聊天的基础上给用户干活。 像 Claude Code 这样的 Coding Agent 打开终端,需求丢进去,它开始读文件、搜索代码、执行命令、跑测试、提 PR,…...
MindSpore 环境配置完全指南安
前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知,本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。 写在前面 Kafka 作为一个成熟的事件流平台,有非常多的配置参数。详细的参数列表可以…...
SumatraPDF终极书签管理指南:从基础导航到高级技巧
SumatraPDF终极书签管理指南:从基础导航到高级技巧 【免费下载链接】sumatrapdf SumatraPDF reader 项目地址: https://gitcode.com/gh_mirrors/su/sumatrapdf SumatraPDF作为一款轻量级的多格式文档阅读器,在PDF书签管理方面提供了独特而实用的解…...
从Prompt CI到Agent CD:2026奇点大会披露的4层AI原生交付架构图,已获CNCF官方收录为参考模型
第一章:2026奇点智能技术大会:AI原生持续交付 2026奇点智能技术大会(https://ml-summit.org) AI原生持续交付(AI-Native Continuous Delivery)正重新定义软件工程的生命周期边界——它不再仅关注代码构建与部署,而是将…...
XV6操作系统:proc机制学习笔记
梳理struct proc的结构如下,通过分析一个父子进程的程序关系来理解process的工作原理:#include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <fcntl.h> #include <sys/wait.h> #include <string.h>…...
lerobot so101机械臂锁死紧急救援!删除校准文件三步重生术
问题在调试校准lerobot so101机械臂,第二遍执行校准机械臂的命令lerobot-calibrate时,整个机械臂锁死,无法手动调整舵机: lerobot-calibrate \--robot.typeso101_follower \--robot.port/dev/ttyACM0 \--robot.idmy_awesome_follo…...
libigl实战指南:从零构建DrawMesh项目
1. 环境准备:从零搭建libigl开发环境 第一次接触libigl时,我被它简洁的API设计惊艳到了。这个基于C的轻量级几何处理库,特别适合需要快速实现3D模型渲染的开发者。不过搭建开发环境的过程确实让我踩了不少坑,这里把我的经验完整分…...
Flowise AI工作流安全通关手册:从零基础入门到攻防专家,全链路守住你的AI核心资产
2026年4月,全球AI圈与网络安全界同步爆发了一场震动行业的大规模攻击事件:黑客利用开源AI工作流编排平台Flowise的CVE-2025-59528满分高危漏洞,对全球公网暴露的上万个AI工作流实例发起无差别攻击。短短一周内,数千个企业与开发者…...
HTML 页面中精准控制 Chrome 翻译功能的实用技巧
1. 为什么需要控制Chrome翻译功能? 作为网页开发者,你可能遇到过这样的场景:用户使用Chrome浏览器的翻译功能时,页面上的品牌名称、专业术语或代码片段被错误翻译,导致内容失真。比如公司名称"Apple"被翻译成…...
