当前位置: 首页 > article >正文

视觉分析开发范例:Puppeteer截图+计算机视觉动态定位

爬虫代理

一、选型背景:传统爬虫已无力应对的视觉挑战

在现代互联网环境中,尤其是小红书、抖音、B站等视觉驱动型平台,传统基于 HTML 的爬虫已经难以满足精准数据采集需求:

  • 内容加载由 JS 动态触发,难以直接解析 HTML;
  • 视频、图片等关键元素无法通过 DOM 提取;
  • 页面元素位置随屏幕尺寸、渲染行为而变化。

为此,「视觉爬虫」应运而生。通过浏览器自动化 + 截图 + 图像识别,可以突破传统爬虫的局限,抓取“人眼所见”的页面内容。

本文聚焦在 Puppeteer 驱动浏览器自动化,并结合计算机视觉实现页面元素的动态定位与信息提取。


二、技术对比维度:DOM vs. 视觉爬虫

对比维度传统 DOM 爬虫视觉爬虫(Puppeteer + CV)
页面解析方式HTML 文档结构可视化渲染页面截图
定位元素依据CSS/XPath/Selector图像特征(坐标、形状、文字)
动态内容支持差,依赖额外执行 JS强,浏览器真实执行环境
稳定性页面结构变动易失效图像特征变化小,较稳
技术难度中高,涉及计算机视觉处理

三、代码对比示例:关键词搜索+视频截图+视觉定位

下面通过 Puppeteer + Node.js 实现小红书视频搜索 + 播放 + 屏幕截图 + 图像识别定位关键区域,并设置代理等提供采集成功率。

💡 目标任务:搜索关键词“旅行vlog”,点击第一个视频并截图视频播放页,对播放按钮等进行视觉定位。

项目依赖

npm install puppeteer-extra puppeteer-extra-plugin-stealth tesseract.js sharp

核心代码示例

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const tesseract = require('tesseract.js'); // 用于图像识别
const sharp = require('sharp');            // 图像裁剪处理puppeteer.use(StealthPlugin());(async () => {// 爬虫代理配置(亿牛云示例 www.16yun.cn)const proxyHost = 'proxy.16yun.cn';const proxyPort = '31000';const proxyUser = '16YUN';const proxyPass = '16IP';// Puppeteer 启动带代理const browser = await puppeteer.launch({headless: false,args: [`--proxy-server=http://${proxyHost}:${proxyPort}`,],});const page = await browser.newPage();// 设置 User-Agent 和 Cookie(模拟真实用户)await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36');await page.setCookie({name: 'xhsTracker',value: 'your_cookie_value',domain: '.xiaohongshu.com'});// 设置代理认证await page.authenticate({username: proxyUser,password: proxyPass,});// 打开小红书搜索页面const keyword = '旅行vlog';await page.goto(`https://www.xiaohongshu.com/search_result?keyword=${encodeURIComponent(keyword)}`, {waitUntil: 'networkidle2'});await page.waitForTimeout(3000); // 等待页面加载// 点击第一个视频内容const videoSelector = 'div.video-feed-container div.feed-video-card:first-child';await page.waitForSelector(videoSelector);await page.click(videoSelector);// 等待视频播放页加载await page.waitForTimeout(5000);// 截图当前页面const screenshotPath = 'screenshot.png';await page.screenshot({ path: screenshotPath, fullPage: true });console.log('页面截图已保存:', screenshotPath);// 对截图进行图像识别(找出“暂停/播放按钮”等图标)const croppedPath = 'video_button_crop.png';// 示例:裁剪中间区域(大概率是播放按钮)await sharp(screenshotPath).extract({ left: 500, top: 300, width: 300, height: 200 }) // 可按实际屏幕调整.toFile(croppedPath);console.log('已裁剪截图区域:', croppedPath);// 使用 Tesseract 识别该区域的文本(可替换为模板匹配找图标)const result = await tesseract.recognize(croppedPath, 'eng', {logger: m => console.log(m)});console.log('识别结果:', result.data.text);await browser.close();
})();

四、场景推荐

适用场景推荐方式
采集结构化信息(如商品价格)传统 DOM 爬虫足够
视频截图、播放状态分析Puppeteer + CV 更适合
页面强 JS 渲染(如小红书)Puppeteer 更有优势
动态内容 + 图像定位Puppeteer + 图像识别最强

五、结论:让“爬虫看见”比“爬虫看懂”更重要

随着视觉化内容成为主流,“看见”页面比“理解 HTML”更关键。Puppeteer 结合计算机视觉不仅可以真实再现页面内容,还能识别图像中的元素,为复杂场景提供强有力的支持。

尤其在小红书等平台,传统 DOM 爬虫几乎“寸步难行”,而视觉爬虫打开了新一代内容采集的大门。未来,结合 OCR、模板匹配、视频分析的视觉爬虫,将成为数据采集的新范式。

相关文章:

视觉分析开发范例:Puppeteer截图+计算机视觉动态定位

一、选型背景:传统爬虫已无力应对的视觉挑战 在现代互联网环境中,尤其是小红书、抖音、B站等视觉驱动型平台,传统基于 HTML 的爬虫已经难以满足精准数据采集需求: 内容加载由 JS 动态触发,难以直接解析 HTML&#xf…...

Linux 基础开发工具的使用

目录 前言 一:下载工具yum 二:文本编辑器vim 1. 命令模式 2. 插入模式 3. 底行模式 三:gcc和g 基本使用格式 常用选项及作用 编译过程示例 四、Linux 项目自动化构建工具 ——make/Makefile 1. make 与 Makefile 的关系 2. Make…...

ElasticSearch查询指定时间内出现的次数/2秒内出现的次数

查询指定时间内出现的次数 POST process-log/_search {"size": 0,"query": {"bool": {"filter": [{"range": {"requestTime": {"from": 1722470400000,"to": 1722556800000}}}]}},"agg…...

华为云Flexus+DeepSeek征文 | Dify-LLM平台一键部署教程及问题解决指南

作者简介 我是摘星,一名专注于云计算和AI技术的开发者。本次通过华为云MaaS平台体验DeepSeek系列模型,将实际使用经验分享给大家,希望能帮助开发者快速掌握华为云AI服务的核心能力。 目录 1. 前言 2. 准备工作 2.1 注册华为云账号 2.2 确…...

STP协议:如何消除网络环路风暴

生成树协议(STP,Spanning Tree Protocol)的主要功能: 消除网络环路导致的广播风暴问题(环路会引发MAC地址表不稳定)防止网络中的主机接收重复数据帧 STP工作原理: 选举根桥(Root …...

哈工大计算机系统2025大作业——Hello的程序人生

计算机系统 大作业 题 目 程序人生-Hello’s P2P 专 业 计算学部 学   号 2023113072 班 级 23L0513 学 生 董国帅 指 导 教 师 史先俊 计算机科学与…...

物联网常用协议Modbus、CAN、BACnet介绍

一、Modbus Modbus 作为工业通信领域的基石,是一款被广泛应用的工业通信协议,主要用于实现可编程逻辑控制器(PLC)等工业电子设备之间的连接。1979 年,Modicon 公司(现施耐德电气的一部分)开发了这一协议,旨在简化工厂内设备间的通信流程。经过多年发展,Modbus 衍生出…...

Vue中van-stepper与input值不同步问题及解决方案

一、问题描述 在使用Vant UI的van-stepper步进器组件与原生input输入框绑定同一响应式数据时,出现以下现象: 通过步进器修改值后,页面直接输出{{ count }}和watch监听器均能获取最新值但input输入框显示的数值未同步更新,仍为旧…...

react基础技术栈

react基础技术栈 react项目构建react的事件绑定React组件的响应式数据条件渲染和列表循环表单绑定 Props和组件间传值,插槽react中的样式操作 生命周期ref 和 context函数组件和hook高阶组件React性能问题React-route的三个版本react-router使用步骤react-router提供…...

Three.js搭建小米SU7三维汽车实战(4)场景搭建

场地搭建 javascript // 导入threejs import * as THREE from "three"; // 导入轨道控制器 import { OrbitControls } from "three/addons/controls/OrbitControls.js"; // 1. 创建场景 const scene new THREE.Scene(); // 2. 创建相机 const camera ne…...

redis五种数据结构底层实现

参考文档: redis5种数据结构底层实现...

Excel 统计某个字符串在指定区域出现的次数

【本文概要】 Excel 统计某个字符串在指定区域出现的次数: 1、Excel 统计一个单元格内的某字符串的出现次数 2、Excel 统计某一列所有单元格内的某字符串的出现次数 3、Excel 统计某一区域所有单元格内的某字符串的出现次数 1、Excel 统计一个单元格内的某字符串的出…...

【Kubernetes】ubuntu20.04通过kubeadm + Docker安装k8s

Kubernetes v1.24集群安装配置步骤总结 一、环境准备 (一)系统要求 运行兼容deb/rpm的Linux操作系统(如Ubuntu或CentOS)的计算机,1台或多台。每台机器内存2GB以上,内存不足会限制应用运行。控制平面节点…...

前端开源JavaScrip库

以下内容仍在持续完善中,如有遗漏或需要补充之处,欢迎在评论区指出。感谢支持,如果觉得有帮助,欢迎点赞鼓励。感谢支持 JavaScript 框架Vue.jsVue.js - 渐进式 JavaScript 框架 | Vue.jsReactReactAngularHome • AngularjQueryj…...

【Linux我做主】进度条小程序深度解析

Linux下C语言进度条程序深度解析 进度条小程序GitHub地址 前言前置知识回车换行(CR/LF)的深度解析历史渊源与技术规范在进度条/倒计时中的应用 缓冲区机制的全面剖析缓冲区引入缓冲类型对比进度条开发中的关键控制 进度条实现以小见大——倒计时倒计时最…...

MySQL 使用全局锁会导致的问题?

MySQL 使用全局锁会导致以下核心问题: ‌业务停摆与主从延迟‌ ‌主库备份‌:备份期间所有更新操作被阻塞,业务系统陷入等待状态‌从库备份‌:无法执行主库同步的 binlog,导致主从复制延迟加剧 ‌并发性能急剧下降‌ …...

从Homebrew找到openssl.cnf文件并拷贝到Go项目下使用

安装OpenSSL 在 macOS 上下载和安装 OpenSSL 最常见和推荐的方式是使用 Homebrew,这是一个 macOS 缺失的包管理器。 如果您还没有安装 Homebrew,请先安装它。安装 Homebrew 后,安装 OpenSSL 只需要一条命令。 步骤 1:安装 Home…...

在Java对象转JSON字符串时不显示无值参数

在Java中,可以通过在展示数据的逻辑中添加判断条件来实现这一需求。以下是一些常见的场景和实现方法: 场景一:在Java对象转JSON字符串时 使用Gson库 代码实现 首先引入Gson依赖,如果使用Maven构建项目,在pom.xml文件中…...

在 Ubuntu 服务器上 下载 Clash 文件使用代理

文件Clash.Verge_1.3.8_x64_portable.zip 在 Ubuntu 服务器上不能使用这个Clash 文件**,我们需要的是 Clash.Meta 而不是 Clash Verge GUI 客户端 也就是 Clash Verge GUI 客户端的 Windows 版本,是给 Windows 桌面环境用的图形界面,不适用…...

微信小程序一次性订阅封装

封装代码如下&#xff1a; export async function subscribeMessage(tmplIds: string[]): Promise<ISubscribeMessagePromise> {// 模板ID// 1、获取设置状态const settings (await wx.getSetting({ withSubscriptions: true })).subscriptionsSetting || {}console.log…...

Spring AI MCP的几个小问题

测试时间&#xff1a;2025/05/29 测试版本&#xff1a;Spring AI 1.0.0 问题1&#xff1a;由于启动顺序问题&#xff0c;MCP的服务器端和客户端不能在一个应用里&#xff0c;不然客户端连不上服务器会报错退出。(实际项目应该没有这样用的) 问题2&#xff1a;现在如果配置了…...

安全帽检测算法AI智能分析网关V4守护工地/矿山/工厂等多场景作业安全

一、方案概述​ 在工业生产与建筑施工场景中&#xff0c;安全帽是保障人员安全的重要装备。但传统人工巡检效率低、易疏漏&#xff0c;难以满足现代安全管理需求。AI智能分析网关V4安全帽检测方案&#xff0c;借助人工智能与计算机视觉技术&#xff0c;实现作业现场安全帽佩戴…...

Pycharm的简单介绍

目录 1. 起源与发展历史 2. 定位与核心作用 3. 主要版本 4. 应用场景 5. 核心功能与优势 6. 优缺点分析 7. 使用入门指南 8. 适用人群 9. 替代工具对比 总结 1. 起源与发展历史 公司背景&#xff1a;由捷克公司 JetBrains&#xff08;成立于2000年&#xff09;开发&a…...

重新安装解决mac vscode点击不能跳转问题

依次执行以下过程 删除vscode程序 删除vscode的缓存文件夹(xxx表示你的用户名) /Users/xxx/Library/Application Support/Code 重新安装vscode 这时候你会反向可以跳转项目内的import 文件以及自定义函数。但是import安装的包还不能点击跳转 配置python环境 如果你电脑没有安…...

Go语言中flag包的用法详解

在Go语言编程中&#xff0c;flag包是标准库中用于解析命令行参数的强大工具。它提供了一种简单且灵活的方式来定义和处理命令行标志&#xff08;flag&#xff09;&#xff0c;使得程序能够从命令行接收用户输入的参数。本文将详细介绍flag包的用法&#xff0c;包括基本概念、常…...

Python自动化之selenium语句——打开、关闭浏览器和网页

目录 一、打开谷歌浏览器 1.双击桌面的Pycharm工具 2.新建Python文件&#xff0c;输入文件名 3.新建的Python文件如下 4.安装selenium库 5.导入包 二、打开网页、关闭网页、关闭浏览器 1.导入增加一个时间包 2.使用函数打包之前写的浏览器的配置 3.调用 4.打开百度网…...

【数据结构】--二叉树--堆(上)

一、树的概念和结构 概念&#xff1a; 树是一种非线性的数据结构&#xff0c;他是由n(n>0)个有限结点组成一个具有层次关系的集合。其叫做树&#xff0c;是因为他倒过来看就和一棵树差不多&#xff0c;其实际上是根在上&#xff0c;树枝在下的。 树的特点&#xff1a; 1…...

Rust 学习笔记:使用迭代器改进 minigrep

Rust 学习笔记&#xff1a;使用迭代器改进 minigrep Rust 学习笔记&#xff1a;使用迭代器改进 minigrep不使用 clone&#xff0c;而使用迭代器使用迭代器适配器使代码更清晰在循环或迭代器之间进行选择 Rust 学习笔记&#xff1a;使用迭代器改进 minigrep 前情提要&#xff1…...

多线程(5)——单例模式,阻塞队列

目录 单例模式饿汉模式懒汉模式—单线程版懒汉模式—多线程版&#xff08;经典面试题&#xff09;懒汉模式—多线程版&#xff08;改进&#xff09; 阻塞队列阻塞队列是什么生产者消费者模型标准库中的阻塞队列-BlockingQueue阻塞队列实现 单例模式 单例模式是一种设计模式&am…...

React整合【ECharts】教程004:饼图的构建和基本设置

文章目录 6、饼图6.1 开启圆角环形6.2 设置扇区间隙6.3 开启深色模式6.4 开启南丁格尔玫瑰图6.5 修改数据重绘饼图6.6 完整代码下载6、饼图 6.1 开启圆角环形 1️⃣添加圆角环形开关: <div style={{marginTop:10px}}>圆角环形:<Switch checkedChildren="开启…...