当前位置: 首页 > article >正文

浏览器自动化:OpenClaw+GLM-4.7-Flash爬取数据并生成报告

浏览器自动化OpenClawGLM-4.7-Flash爬取数据并生成报告1. 为什么选择OpenClaw做浏览器自动化去年我接手了一个每周都要重复的数据分析任务登录内部系统导出销售数据清洗后生成可视化报告。这种机械劳动不仅耗时还容易出错。在尝试了各种RPA工具后我发现了OpenClaw这个开源框架——它让我能用自然语言指挥AI完成整个流程而不用写一行爬虫代码。与传统爬虫工具不同OpenClaw的核心优势在于真实浏览器操作像人类一样点击、滚动、输入绕过反爬机制动态决策能力遇到验证码或页面变更时AI能自主调整策略端到端自动化从数据采集到报告生成的全链路整合2. 环境准备与模型部署2.1 基础组件安装我的设备是MacBook Pro M1先通过Homebrew完成基础环境搭建brew install node22 npm install -g openclawlatest openclaw --version # 确认版本≥0.8.32.2 GLM-4.7-Flash模型接入使用星图平台提供的ollama镜像快速部署模型服务docker run -d -p 11434:11434 --name glm-flash ollama/glm-4.7-flash在OpenClaw配置文件中添加模型端点~/.openclaw/openclaw.json{ models: { providers: { local-glm: { baseUrl: http://localhost:11434, api: openai-completions, models: [ { id: glm-4.7-flash, name: Local GLM Flash, contextWindow: 32768 } ] } } } }验证模型连通性openclaw models list openclaw gateway restart3. 实战电商数据自动化分析3.1 目标网站登录自动化我的目标是一个需要登录的电商后台传统爬虫处理这类场景非常痛苦。通过OpenClaw的浏览器控制模块只需用自然语言描述流程启动交互式任务模式openclaw task --interactive输入指令请打开Chrome浏览器访问https://example.com/login 在ID为username的输入框填写我的账号admintest.com 在ID为password的输入框填写密码12345678 点击class包含login-btn的按钮实际执行时OpenClaw会自动启动无头浏览器等待元素加载完成处理可能的验证码弹窗需要额外配置验证码识别skill3.2 动态数据抓取策略目标数据在AJAX加载的表格中传统爬虫需要解析网络请求。而OpenClaw可以直接操作DOM请滚动到页面底部直到不再加载新数据 获取所有class包含data-row的元素 提取每个元素下第2列的文本作为商品名 第5列的文本作为销售额 整理成CSV格式AI会生成类似这样的执行代码自动转换自自然语言const rows document.querySelectorAll(.data-row); const data Array.from(rows).map(row { const cols row.querySelectorAll(td); return { product: cols[1].innerText, sales: parseFloat(cols[4].innerText.replace(¥,)) }; });3.3 数据清洗与增强原始数据包含重复项和缺失值通过GLM模型进行智能清洗请对抓取的销售数据做以下处理 1. 合并相同商品名的记录 2. 缺失销售额的记录用同类商品均值填充 3. 按销售额降序排序 4. 添加销售额分级标签 - 10万S级 - 5-10万A级 - 5万B级模型会返回结构化处理结果并自动保存为cleaned_data.csv。3.4 可视化报告生成最后用自然语言指令生成图文报告基于清洗后的数据 1. 生成前10名商品销售额的柱状图 2. 计算各级别商品占比的饼图 3. 输出分析结论 - 销售趋势 - 头部商品特征 - 改进建议OpenClaw会调用Python matplotlib自动生成图表并与文本分析合并为PDF报告。我的每周重复工作从3小时缩短到10分钟。4. 踩坑与优化经验4.1 验证码破解方案初期遇到图形验证码时试过两种方案商业打码平台成本高且响应慢本地OCR模型准确率不稳定最终采用混合策略首次出现时人工识别后续相同会话维持cookies。配置方法{ browser: { persistSession: true, sessionPath: ~/.openclaw/sessions } }4.2 页面变更容错当目标网站改版时原先的元素定位会失效。通过以下策略提升鲁棒性使用XPath和CSS选择器组合定位添加备用元素查找逻辑设置操作超时和重试机制示例配置{ actions: { timeout: 30000, retry: 3, fallbackSelectors: { loginBtn: [#submit, .btn-primary] } } }4.3 Token消耗控制长时间操作会消耗大量Token通过两种方式优化操作缓存重复步骤使用本地缓存指令压缩将多步操作合并为单条复杂指令实测将Token消耗从平均2000/次降到800/次。5. 效果评估与扩展场景经过两个月实践这个自动化流程已经稳定处理了8期周报。除了基础的数据采集我还扩展了以下场景竞品价格监控自动比对我们与竞品的价格变动库存预警当库存低于阈值时发送飞书通知自动周报将分析结果直接插入Confluence文档最让我惊喜的是GLM-4.7-Flash的表格处理能力——它能理解把第三列数据除以第一列作为新指标这样的复杂指令这在传统脚本中需要大量pandas代码。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

浏览器自动化:OpenClaw+GLM-4.7-Flash爬取数据并生成报告

浏览器自动化:OpenClawGLM-4.7-Flash爬取数据并生成报告 1. 为什么选择OpenClaw做浏览器自动化? 去年我接手了一个每周都要重复的数据分析任务:登录内部系统导出销售数据,清洗后生成可视化报告。这种机械劳动不仅耗时&#xff0…...

STM32模拟Linux内核自动初始化机制实现

STM32模拟Linux内核自动初始化机制实现1. 项目概述1.1 技术背景在传统嵌入式开发中,程序通常按照顺序逻辑执行,当系统复杂度增加时会导致代码臃肿、模块耦合紧密。Linux内核通过initcall机制实现了模块化初始化,本项目在STM32平台上模拟实现了…...

LeetDown完全指南:系统降级功能解决A6/A7设备用户的卡顿痛点

LeetDown完全指南:系统降级功能解决A6/A7设备用户的卡顿痛点 【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown LeetDown是一款专为macOS设计的图形化降级工具&#xff0…...

PyTorch 2.8镜像多场景落地:在线教育平台个性化习题生成引擎部署

PyTorch 2.8镜像多场景落地:在线教育平台个性化习题生成引擎部署 1. 教育行业的AI转型机遇 在线教育行业正面临个性化学习的迫切需求。传统题库系统存在内容同质化、更新成本高、难以匹配学生个体差异等问题。基于PyTorch 2.8构建的个性化习题生成引擎&#xff0c…...

Nginx反向代理实战:不改代码轻松解决前后端跨域问题(附完整配置模板)

Nginx反向代理实战:不改代码轻松解决前后端跨域问题(附完整配置模板) 前后端分离架构已成为现代Web开发的主流模式,但随之而来的跨域问题却让不少开发者头疼。想象一下这样的场景:你的前端运行在https://frontend.com&…...

AnythingtoRealCharacters2511效果展示:动漫角色真人化案例

AnythingtoRealCharacters2511效果展示:动漫角色真人化案例 你有没有想过,如果自己喜欢的动漫角色真的出现在现实世界里,会是什么样子?不是那种粗糙的3D建模,也不是简单的滤镜叠加,而是看起来就像用专业相…...

深度解析DiffSinger:基于扩散模型的AI歌声合成技术革命

深度解析DiffSinger:基于扩散模型的AI歌声合成技术革命 【免费下载链接】DiffSinger 项目地址: https://gitcode.com/gh_mirrors/dif/DiffSinger 在当今AI音乐创作领域,DiffSinger歌声合成技术正引领着一场声音生成的技术革命。这个由OpenVPI维护…...

SEO_避开这些常见SEO误区,你的排名才能快速上升

<h2>SEO误区&#xff1a;为什么你的网站排名不上升</h2> <p>在当前竞争激烈的互联网环境中&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;是提升网站排名的关键。很多人在进行SEO优化时却常常犯下一些常见的SEO误区。这些误区不仅会让你的排名停滞不前…...

Spring AI:Spring生态的AI工程框架全面解析

Spring AI&#xff1a;Spring生态的AI工程框架全面解析 【免费下载链接】spring-ai An Application Framework for AI Engineering 项目地址: https://gitcode.com/GitHub_Trending/spr/spring-ai Spring AI是Spring生态系统中的AI工程框架&#xff0c;为Java开发者提供…...

HunyuanVideo-Foley 社区贡献指南:如何提交Prompt案例与优化建议

HunyuanVideo-Foley 社区贡献指南&#xff1a;如何提交Prompt案例与优化建议 1. 为什么你的贡献很重要 开源项目的生命力来自社区的共同参与。HunyuanVideo-Foley作为一款专注于音效生成的AI模型&#xff0c;其效果提升离不开用户的实际使用反馈和创意贡献。你的每一次Prompt…...

SEO_快速提升流量的五个SEO关键操作步骤

<h3 id"seoseo">SEO:快速提升流量的五个SEO关键操作步骤</h3> <p>在数字化时代&#xff0c;网站的流量直接影响着企业的市场竞争力。如何让你的网站在搜索引擎上排名靠前&#xff0c;吸引更多的访客&#xff0c;这是每个网站运营者都面临的重要课题…...

为什么90%的Python项目误用SM9?——基于NIST SP 800-56A rev3与GB/T 38635.2的合规性性能审计清单

第一章&#xff1a;SM9密码算法的合规性认知误区与审计必要性在国产密码应用推广过程中&#xff0c;SM9标识密码体系常被误认为“天然合规”——仅因列入《GB/T 38635.1—2020 信息安全技术 SM9标识密码算法 第1部分&#xff1a;总则》即等同于满足等保2.0、密评及《商用密码管…...

如何快速掌握扩散模型:PyTorch实现的终极指南

如何快速掌握扩散模型&#xff1a;PyTorch实现的终极指南 【免费下载链接】Diffusion-Models-pytorch Pytorch implementation of Diffusion Models (https://arxiv.org/pdf/2006.11239.pdf) 项目地址: https://gitcode.com/gh_mirrors/di/Diffusion-Models-pytorch 想要…...

企业生产环境怎么正确做 Vibe Coding:不是让 AI 接管,而是把交付流程做成可控系统

这两年&#xff0c;vibe coding 很热。很多团队第一次接触它时&#xff0c;直觉都是&#xff1a;既然 AI 会写代码&#xff0c;那就让它多写一点&#xff0c;人少管一点&#xff0c;速度自然就上来了。 但一进企业生产环境&#xff0c;这种想法通常很快撞墙。 因为企业真正关心…...

Cherry Studio终极模型集成指南:支持DeepSeek-R1等主流LLM的桌面AI神器

Cherry Studio终极模型集成指南&#xff1a;支持DeepSeek-R1等主流LLM的桌面AI神器 【免费下载链接】cherry-studio &#x1f352; Cherry Studio is a desktop client that supports for multiple LLM providers. Support deepseek-r1 项目地址: https://gitcode.com/GitHub…...

FastAPI 2.0 AI流式响应性能瓶颈分析与突破方案(源码级内存泄漏定位实录)

第一章&#xff1a;FastAPI 2.0 AI流式响应性能瓶颈分析与突破方案&#xff08;源码级内存泄漏定位实录&#xff09;在高并发AI推理服务场景下&#xff0c;FastAPI 2.0 的 StreamingResponse 在持续返回大模型 token 流时&#xff0c;常出现 RSS 内存持续增长、GC 延迟升高、最…...

保姆级教程:手把手教你将若依(RuoYi)项目从Java 8迁移到Java 17(含Spring Boot 3升级)

保姆级教程&#xff1a;手把手教你将若依(RuoYi)项目从Java 8迁移到Java 17&#xff08;含Spring Boot 3升级&#xff09; 最近几年Java生态发生了翻天覆地的变化&#xff0c;从Java 8到Java 17不仅仅是版本号的跳跃&#xff0c;更是一次技术栈的全面革新。作为国内广泛使用的…...

Deepfake Offensive Toolkit实战:视频会议系统渗透测试案例

Deepfake Offensive Toolkit实战&#xff1a;视频会议系统渗透测试案例 【免费下载链接】dot The Deepfake Offensive Toolkit 项目地址: https://gitcode.com/gh_mirrors/dot/dot 想要了解如何利用深度伪造技术进行视频会议系统安全测试吗&#xff1f;Deepfake Offensi…...

专访越擎科技创始人: 外骨骼的设计与仿真该如何入门

具身智能机器人领域的技术创新如火如荼&#xff0c;从轮式机器人&#xff0c;人形机器人&#xff0c;四足机器狗等不一而足。而从分类来看&#xff0c;外骨骼机器人作为增强人的能力的典型应用&#xff0c;不仅在医疗领域发挥重要作用&#xff0c;在工业应用等场景中也大大的增…...

从零到一:手把手教你用海康VisionMaster完成第一个字符识别项目(附完整流程与避坑点)

从零到一&#xff1a;手把手教你用海康VisionMaster完成第一个字符识别项目&#xff08;附完整流程与避坑点&#xff09; 在工业自动化领域&#xff0c;字符识别技术正逐渐成为生产线上的"眼睛"。无论是产品追溯码读取、包装日期检测&#xff0c;还是仪表盘数值记录&…...

机器人离线编程专访:我是SiemensMCD与pdps用户,该不该切换为国产机器人设计与仿真软件iRobotCAM

摘要: 作为Siemens MCD与PDPS的用户&#xff0c;我从PDPS切换到其它软件时会考虑哪些因素&#xff0c;该不该切换到国产的iRobotCAM&#xff0c;本文通过专该机器人设计与仿真软件专家的形式&#xff0c;提供行业从业者的视角&#xff0c;阐述iRobotCAM的产品特点与适用性。工业…...

Beyond Compare 5密钥生成器:专业文件对比工具的永久激活方案

Beyond Compare 5密钥生成器&#xff1a;专业文件对比工具的永久激活方案 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 你是否正在为Beyond Compare 5的30天评估期到期而烦恼&#xff1f;这款…...

金融Agent再获近2亿加码!启明红杉高瓴集体押注,5个月内连获两轮融资

允中 发自 凹非寺量子位 | 公众号 QbitAI近日&#xff0c;金融AI领跑者讯兔科技&#xff08;Alpha派&#xff09;正式完成近2亿元A轮融资。继去年10月完成超亿元Pre-A轮融资后&#xff0c;讯兔科技在短短5个月内再获顶级机构强强加持。本轮由启明创投、红杉中国、高瓴创投共同领…...

终极指南:如何在Open Interpreter中快速集成vLLM高速推理引擎

终极指南&#xff1a;如何在Open Interpreter中快速集成vLLM高速推理引擎 【免费下载链接】open-interpreter Open Interpreter 工具能够让大型语言模型在本地执行如Python、JavaScript、Shell等多种编程语言的代码。 项目地址: https://gitcode.com/GitHub_Trending/op/open…...

Zotero Style插件:如何通过3个核心功能让文献管理效率提升200%?

Zotero Style插件&#xff1a;如何通过3个核心功能让文献管理效率提升200%&#xff1f; 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件&#xff0c;提供了一系列功能来增强 Zotero 的用户体验&#xff0c;如阅读进度可视化和标签管理&#xff0c;适合研究人员…...

Windows服务器部署:OpenClaw守护进程+Qwen3-32B镜像长期运行

Windows服务器部署&#xff1a;OpenClaw守护进程Qwen3-32B镜像长期运行 1. 为什么需要服务器级部署&#xff1f; 去年我尝试在个人笔记本上运行OpenClaw时&#xff0c;经常遇到两个头疼的问题&#xff1a;一是夜间执行任务时电脑休眠导致流程中断&#xff0c;二是长时间运行后…...

2025夏季技术实习「抢位战」:3步解锁2500+优质机会(附避坑指南)[特殊字符]

2025夏季技术实习「抢位战」&#xff1a;3步解锁2500优质机会&#xff08;附避坑指南&#xff09;&#x1f525; 【免费下载链接】Summer2026-Internships 2025年夏季技术实习机会集合&#xff01; 项目地址: https://gitcode.com/GitHub_Trending/su/Summer2026-Internships…...

3个步骤掌握FCEUX:开源NES模拟器的全方位应用指南

3个步骤掌握FCEUX&#xff1a;开源NES模拟器的全方位应用指南 【免费下载链接】fceux FCEUX, a NES Emulator 项目地址: https://gitcode.com/gh_mirrors/fc/fceux FCEUX是一款功能强大的开源NES模拟器&#xff08;任天堂娱乐系统游戏模拟工具&#xff09;&#xff0c;以…...

SDXL 1.0电影级绘图工坊高清图集:1536px输出下4K显示器全屏无像素感展示

SDXL 1.0电影级绘图工坊高清图集&#xff1a;1536px输出下4K显示器全屏无像素感展示 1. 项目简介 SDXL 1.0电影级绘图工坊是一款基于Stable Diffusion XL Base 1.0模型的AI绘图工具&#xff0c;专门为RTX 4090显卡优化设计。这个工具充分利用了4090显卡的24G大显存&#xff0…...

【CPython内存管理白皮书级解析】:从PyObject到ob_refcnt,看懂泄漏发生的底层5层机制

第一章&#xff1a;CPython内存管理的底层基石与泄漏本质CPython 的内存管理并非依赖操作系统级 malloc/free 的直接映射&#xff0c;而是构建在三层抽象之上的精密系统&#xff1a;最底层为系统内存分配器&#xff08;如 mmap 或 malloc&#xff09;&#xff0c;中间层为 CPyt…...