当前位置: 首页 > article >正文

给 Agent 配一个浏览器:Cloudflare Browser Run 全面解析

互联网是为人类建的Agent 要用它Agent 需要和网页交互。填表单、提取数据、截图、导航——这些是 Agent 执行任务的基本动作。问题是整个互联网的设计预设是有一个人坐在屏幕前操作。Agent 不是人它没有鼠标没有视网膜它需要一个专门为它准备好的浏览器基础设施。这次Cloudflare 把 Browser Rendering 正式更名为Browser Run同步发布了一批面向 Agent 场景设计的新功能。名字的变化本身就是一个信号这个产品的定位从渲染工具演进成了给 Agent 用的完整浏览器基础设施。新发布的功能清单Live View实时看到 Agent 在做什么包括页面、DOM、控制台和网络请求Human in the LoopAgent 卡住时人工接管处理完成后交还控制权CDP 直连端点Chrome DevTools Protocol 直接暴露Agent 框架和现有脚本可以直接连接MCP 客户端支持Claude Desktop、Cursor、OpenCode 等编码 Agent 可以把 Browser Run 作为远端浏览器WebMCP 支持网站主动声明对 Agent 可用的工具让 Agent 导航更可靠Session Recordings录下每一个会话出问题时有完整回放并发上限提升从 30 提升到 120提升 4 倍以下逐一展开。一、启动一个浏览器Agent 首先需要一个可以按需开启的浏览器。Browser Run 在 Cloudflare 全球网络上提供无头 Chrome 实例不需要管理任何基础设施也不需要维护 Chrome 版本。浏览器会话就近用户所在位置启动延迟低按需扩缩用完即释放。配合 Agents SDK可以构建长时间运行的 Agent——浏览网页、记住上下文、自主行动不需要自己搭一套浏览器管理系统。二、控制浏览器四种方式覆盖不同场景有了浏览器Agent 需要能控制它。Browser Run 提供了从高层到低层的多种方式。CDP 直连端点最大控制权Chrome DevTools ProtocolCDP是浏览器自动化的底层协议。你在 Chrome 里打开开发者工具时背后运行的就是 CDP。Puppeteer、Playwright以及绝大多数 Agent 框架都建立在它之上。以前Browser Run 也是通过 CDP 工作的但开发者只能通过 Puppeteer 或 Playwright 这样的上层封装来使用。现在Cloudflare 把 CDP 端点直接暴露出来。对 Agent 来说这个改变有三点实质意义第一最大控制权。直接访问 CDP 可以使用 Puppeteer 或 Playwright 覆盖不到的浏览器能力比如 JavaScript 调试。第二框架原生兼容。Agent 框架已经在内部使用 CDP可以直接连接不需要额外适配层。第三Token 效率更高。绕过上层库把原始 CDP 消息直接传给模型不需要为封装层的语义转换付出额外 Token 成本。迁移成本极低。如果已有连接到自托管 Chrome 的 CDP 脚本只需修改一行配置// 之前连接到本地自托管 Chromeconstbrowserawaitpuppeteer.connect({browserWSEndpoint:ws://localhost:9222/devtools/browser});// 之后连接到 Browser Runconstbrowserawaitpuppeteer.connect({browserWSEndpoint:wss://api.cloudflare.com/client/v4/accounts/ACCOUNT_ID/browser-rendering/devtools/browser,headers:{Authorization:Bearer API_TOKEN}});一行改动不再需要维护自己的 Chrome 基础设施。同时CDP 端点不依赖 Cloudflare Worker可以从任何语言、任何环境直接调用。MCP 客户端支持让编码 Agent 直接用上浏览器因为 Browser Run 现在暴露了 CDP 端点Claude Desktop、Cursor、Codex、OpenCode 这类编码 Agent 可以把 Browser Run 作为它们的远端浏览器。具体实现是通过 Chrome DevTools 团队发布的chrome-devtools-mcp包——这是一个 MCP Server把完整的 Chrome DevTools 能力可靠的自动化、深度调试、性能分析以 MCP 协议的形式暴露给 AI 编码助手。配置方式非常简单以 Claude Desktop 为例{mcpServers:{browser-rendering:{command:npx,args:[-y,chrome-devtools-mcplatest,--wsEndpointwss://api.cloudflare.com/client/v4/accounts/ACCOUNT_ID/browser-rendering/devtools/browser?keep_alive600000,--wsHeaders{\Authorization\:\Bearer API_TOKEN\}]}}}加上这段配置Claude Desktop 就有了一个完整的 Chrome 浏览器可以驱动。WebMCP让网站主动对 Agent 开放传统的网页 UI 是为人类设计的。Agent 浏览网页时往往需要循环截图 → 分析 → 点击的过程速度慢、可靠性低一旦 UI 发生变化整条流程就可能失效。WebMCP 是 Google Chrome 团队推出的新 Web 标准在 Chromium 146 中落地。它允许网站主动声明哪些操作可以被 Agent 发现并调用。两个 API 实现这件事navigator.modelContext网站用这个接口注册自己的工具告诉 Agent我支持哪些操作navigator.modelContextTestingAgent 用这个接口在页面上发现和调用工具举个具体场景今天一个 Agent 访问机票预订网站需要分析页面结构、找到搜索表单、填写字段整个过程依赖对 UI 的视觉理解。有了 WebMCP网站可以声明我有一个search_flights工具接受出发地、目的地和日期三个参数。Agent 直接调用这个工具跳过所有的 UI 分析过程更快、更可靠而且不受 UI 改版影响。工具是在页面上按需发现的而不是预加载的。这对于覆盖长尾网站来说非常重要——无法事先为每个可能访问的网站都预配一个 MCP Server页面级发现机制解决了这个问题。Browser Run 提供了一个运行 Chrome beta 的实验性浏览器池可以在稳定版 Chrome 之前测试 WebMCP 等新特性npmi-gwranglerlatest wrangler browser create--lab--keepAlive300现有方式继续可用Puppeteer、Playwright、Stagehand 这些已有的全浏览器自动化方式在 Browser Run 上完全不受影响。对于截图、PDF 生成、Markdown 提取这类简单任务Quick Action 端点依然是最快的选择。/crawl端点是最近新增的支持单次 API 调用爬取整个网站给一个起始 URL自动发现和抓取页面返回 HTML、Markdown 或结构化 JSON 格式支持控制爬取深度和范围可以跳过未更新的页面可以指定包含或排除的路径。值得一提的是爬虫合规性的处理/crawl端点是一个经过签名认证的合规爬虫遵守robots.txt和 AI Crawl Control 规则不会绕过 Cloudflare 的机器人防护或 CAPTCHA。网站所有者对自己内容的可访问性有完整控制权爬虫尊重这些设置。三、可观测性知道 Agent 在做什么Cloudflare 从用户反馈里总结出一个高频问题自动化流程失败了但完全不知道为什么。这次专门针对可观测性做了三方面改进。Live View实时目击Live View 让你看到 Agent 正在操作的浏览器页面实时、同步包括页面本身、DOM 结构、Console 输出和网络请求。当自动化出了问题——预期的按钮不在、页面需要登录、出现了 CAPTCHA——你可以立刻发现而不是等任务失败之后再来排查。访问方式有两种通过代码获取session_id和devtoolsFrontendURL在 Chrome 里打开或者在 Cloudflare Dashboard 的 Browser Run 部分进入 Live Sessions 标签点击任意活跃会话查看。Session Recordings事后回放不可能实时盯着每一个会话。Session Recordings 解决了这个问题——它把 DOM 变化、鼠标键盘事件和页面导航记录为结构化 JSON会话结束后可以完整回放。启动浏览器时传入recording: true即可开启。会话关闭后可以在 Dashboard 的 Runs 标签里找到录像也可以通过 API 获取用 rrweb-player 在本地回放。接下来还会支持在回放时间轴的任意位置检查 DOM 状态和 Console 输出不只是看录像还能在任意时间点打断点查看状态。Dashboard 重设计旧版 Dashboard 只显示浏览器会话的日志截图、PDF、Markdown 提取、Crawl 这些请求都不可见出了问题完全没有线索。新版 Runs 标签把所有类型的请求统一展示可以按端点类型过滤每条记录都有目标 URL、执行状态和耗时。四、人工干预Agent 卡住时不必重来Agent 不是万能的。登录页面、双因素认证、意料之外的弹窗——这些场景今天的 Agent 大多数处理不了。如果碰到这类情况只能整个流程重启实用性会大打折扣。Human in the Loop提供了另一种处理方式当自动化遇到障碍人工接管当前的活跃会话处理 Agent 无法处理的部分然后让自动化继续。现在的实现方式是通过 Live View URL 直接进入活跃会话操作页面。接下来要做的是更完整的交接流程Agent 能够主动发出我需要帮助的信号触发通知提醒人工介入人工处理完成后把控制权明确交回给 Agent整条流程有完整的状态传递。五、规模并发翻了 4 倍并发浏览器上限从 30 提升到120Quick Actions 的请求速率提升到10 次/秒。Browser Run 全球维护一个预热的浏览器实例池会话打开时立刻可用没有冷启动等待时间。有更高并发需求的团队可以直接申请提升限额。路线图原文在路线图部分列出了四项接下来要做的事情Human in the Loop 主动交接流程现在是人看到问题后主动进入 Live View 接管接下来是 Agent 主动发出求助信号触发通知完成后明确交还控制权整条交接有完整的系统支撑。Session Recordings DOM 检查现在可以在时间轴上前后拖动回放会话接下来可以在任意时间点检查 DOM 状态和 Console 输出把录像从视频升级成可交互的调试快照。Traces 和浏览器日志不需要在代码里插桩Console 日志、网络请求、时序数据自动可查。出了问题直接看 Trace知道哪里断的。Workers Binding 直接调用截图、PDF、Markdown 提取现在需要通过 REST API 调用需要 API Token。接下来这些功能将直接作为 Workers Binding 提供env.BROWSER.screenshot()直接用不需要 API Token和调用其他 Workers 服务没有区别。小结这次发布的核心是把 Browser Run 从一个渲染工具升级成一个完整的 Agent 浏览器基础设施。五个维度的改进——开启浏览器、控制浏览器、可观测性、人工干预、规模——基本覆盖了一个 Agent 在使用浏览器时会遇到的全部问题。有几个判断值得单独提出WebMCP 的方向比功能本身更重要。今天 WebMCP 支持的网站还很少但它代表的是互联网基础设施向对 Agent 友好演进的方向。网站开始主动声明自己对 Agent 可用的工具意味着 Agent 和 Web 之间的交互模式会发生根本性的改变——从Agent 猜测如何操作 UI到网站告诉 Agent 能做什么。CDP 直连端点打通了现有生态。大量现有的浏览器自动化脚本和 Agent 框架都在用 CDP只改一行 WebSocket 地址就能从自托管 Chrome 迁到 Browser Run迁移成本几乎为零。Human in the Loop 改变了自动化的可靠性预期。以前自动化不能处理就失败是默认预设Human in the Loop 让自动化处理不了的交给人人处理完继续自动化成为一个可以设计进产品里的正常流程。Browser Run 在 Free 和 Paid 套餐下均可使用今天发布的所有功能立即可用。参考链接原文https://blog.cloudflare.com/browser-run-for-ai-agents/Browser Run 文档https://developers.cloudflare.com/browser-rendering/CDP 端点文档https://developers.cloudflare.com/browser-rendering/cdp/WebMCP 文档https://developers.cloudflare.com/browser-run/features/webmcp/Live View 文档https://developers.cloudflare.com/browser-run/features/live-view/Human in the Loop 文档https://developers.cloudflare.com/browser-run/features/human-in-the-loop//crawl 端点文档https://developers.cloudflare.com/browser-rendering/rest-api/crawl-endpoint/

相关文章:

给 Agent 配一个浏览器:Cloudflare Browser Run 全面解析

互联网是为人类建的,Agent 要用它 Agent 需要和网页交互。填表单、提取数据、截图、导航——这些是 Agent 执行任务的基本动作。问题是,整个互联网的设计预设是"有一个人坐在屏幕前操作"。Agent 不是人,它没有鼠标,没有…...

Go语言错误重试机制深度解析:openclaw-nerve库实战指南

1. 项目概述与核心价值最近在折腾一些自动化脚本和数据处理任务时,我遇到了一个老生常谈但又极其棘手的问题:如何让一个程序稳定、可靠地运行,尤其是在处理网络请求、文件I/O或者调用外部API时,那些不可预知的超时、连接中断、资源…...

LED显示的“芯片革命”:行列合一,正在改写画质的底层逻辑

如果你一直在跟踪LED显示屏的技术演进,可能会发现一个趋势:近两年行业对“画质”的讨论,焦点正从控制系统、封装工艺,逐步下沉到更底层的驱动芯片架构上。过去行业普遍关注扫数、刷新率和低灰表现对画质的影响,但有一个…...

开源任务恢复工具openclaw-task-recovery:轻量级断点续做解决方案

1. 项目概述:一个关于任务恢复的开源工具最近在整理自己的自动化脚本和任务调度系统时,遇到了一个老生常谈但又非常棘手的问题:任务中断后的恢复。无论是数据处理流水线、爬虫任务,还是长时间运行的批处理作业,网络抖动…...

VS Code本地代码评审扩展:结构化JSON存储与AI协同实践

1. 项目概述:一个纯粹本地的代码评审伴侣 如果你和我一样,日常重度依赖 VS Code,并且经常需要处理代码评审任务——无论是和同事异步协作,还是借助 AI 助手(如 Claude、GitHub Copilot、Cursor)来审查自己…...

Google Authenticator停更引发恐慌?自建TOTP动态口令系统其实没那么难,附技术实现方案

摘要:2023年,Google Authenticator推出账号同步功能,将TOTP密钥同步到Google账号云端,引发了安全社区的广泛争议——密钥上云意味着什么?企业级场景中,依赖第三方应用管理关键认证密钥本身就是隐患。本文讲…...

为什么迅雷下载比浏览器稳?从原理到实战的完整使用手册

目录 为什么迅雷下载比浏览器稳?从原理到实战的完整使用手册 前言 一、核心原理:为什么迅雷下载断网也不怕? 1. 断点续传:下载到一半断网也能续 2. 多线程下载:同时开多个 “下载通道” 3. P2P 分布式加速&#…...

激光带宽对半导体光刻OPC模型精度的影响与优化

1. 激光带宽对OPC模型精度的影响机制解析在半导体光刻技术领域,随着制程节点不断向32nm及以下推进,光学邻近效应校正(OPC)模型的精度要求日益严苛。激光光源的带宽特性作为影响成像质量的关键因素之一,其作用机制主要体现在三个方面&#xff…...

华为OD机试真题 新系统 2026-5-13 多语言实现【查找能被整除的最大整数】

查找能被整除的最大整数(Py/Java /C/C/Js/Go)题解 华为OD新系统机试真题 华为OD新系统上机考试真题 5月13号 100分题型 华为OD机试真题目录点击查看: 华为OD机试真题题库目录|机考题库 算法考点详解 题目内容 给定一个字符串和一个正整数,字符串由大…...

豆包大模型免费API调用实战:逆向工程原理、集成方案与风险规避

1. 项目概述与核心价值最近在折腾大模型应用开发的朋友,估计都绕不开一个核心问题:API调用成本。无论是做个人项目练手,还是小团队内部测试,动辄按token计费的商业API,账单看着都让人心疼。特别是当你需要频繁调用、进…...

TypeScript领域建模实战:基于斯坦福本体论七步法构建健壮数据模型

1. 项目概述如果你和我一样,在TypeScript项目里摸爬滚打了几年,肯定遇到过这样的场景:面对一个全新的业务领域,老板让你“设计一下数据模型”,你打开一个空白的types.ts文件,光标闪烁,大脑一片空…...

从接入到稳定运行Taotoken在延迟与容灾方面的实际体验

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从接入到稳定运行:Taotoken在延迟与容灾方面的实际体验 对于将大模型能力集成到生产系统的开发者而言,服务…...

从“左撇子困境”看包容性设计:打破设计偏见,提升产品普适性

1. 设计中的“左撇子困境”:一个被忽视的普适性问题作为一名在硬件设计和产品开发领域摸爬滚打了十几年的工程师,我经常和团队讨论“用户体验”和“人机工程学”。这些词听起来高大上,但它们的本质,往往就藏在一些最不起眼的日常细…...

如何用开源视频字幕工具VideoSrt在3分钟内完成专业字幕制作

如何用开源视频字幕工具VideoSrt在3分钟内完成专业字幕制作 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows 你是否还在为视频字幕制作…...

在线图片处理工具源码, 多功能编辑格式转换HTML单文件版

概述 在数字化内容创作与网站运营的日常中,高效、便捷的图片处理能力是提升工作效率的关键。无论是为了优化网页加载速度而进行的图片压缩,还是为了满足特定设计需求的格式转换与尺寸调整,都离不开得力的工具支持。为此,幽络源源…...

月薪2万+,2026年AI智能体工程师,这个岗位火了

AI智能体工程师负责设计、搭建、调优和维护AI智能体系统,让AI能自主感知环境、做出决策并执行动作。该岗位需求大,薪资高,适合具备逻辑拆解能力、Prompt工程能力和工具链认知的人。文章建议从体验AI智能体产品、学习相关课程和尝试搭建mini智…...

FastAPI多智能体开发:AI团队自动化后端工程实践

1. 项目概述:当AI智能体成为你的专属FastAPI工程团队如果你是一名后端开发者,尤其是使用FastAPI框架的,那么你一定经历过这样的场景:产品经理或你自己灵光一现,需要一个新功能,比如“给文章加个评论系统”。…...

Snowflake Postgres、Lakebase、HorizonDB 登场,如何选“锁定”方案?

2026 年 5 月 12 日 阅读时长 4 分钟在过去的十二个月里,三家大型数据平台公司推出了具有自定义存储层和“横向扩展计算、共享存储”架构的 Postgres 风格数据库。Snowflake Postgres 已正式发布,它基于 Crunchy Data 团队的工作构建,以 pg_l…...

收藏 | 从零开始学大模型:6个月完整开发路线图(附免费资源)

本文提供一份从Python基础到企业级大模型应用开发的6-8个月学习路线图,涵盖API调用、提示词工程、RAG知识库问答、Agent智能体开发及模型微调部署。结合近百份招聘需求及专家建议,适合初学者快速构建AI技能体系,附有前沿拓展方向与免费学习资…...

月薪3000和年薪百万,差距凭什么这么大?行业“薪资金字塔”大揭秘!

文章揭示了具身智能行业内部的巨大薪资差距,分为金字塔底层(机器人训练师)、中层(AI应用/AI Agent开发)和顶层(核心算法人才)三个层次。底层薪资约为19.5万元,主要依靠执行力和耐心&…...

JIT只适合大厂?精益生产中小厂JIT落地技巧,不用大投入也能降库存!

提到精益生产JIT准时化生产,很多中小厂管理者都会陷入一个固有认知:JIT是大厂的专属工具,只有资金充足、供应链完善、管理规范的大厂,才能推行JIT;中小厂规模小、资金有限、供应链不稳定,推行JIT不仅需要大…...

别再熬夜改答辩 PPT 了!okbiye AI PPT,4 步搞定学术演示稿(附保姆级操作指南)

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPTAI PPT制作 - Okbiye智能写作https://www.okbiye.com/ppt 作为一名被毕业答辩 PPT 折磨过两次的过来人,我太懂那种痛苦了:对着几万字的论文,不知道怎么浓缩成十几页 …...

青少年抑郁焦虑干预平台怎么选?7大维度对比指南

一、为什么要看这份榜单青少年抑郁焦虑问题已成为当代家庭教育中最棘手的挑战之一。据《2023年度中国精神心理健康》蓝皮书数据,我国青少年抑郁风险检出率约为15%-20%,而焦虑、厌学、社恐等情绪行为问题更为普遍。面对如此庞大的需求,家长在寻…...

为 OpenClaw 配置 Taotoken 以驱动你的 AI 智能体工作流

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为 OpenClaw 配置 Taotoken 以驱动你的 AI 智能体工作流 如果你正在使用 OpenClaw 框架构建 AI 智能体,并且希望它能通…...

Discord Bot接入ChatGPT API:从OAuth2鉴权到流式响应的5步极简落地法

更多请点击: https://intelliparadigm.com 第一章:Discord Bot接入ChatGPT API:从OAuth2鉴权到流式响应的5步极简落地法 Discord Bot 与 ChatGPT API 的深度集成已不再依赖复杂中间服务——通过原生 OAuth2 授权、事件驱动架构与 SSE 流式解…...

终极指南:如何用decimal.js解决JavaScript高精度计算难题

终极指南:如何用decimal.js解决JavaScript高精度计算难题 【免费下载链接】decimal.js An arbitrary-precision Decimal type for JavaScript 项目地址: https://gitcode.com/gh_mirrors/de/decimal.js 你知道吗?JavaScript在处理小数计算时有一个…...

VRoid Studio中文汉化终极指南:5步完成界面中文化

VRoid Studio中文汉化终极指南:5步完成界面中文化 【免费下载链接】VRoidChinese VRoidStudio汉化插件 项目地址: https://gitcode.com/gh_mirrors/vr/VRoidChinese VRoid Studio中文汉化插件是专为中文用户设计的开源解决方案,能够将VRoid Studi…...

使用TaotokenCLI工具一键配置多开发环境与团队密钥

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用TaotokenCLI工具一键配置多开发环境与团队密钥 基础教程类,本文指导开发者如何通过npx或全局安装TaotokenCLI工具&…...

AI圈内两大热词 Agent 和 Skill,一文彻底搞懂它们之间的区别与联系!

本文以餐厅经理和厨师的类比,解释了 Agent 和 Skill 的核心区别:Agent 拥有决策权,决定下一步做什么;Skill 则负责执行具体任务。文章指出,尽管在实际应用中两者界限逐渐模糊,但在构建 AI 系统时&#xff0…...

智能算法车队换道决策与轨迹规划【附仿真】

✨ 长期致力于车队换道、支持向量机、决策树、换道决策、多目标优化研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)NGSIM数据清洗与特征重构&#xf…...