当前位置：首页 > article >正文

Browser-Use：基于LLM的智能浏览器自动化框架入门与实践

article 2026/5/14 9:59:48

1. 项目概述当AI学会“上网冲浪”如果你和我一样在过去的几年里尝试过各种RPA工具或者写爬虫脚本来处理网页上的重复性工作那你一定对那种“脚本一跑就崩网站一改版就废”的体验深有感触。我们总在幻想要是能直接告诉电脑“帮我把这个表格里的数据整理一下发给我”或者“去这个网站帮我填个申请表”然后它就能像真人一样去理解、去操作该多好。现在这个幻想正在通过Browser-Use这个项目变成现实。简单来说Browser-Use 是一个基于大语言模型LLM的智能浏览器自动化框架。它的核心思想是你用人话描述一个任务它就能驱动一个真实的浏览器去完成它。这不再是简单的“点击这个ID为submit的按钮”而是“找到登录框输入我的账号密码然后点击登录”。它利用LLM来理解你的自然语言指令解析当前网页的DOM结构、文本和视觉信息然后自主决策下一步该做什么操作——点击、输入、滚动、导航就像一个有经验的用户。我最初接触它是因为需要处理大量分散在不同供应商门户网站上的订单状态查询。手动操作耗时耗力传统的自动化脚本又极其脆弱。Browser-Use 让我只用几行代码描述任务它就能在不同的网站间穿梭理解各种迥异的页面布局最终把数据给我抓取回来。这种“意图驱动”的自动化彻底改变了我的工作流。2. 核心设计思路为什么是“智能体”而非“脚本”在深入代码之前理解 Browser-Use 的设计哲学至关重要。它没有走传统自动化工具如 Selenium、Playwright的老路即编写精确的、基于元素选择器的指令序列。相反它构建了一个“智能体”。2.1 传统自动化 vs. 智能体自动化传统自动化脚本就像一份极其详细的乐谱演奏者浏览器驱动必须严格按谱演奏。任何一个音符元素选择器错误整首曲子就崩了。而智能体自动化则像是告诉一位音乐家“请演奏一首欢快的曲子”音乐家会根据自己的理解、现场的乐器网页元素和乐理知识LLM对网页和任务的理解来即兴创作。Browser-Use 智能体的工作流可以拆解为以下几个核心循环任务理解与规划你给 Agent 一个任务比如“查找 browser-use 仓库的 star 数”。LLM 首先会理解这个任务的目标是什么获取一个GitHub仓库的星标数并可能规划出大致的步骤打开GitHub - 搜索仓库 - 进入仓库页 - 找到 star 计数元素。环境感知智能体通过 Playwright 控制一个真实的浏览器。它不仅能获取页面的完整 DOM还能获取元素的视觉信息如截图、位置、可交互状态等形成一个丰富的“环境观察”。决策与行动LLM 基于当前的任务目标、历史操作记录和最新的环境观察决定下一步做什么。这个决策被转化为一个具体的“动作”比如click(element_id‘repo-stars-counter’)或type(text‘browser-use’, into‘search-input’)。执行与观察Browser-Use 的执行引擎基于 Playwright执行这个动作。然后智能体再次观察页面变化评估任务完成度并进入下一个决策循环直到任务完成或无法继续。这种设计的最大优势在于鲁棒性和泛化能力。网站改了按钮颜色或微调了CSS类名只要LLM还能从语义上识别出“那大概是个提交按钮”智能体就能完成任务。这大大降低了自动化脚本的维护成本。2.2 架构核心LLM 作为“大脑”Playwright 作为“手脚”Browser-Use 的架构非常清晰大脑 (LLM)负责高级推理、任务分解、意图理解和动作生成。它处理的是“做什么”和“为什么”。手脚 (Playwright)负责底层的浏览器控制精确执行点击、输入、导航等原子操作。它处理的是“如何精确地做”。项目通过精心设计的系统提示词System Prompt来“教导”LLM如何扮演一个浏览器操作专家。这个提示词包含了操作规范如优先使用文本而非坐标、安全限制、以及如何解析网页的观察结果。这也是为什么 Browser-Use 提供了自家优化的ChatBrowserUse模型因为它针对这个特定场景进行了深度微调和优化在任务完成速度和准确性上表现更佳。3. 从零开始环境搭建与第一个智能体理论说得再多不如亲手跑起来。让我们从最干净的环境开始一步步创建你的第一个浏览器智能体。我强烈推荐使用uv这个新兴的Python包管理器和安装器它比传统的pipvenv组合更快、更一致。3.1 基础环境准备首先确保你的 Python 版本 3.11。然后安装uv# 在 macOS/Linux 上安装 uv curl -LsSf https://astral.sh/uv/install.sh | sh # 在 Windows 上 (PowerShell) powershell -c irm https://astral.sh/uv/install.ps1 | iex接下来创建一个新项目目录并初始化mkdir my-browser-agent cd my-browser-agent uv inituv init会创建一个pyproject.toml文件。然后安装browser-useuv add browser-use uv syncuv sync命令会根据pyproject.toml安装所有依赖并创建虚拟环境。这一步会自动安装browser-use及其核心依赖playwright。注意首次运行可能需要安装浏览器。browser-use依赖 Playwright而 Playwright 需要安装它自己管理的 Chromium 版本。如果后续运行时代理报错找不到浏览器可以手动安装uv run playwright install chromium。项目提供的uvx browser-use install命令本质上也是调用这个。3.2 获取并配置 LLM API 密钥智能体需要“大脑”。Browser-Use 支持多种 LLM 后端。对于初学者我建议从Google Gemini开始因为它的免费额度比较友好且响应速度不错。访问 Google AI Studio 。创建一个新项目如果需要然后点击“创建 API 密钥”。复制生成的 API 密钥。在你的项目根目录创建一个.env文件来安全地存储密钥# .env GOOGLE_API_KEY你的_实际_API_密钥_放在这里重要安全提示务必把.env文件添加到.gitignore中避免将密钥意外提交到代码仓库。3.3 编写并运行第一个智能体现在创建你的第一个 Python 脚本例如first_agent.pyfrom browser_use import Agent, Browser from browser_use.llm import ChatGoogle # 导入Google Gemini的LLM封装 import asyncio import os from dotenv import load_dotenv # 加载 .env 文件中的环境变量 load_dotenv() async def main(): # 1. 初始化浏览器实例 # Browser 类封装了 Playwright 的浏览器上下文提供了智能体所需的观察和执行接口 browser Browser( headlessFalse, # 设置为 True 则无头运行不显示浏览器界面。调试时建议设为 False。 ) # 2. 初始化 LLM # 使用 ChatGoogle并指定模型。gemini-2.0-flash-exp 是免费且速度很快的模型。 llm ChatGoogle(modelgemini-2.0-flash-exp) # 3. 定义智能体任务 # 任务描述要尽可能清晰、具体。好的任务描述是成功的一半。 task 请打开 GitHub 首页 (https://github.com)。在搜索框中搜索 “browser-use/browser-use” 这个仓库。进入该仓库的页面。找到并告诉我这个仓库获得了多少颗星stars。 # 4. 创建智能体将任务、LLM和浏览器绑定在一起 agent Agent( tasktask, llmllm, browserbrowser, ) print( 智能体开始执行任务...) # 5. 运行智能体 await agent.run() print(✅ 任务执行完毕。) if __name__ __main__: # 运行异步主函数 asyncio.run(main())保存文件后在终端运行uv run python first_agent.py如果一切顺利你会看到一个浏览器窗口自动打开导航到 GitHub进行搜索点击进入仓库最后在控制台输出类似The repository has 15.2k stars的结果。在这个过程中你可以清晰地看到智能体在“思考”LLM生成下一步动作和“行动”浏览器执行操作。实操心得一任务描述的技巧第一次运行时你可能会遇到智能体卡住或执行错误动作的情况。这往往是因为任务描述不够精确。例如如果只说“查 browser-use 的 star 数”智能体可能会直接去 Google 搜索而不是上 GitHub。所以在任务描述中明确起始点如‘打开GitHub首页’和关键步骤‘搜索仓库名’能极大提高成功率。这就像给一个新人下达指令越清晰越好。4. 核心功能深度解析与高级配置成功运行第一个例子后我们来深入看看 Browser-Use 提供的各种强大功能和配置选项这些能帮助你应对更复杂的真实场景。4.1 浏览器配置平衡性能与可视化Browser类是智能体与真实世界网页交互的桥梁其配置直接影响智能体的稳定性、速度和隐蔽性。from browser_use import Browser browser Browser( headlessFalse, # 调试必备。设为 True 可节省资源用于生产环境。 stealthTrue, # 启用反检测模式。尝试让浏览器指纹更像真人避免被一些网站屏蔽。 viewport{width: 1280, height: 720}, # 设置浏览器窗口大小影响页面布局。 user_agent..., # 自定义 User-Agent 字符串。 proxy{server: http://your-proxy:port}, # 设置代理用于IP轮换或访问区域限制内容。 cookies[...], # 注入初始 Cookies用于保持登录状态。 browser_typechromium, # 默认为 chromium。也可选 firefox 或 webkit但 Chromium 兼容性最好。 channelchrome, # 使用系统已安装的 Chrome/Edge而非 Playwright 自带的 Chromium。 )stealth选项对于需要绕过简单反爬的网站如一些论坛、电商平台开启这个选项会注入一些脚本修改 WebGL、Canvas、WebRTC 等指纹信息降低被识别为自动化的概率。但它不是万能的对于高级别的反爬如 Cloudflare 5秒盾效果有限。channel选项如果你需要处理依赖特定 Chrome 版本或插件的网站比如一些银行网站使用channelchrome可以让 Playwright 控制你本地已安装的 Chrome/Edge 浏览器兼容性更好。4.2 LLM 选型速度、成本与准确性的权衡Browser-Use 的智能程度很大程度上取决于你选择的 LLM。项目支持多种后端# 方案1Browser-Use 自家模型推荐用于生产 # 专为浏览器自动化优化速度快准确率高但需付费。 from browser_use import ChatBrowserUse llm ChatBrowserUse() # 默认使用最新最好的模型 # 或指定模型llm ChatBrowserUse(modelbu-30b-a3b-preview) # 方案2Google Gemini推荐用于学习和原型开发 # 免费额度充足gemini-2.0-flash 系列速度极快性价比高。 from browser_use.llm import ChatGoogle llm ChatGoogle(modelgemini-2.0-flash-exp) # 实验版通常最新 # llm ChatGoogle(modelgemini-2.0-flash-thinking-exp) # “思考”版可能更准但稍慢 # 方案3Anthropic Claude # 长上下文和复杂推理能力强适合极其复杂的多步骤任务但成本较高。 from browser_use.llm import ChatAnthropic llm ChatAnthropic(modelclaude-3-5-sonnet-20241022) # 方案4OpenAI GPT # 通用性强生态丰富。 from browser_use.llm import ChatOpenAI llm ChatOpenAI(modelgpt-4o-mini) # 方案5本地模型如通过 Ollama # 数据完全本地隐私性好但对硬件有要求。 from browser_use.llm import ChatOllama llm ChatOllama(modelllama3.2, base_urlhttp://localhost:11434)如何选择初次尝试和原型开发用Google Gemini (gemini-2.0-flash-exp)。免费速度快足够完成大多数演示和简单任务。复杂生产任务追求最高成功率使用ChatBrowserUse()。这是为这个场景专门优化的在项目的基准测试中表现最佳虽然需要付费但往往能节省大量的调试时间和失败重试成本。对隐私要求极高搭建Ollama运行本地模型如llama3.2、qwen2.5。需要一台性能不错的机器且任务完成率可能低于商用API。4.3 智能体Agent的高级控制Agent类是你的总指挥中心除了任务和LLM还有很多参数可以微调智能体的行为。from browser_use import Agent agent Agent( task你的复杂任务描述, llmllm, browserbrowser, max_steps50, # 智能体最大执行步数一个动作算一步防止死循环。 timeout300, # 任务总超时时间秒。 action_delay1.0, # 每个动作执行后的等待时间秒给页面加载留出时间。 extend_system_message你是一个专注于数据提取的助手请忽略所有广告和弹窗。, # 扩展默认系统提示词。 # override_system_message..., # 完全覆盖系统提示词慎用。 save_conversation_path./conversation.json, # 保存完整的交互历史思考、动作、观察用于调试和分析。 )max_steps和timeout这是两道安全阀。复杂的任务可能陷入循环比如不断点击同一个按钮。设置合理的步数和超时可以让程序在失控时优雅退出而不是永远卡住。save_conversation_path这是最重要的调试工具当智能体行为不符合预期时保存下来的对话文件记录了LLM每一步的“想法”、它决定执行的动作、以及执行后看到的页面摘要。通过分析这个文件你可以判断是任务描述不清还是LLM理解有误或者是页面元素太难识别。5. 实战进阶处理登录、自定义工具与复杂任务现在让我们用几个更贴近实际的例子来展示 Browser-Use 如何处理棘手问题。5.1 处理网站登录使用真实浏览器配置文件很多自动化任务需要登录状态。最可靠的方法不是让智能体去填用户名密码可能触发二次验证而是直接复用你已经登录好的浏览器会话。import asyncio from browser_use import Agent, Browser from browser_use.llm import ChatGoogle import os from pathlib import Path async def main(): # 获取你本地 Chrome 的用户数据目录路径 # macOS: ~/Library/Application Support/Google/Chrome # Linux: ~/.config/google-chrome # Windows: C:\Users\YourUsername\AppData\Local\Google\Chrome\User Data chrome_user_data_dir Path.home() / Library / Application Support / Google / Chrome browser Browser( headlessFalse, # 关键指定用户数据目录和配置文件 user_data_dirstr(chrome_user_data_dir), profileDefault, # 通常使用 Default 配置文件 # 注意使用本地配置文件时通常需要指定 channelchrome channelchrome, # 为了防止多个实例冲突可以指定一个独立的临时用户目录来复制配置 # args[f--user-data-dir/tmp/playwright_profile_{os.getpid()}] ) llm ChatGoogle(modelgemini-2.0-flash-exp) agent Agent( task登录到我的Gmail邮箱查看收件箱第一封邮件的标题是什么, llmllm, browserbrowser, max_steps30 ) await agent.run() if __name__ __main__: asyncio.run(main())重要警告直接操作真实的浏览器配置文件存在风险可能会损坏你的个人数据。更安全的做法是先复制一份配置文件到临时目录或者使用 Browser-Use Cloud 的服务它提供了安全的浏览器配置文件同步功能。5.2 创建自定义工具扩展智能体能力智能体默认只有基本的浏览器操作能力点击、输入等。但你可以教它使用你自己的函数比如查询数据库、调用内部API、处理下载的文件等。from browser_use import Agent, Browser, Tools from browser_use.llm import ChatGoogle import asyncio # 1. 创建工具集实例 tools Tools() # 2. 使用装饰器定义自定义工具 tools.action(description计算两个数字的和。) def add_numbers(a: int, b: int) - int: 一个简单的加法工具。 return a b tools.action(description根据产品ID查询当前库存数量。) def check_inventory(product_id: str) - dict: 模拟一个查询库存的API调用。 # 这里可以是真实的数据库查询或HTTP请求 mock_inventory {P1001: 42, P1002: 0, P1003: 15} stock mock_inventory.get(product_id, -1) return {product_id: product_id, stock: stock} async def main(): browser Browser(headlessTrue) llm ChatGoogle(modelgemini-2.0-flash-exp) # 3. 将工具集传递给智能体 agent Agent( task 请打开我们的内部库存网站 (http://internal-inventory-test.com)。找到产品ID为 P1001 的行。然后使用工具查询该产品的实时库存。最后在页面的备注栏里输入“当前库存{查询结果}”。 , llmllm, browserbrowser, toolstools, # 注入自定义工具 max_steps40 ) await agent.run() if __name__ __main__: asyncio.run(main())在这个例子中智能体在浏览网页的同时可以调用check_inventory这个工具来获取实时数据并将结果用于网页操作。这实现了“自动化流程”与“外部系统”的打通威力巨大。5.3 一个完整的电商比价任务示例让我们组合所学完成一个稍复杂的任务在两家不同的电商网站搜索同一商品并比较价格。import asyncio from browser_use import Agent, Browser from browser_use.llm import ChatBrowserUse # 假设使用付费模型以获得更高成功率 import json async def compare_prices(product_name: str): 主函数比价任务 browser Browser(headlessFalse, stealthTrue) # 使用优化模型处理复杂导航任务 llm ChatBrowserUse() task f 执行一个产品比价任务。产品名称是{product_name}。请按顺序执行以下步骤 1. 访问亚马逊网站 (https://www.amazon.com)。 2. 在搜索框中搜索上述产品。 3. 在搜索结果列表中找到第一个看起来是全新、由亚马逊直接销售或 fulfilled by Amazon 的商品。 4. 记录该商品的标题和当前价格。 5. 关闭亚马逊标签页。 6. 打开一个新的标签页访问百思买网站 (https://www.bestbuy.com)。 7. 同样搜索该产品。 8. 在结果中找到第一个全新、有货的商品。 9. 记录其标题和价格。 10. 比较两个网站的价格告诉我哪个更便宜便宜多少。请确保只记录商品本身的价格不包括税费或运费除非明确标出。 agent Agent( tasktask, llmllm, browserbrowser, max_steps80, # 步骤较多放宽限制 timeout600, save_conversation_pathf./price_comparison_{product_name.replace( , _)}.json ) print(f开始为「{product_name}」比价...) await agent.run() print(比价任务完成。请查看保存的 conversation 文件获取详细结果。) if __name__ __main__: # 运行比价任务 asyncio.run(compare_prices(Logitech MX Master 3S Wireless Mouse))这个例子展示了智能体处理多步骤、跨网站任务的能力。save_conversation_path参数保存的日志对于复盘智能体如何筛选商品、如何解析价格信息至关重要。6. 常见问题、故障排查与生产化建议在实际使用中你肯定会遇到各种问题。下面是我踩过坑后总结的一些常见场景和解决方案。6.1 智能体卡住或行为异常这是最常见的问题。请按以下步骤排查检查保存的对话记录 (conversation.json)这是第一手的诊断资料。看LLM最后一步的“思考”是什么它想点击的元素在当时的页面观察里是否存在有时候LLM可能误解了页面内容选择了一个错误的元素。调整任务描述任务描述是否含糊增加更多约束和上下文。例如与其说“找到价格”不如说“在商品信息区域找到用美元符号$开头的数字那就是价格”。增加action_delay页面可能加载较慢智能体在元素出现前就尝试操作。将action_delay从 1.0 增加到 2.0 或 3.0 秒。检查浏览器视图 (headlessFalse)在调试时务必让浏览器可见。直接观察智能体操作到了哪一步页面是否弹出了意料之外的模态框Modal、验证码或广告挡住了目标元素。简化任务或分步执行将一个复杂任务拆分成多个简单的子任务分别运行。这有助于隔离问题。6.2 遇到验证码CAPTCHA或反爬封锁这是浏览器自动化的终极挑战。轻度反爬启用Browser(stealthTrue)可能有效。验证码开源版本本身无法自动解决验证码。你需要人工干预流程设计你的流程在检测到验证码时暂停通知人工处理然后再继续。使用第三方服务集成像 2Captcha、Anti-Captcha 这样的服务但需要额外的开发工作。使用 Browser-Use Cloud这是最省事的方案。其云端浏览器服务集成了代理轮换、高级指纹伪装和验证码解决方案专门为应对此类检测而设计。IP封锁在Browser初始化时配置proxy参数使用代理IP池来轮换IP地址。6.3 从原型到生产架构考量当你试图同时运行几十上百个智能体时本地直接运行Browser()实例会很快耗尽内存每个Chrome实例可能占用数百MB到上GB。生产环境部署建议使用 Browser-Use Cloud API这是最直接的生产方案。你只需要发送任务到他们的云端API他们负责管理所有浏览器实例的伸缩、内存、代理和隐身性。你按使用量付费无需管理基础设施。from browser_use import Agent from browser_use.browser.remote import RemoteBrowser from browser_use.llm import ChatBrowserUse browser RemoteBrowser(api_keyyour_cloud_api_key) # 使用远程浏览器 agent Agent(task..., llmChatBrowserUse(), browserbrowser)自建浏览器集群如果你有强烈的数据管控需求可以自建。使用Playwright的browser_type.connect_over_cdp()连接到远程运行的浏览器实例例如运行在 Docker 容器中。你需要自己搭建一套管理系统来调度和回收浏览器实例。任务队列与并发控制即使使用本地浏览器也不要直接并发启动大量Agent.run()。使用像asyncio.Semaphore或celery、dramatiq这样的任务队列来控制并发数避免系统过载。6.4 性能优化技巧选择合适的LLM模型对于简单任务gemini-2.0-flash比gpt-4快得多成本也低得多。不要盲目追求最强模型。使用headlessTrue在生产环境无头运行可以节省大量GUI渲染资源。复用浏览器上下文对于一系列连续的小任务考虑复用同一个Browser实例而不是为每个任务都创建和销毁一个。注意清理 Cookies 和 LocalStorage 以避免状态污染。优化任务描述清晰、简洁、无歧义的任务描述能让LLM更快做出正确决策减少不必要的“思考”步数从而降低Token消耗和任务耗时。Browser-Use 将自然语言理解与浏览器自动化深度融合打开了一扇新的大门。它不再要求你是一个精通CSS选择器和XPath的自动化专家而是让你能够以“产品经理”或“业务专家”的视角直接定义你想要完成的业务流程。尽管它在处理极端复杂、动态或防御严密的网站时仍有局限但对于大量的日常信息搜集、数据录入、跨平台操作等任务其效率和易用性是革命性的。我的体会是将它视为一个能力强大的初级助手用清晰明确的指令引导它并在关键环节做好监控和兜底就能让它成为提升个人或团队生产力的利器。

Browser-Use：基于LLM的智能浏览器自动化框架入门与实践

相关文章：

Browser-Use：基于LLM的智能浏览器自动化框架入门与实践

C++ 显式类型转换详解

VCNL系列接近传感器特性与工程应用解析

让普通鼠标在macOS上超越触控板的智能解决方案

通过 TaoToken CLI 工具一键配置开发环境接入大模型聚合服务

手把手图解：用‘阻挫’和‘复本’理解自旋玻璃、自旋冰与量子自旋液体

RustClaw：构建私有化AI助手，实现数据主权与本地化部署

YOLOX核心创新点深度剖析：从Anchor-Based到Anchor-Free的演进之路

利用Taotoken统一管理多个AI项目的API密钥与访问权限

LLM在硬件断言生成中的应用与优化

Excel数据分析工具库 vs. Python手动计算：手把手教你搞定一元线性回归的全部检验

量子网络模拟器SeQUeNCe的并行化设计与性能优化

常用命令大全

初创公司技术选型时为何应考虑 Taotoken 这类大模型聚合平台

QuPath 65张病理图像批量通道复制：如何通过Groovy脚本实现自动化处理

基于GPT-5.5构建智能问答系统的实现方案

designmodel可以输出各种类型的几何模型文件格式，兼容各种主流的CAD绘制软件。

具身单月狂揽了200亿？！

终极文档下载神器：一键下载30+平台文档的完整解决方案

如何高效获取金融数据：Python通达信接口的完整指南

网盘下载提速终极指南：9大平台直链获取工具完整教程

华硕笔记本性能优化终极指南：3步告别臃肿控制软件，用G-Helper重获流畅体验

AI报告审核正在提升阻燃材料检测可信度：IACheck如何减少PSU阻燃等级报告里的合规风险

ThreeFingerDragOnWindows终极指南：在Windows上免费实现macOS风格三指拖拽

OpenClaw QQ机器人一键接入指南

Windows远程桌面终极解锁方案：RDP Wrapper完整使用指南

3分钟掌握音乐文件解密：NCM加密格式终极转换指南

Oracle 迁移 PostgreSQL 踩坑：ROWNUM 与 DISTINCT 执行顺序差异导致 SQL 结果不一致

5分钟快速上手：用TMSpeech实现Windows离线语音转文字，保护隐私的会议记录神器

从桌面玩具到生产力工具：Dobot Magician机械臂的5个超实用项目实战（含代码）