当前位置: 首页 > news >正文

【skyvern 快速上手】一句话让AI帮你实现爬虫+自动化

目录

  • skyvern介绍
    • 主要特点
    • 工作流程
  • 部署(重点介绍源码部署)
    • 源码部署
    • docker快速部署
  • 运行(基于源码)
    • 后端
    • 前端
  • 快速使用示例
  • 总结

skyvern介绍

Skyvern 是一款利用大语言模型(LLM)和计算机视觉技术来自动化浏览器工作流程的工具。它通过提供一个简单的API端点,能够替代那些脆弱或不可靠的自动化解决方案,从而高效地自动化大量网站上的手动操作。

主要特点

  • 无需预定义代码:Skyvern能够在从未见过的网站上操作,自动将视觉元素映射到完成工作流程所需的动作,无需任何定制代码。
  • 抗布局变化能力:由于Skyvern不依赖预定义的XPath或其他选择器,因此网站布局变化不会影响其操作。
  • 大规模工作流程应用:Skyvern能够将一个工作流程应用到大量网站,具有灵活的推理能力。
  • 复杂情境处理能力:通过LLM,Skyvern能够理解并处理复杂的交互情形。

工作流程

Skyvern受任务驱动的自动化代理设计启发,例如BabyAGI和AutoGPT,并结合使用如Playwright等的浏览器自动化库,实现网页交互自动化。

  1. 绘制边界框:

    • Skyvern首先在目标网站的页面上绘制各个可交互元素的边界框。
  2. 解析HTML并提取图像:

    • 接着,Skyvern解析页面的HTML代码,并从中提取包含网页内容的图像。
  3. 提取可交互元素:

    • 然后,Skyvern从图像中识别并提取所有可交互的元素,如按钮、输入框等。
  4. 调用LLM规划动作:

    • Skyvern调用大语言模型(LLM),询问下一步应该采取的动作。例如,当遇到问题“你的姓名是什么?”时,LLM会回答需要填写姓名,并点击“下一步”按钮。
    • LLM的回应示例:
      • 动作1:填写姓名为 “XX”。
      • 动作2:点击“下一步”按钮。
  5. 执行动作:

    • Skyvern根据LLM的指示执行具体动作,例如填写表单并点击按钮。
  6. 重复步骤:

    • Skyvern重复上述步骤,继续解析新页面,识别可交互元素,并调用LLM规划和执行动作,直到完成整个工作流程。

部署(重点介绍源码部署)

源码部署

  1. 安装 Python 3.11
    如有python 3.11版本(官方指定3.11版本)可跳过
    我使用的pyenv来管理环境,也可使用其他方法安装python

    # macos中pyenv安装命令,其余系统自行查找
    brew install pyenv  
    # 配置环境变量
    export PATH="$HOME/.pyenv/bin:$PATH"
    eval "$(pyenv init --path)"
    eval "$(pyenv init -)"
    eval "$(pyenv virtualenv-init -)"pyenv install 3.11.9  
    pyenv global 3.11.9
    
  2. 安装poetry
    Poetry 是 Python 中用于依赖项管理和打包的一个工具。
    其他安装方式参考官方文档:https://python-poetry.org/docs

    # macos中poetry安装命令,其余系统自行查找
    brew install poetry# 如果使用的pyenv可以指定poetry使用当前pyenv的py版本
    poetry env use $(pyenv which python)
    
  3. 安装PostgreSQL 14

    # macos中安装命令,其余系统自行查找
    brew install postgresql
    
  4. 安装node
    我使用的nvm来管理node环境,也可使用其他方法安装node

    # macos中安装命令,其余系统自行查找
    brew install nvm  # 安装最新node,并设置为系统默认
    nvm install node
    nvm alias default node
    
  5. 克隆源码

    git clone https://github.com/Skyvern-AI/skyvern.git
    
  6. 依赖安装

    cd skyvern  # 项目根目录执行下面的命令 
    ./setup.sh
    
  7. 修改配置

    • 后端配置
      根据你使用的LLM修改.env文件即可(将需要使用的模型供应商ENABLE_*改为true,填写相应的密钥*_API_KEY,修改使用的模型LLM_KEY
      项目使用的是litellm用于发起请求,若有其他的支持视觉的LLM可以自己参考litellm,然后修改项目源码新增。
      我主要新增openaiapi_base这个参数,若有和我一样将openai接口国内做的转发可以参考以下步骤。

      • 修改skyvern/config.py
        • Settings类中新增类变量OPENAI_API_BASE
        OPENAI_API_BASE: str | None = None
        
      • 修改skyvern/forge/sdk/api/llm/config_registry.py
        • 在你需要修改的模型中新增litellm_params参数(我使用的gpt4o,其余模型修改方法类似)
        LLMConfigRegistry.register_config("OPENAI_GPT4O", LLMConfig("gpt-4o",["OPENAI_API_KEY", "OPENAI_API_BASE"],  # 检查 .env中参数是否填写supports_vision=True,add_assistant_prefix=False,litellm_params=LiteLLMParams(api_base=SettingsManager.get_settings().OPENAI_API_BASE,api_key=None,api_version=None,),)
        )
        
      • 修改.env
        • 新增OPENAI_API_BASE
        OPENAI_API_BASE="https://xx.cn/v1"
        
    • 前端配置
      主要查看skyvern-frontend/.envVITE_SKYVERN_API_KEY是否为空,若为空运行以下代码得到token填写即可。(若代码运行出现 403 则运行以下代码得到token修改即可)

      poetry shell  # 进入poetry管理的项目环境
      poetry run python scripts/create_organization.py Skyvern-Open-Source
      

      在这里插入图片描述

docker快速部署

  1. 确保您已安装并运行Docker Desktop。
  2. 克隆库并导航到根目录。
  3. 填写Docker Compose文件中的LLM密钥。
  4. 运行命令启动Skyvern:
docker compose up -d
  1. 在浏览器中访问http://localhost:8080开始使用。

运行(基于源码)

后端

shell脚本运行

./run_skyvern.sh

或者直接运行/调试 代码 skyvern/forge/__main__.py

前端

./run_ui.sh  

快速使用示例

  • 输入我想要的任务,直接执行
    在这里插入图片描述

  • 查看正在执行的任务
    在这里插入图片描述

  • 查看结果以及每一个步骤,详细记录了每一步的操作,有图片以及视频,可以详细的查看自动化的流程。这里不过多讲述,读者可自己摸索。
    在这里插入图片描述
    在这里插入图片描述

  • 除此之外,还可以自定义运行模版
    在这里插入图片描述
    在这里插入图片描述

总结

Skyvern 通过结合大语言模型(LLM)和计算机视觉技术,提供了一种高效、灵活的浏览器自动化工具。其无需预定义代码,抗布局变化能力强,能够在大量网站上应用工作流程并处理复杂情境。Skyvern不仅简化了自动化流程的实现,还通过详细记录和呈现每一步骤的执行情况,为用户提供了透明和可控的自动化解决方案。不论是源码部署还是使用Docker快速部署,用户都能便捷地将Skyvern集成至自己的项目中,并且通过完善的接口和配置选项,轻松定制和扩展其功能。

相关文章:

【skyvern 快速上手】一句话让AI帮你实现爬虫+自动化

目录 skyvern介绍主要特点工作流程 部署(重点介绍源码部署)源码部署docker快速部署 运行(基于源码)后端前端 快速使用示例总结 skyvern介绍 Skyvern 是一款利用大语言模型(LLM)和计算机视觉技术来自动化浏…...

【C++ Primer Plus习题】14.1

大家好,这里是国中之林! ❥前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。有兴趣的可以点点进去看看← 问题: 解答: main.cpp #include <iostream> #include "wine.h" …...

在Ubuntu上运行QtCreator相关程序

背景&#xff1a;希望尝试在Linux系统上跑一下使用QtCreator相关的程序&#xff0c;因为有一些工作岗位要求有Linux上使用Qt的经验。 (1)我是把Windows上的程序移过来的&#xff0c;Windows上文件名称是不区分大小写的。 而Ubuntu上是区分的 所以一部分头文件需要进行修改&am…...

MybatisPlus 快速入门

目录 简介 安装 Spring Boot2 Spring Boot3 Spring 配置 Spring Boot 工程 Spring 工程 常见注解 条件构造器 流式查询 使用示例 批量操作 使用示例 自定义SQL Service接口 CRUD 扩展功能 代码生成 安装插件 通用枚举 配置枚举处理器 插件功能 配置示例…...

Java.lang中的String类和StringBuilder类介绍和常用方法

目录 Java.lang中的String类和StringBuilder类介绍和常用方法 String类介绍 String类的底层成员介绍 基本介绍 回顾String传址调用问题 String类对象的创建方式 String面试题 创建对象or不创建对象 创建了几个对象and共有几个对象 String常用方法 判断字符串是否相等方法 获取字…...

notepad++软件介绍(含安装包)

Notepad 是一款开源的文本编辑器&#xff0c;主要用于编程和代码编辑。它是一个功能强大的替代品&#xff0c;常常被用来替代 Windows 系统自带的记事本。 Notepad win系统免费下载地址 以下是 Notepad 的一些主要特点和功能&#xff1a; 多语言支持&#xff1a;Notepad 支持多…...

chapter13-常用类——(章节小结)——day17

498-常用类阶段梳理...

RTX AI PC 和工作站上部署多样化 AI 应用支持 Multi-LoRA

今天的大型语言模型&#xff08;LLMs&#xff09;在许多用例中都取得了前所未有的成果。然而&#xff0c;由于基础模型的通用性&#xff0c;应用程序开发者通常需要定制和调整这些模型&#xff0c;以便专门针对其用例开展工作。 完全微调需要大量数据和计算基础设施&#xff0…...

C++ STL-deque容器入门详解

1.1 deque容器基本概念 功能&#xff1a; 双端数组&#xff0c;可以对头端进行插入删除操作 deque与vector区别&#xff1a; vector对于头部的插入删除效率低&#xff0c;数据量越大&#xff0c;效率越低deque相对而言&#xff0c;对头部的插入删除速度回比vector快vector访…...

数据结构之折半查找

折半查找&#xff08;Binary Search&#xff09;&#xff0c;也称为二分查找&#xff0c;是一种在有序数组中查找特定元素的搜索算法。其工作原理是&#xff0c;通过不断将待查找的区间分成两半&#xff0c;并判断待查找的元素可能存在于哪一半&#xff0c;然后继续在存在可能性…...

linux高级学习12

24.9.9学习目录 一.条件变量 一.条件变量 通常条件变量和互斥锁同时使用&#xff1b; 条件变量是用来阻塞线程&#xff0c;其本身并不是锁&#xff0c;直到达到特定的要求&#xff1b; &#xff08;1&#xff09;条件变量初始化 #include <pthread.h> int pthread_con…...

leetcode:3174 清除数字 使用栈,时间复杂度O(n)

3174 清除数字 题目链接 题目描述 给你一个字符串 s 。 你的任务是重复以下操作删除 所有 数字字符&#xff1a; 删除 第一个数字字符 以及它左边 最近 的 非数字 字符。 请你返回删除所有数字字符以后剩下的字符串。 示例 1&#xff1a; 输入&#xff1a;s "abc…...

神经网络卷积操作

文章目录 一、nn.Conv2d二、卷积操作原理三、代码实现卷积操作 一、nn.Conv2d nn.Conv2d 是 PyTorch 中的一个类&#xff0c;它代表了一个二维卷积层&#xff0c;通常用于处理图像数据。在深度学习和计算机视觉中&#xff0c;卷积层是构建卷积神经网络&#xff08;CNN&#xf…...

专题二_滑动窗口_算法专题详细总结

目录 滑动窗口&#xff0c;引入&#xff1a; 滑动窗口&#xff0c;本质&#xff1a;就是同向双指针&#xff1b; 1.⻓度最⼩的⼦数组&#xff08;medium&#xff09; 1.解析&#xff1a;给我们一个数组nums&#xff0c;要我们找出最小子数组的和target&#xff0c;首先想到的…...

【机器学习-三-无监督学习】

无监督学习 什么是无监督学习分类聚类降维 有监督和无监督学习的区别 上一节介绍了监督学习&#xff0c;下面来介绍无监督学习&#xff0c;这也是最广泛应用的算法。 什么是无监督学习 上一节中&#xff0c;我们知道了监督学习是通过 对算法&#xff0c;**输入一对数据&#x…...

JAVA基础:Lambda表达式(上)

前言 Lambda表达式是jdk1.8的一个新特性&#xff0c;他属于一种语法堂主要作用是对匿名内部类语法简化 lambda基本应用 lambda表达式想要优化匿名内部类是有前提条件&#xff0c;首先必须是一个接口&#xff0c;而且要求接口中只能有1个抽象方法&#xff0c;称之为函数式接口…...

Vue使用fetch获取本地数据

&#xff08;1&#xff09;使用get test.json文件 { "list":[111,222,333] } <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initi…...

《酒饮真经》秘籍4,让你的酒场技巧更上一层楼!

在酒桌这一独特的舞台上&#xff0c;每个人都扮演着不同的角色&#xff0c;或攻或守&#xff0c;尽显智慧与风度。对于不擅长喝酒的人来说&#xff0c;如何在推杯换盏间既保护自己又不失礼节&#xff0c;是值得我们仔细研究的。下面是酱酒亮哥为您整理的一系列实用的酒桌攻防秘…...

回车符与快捷键记录

一.在Windows和Linux操作系统中&#xff0c;回车符&#xff08;或称为换行符&#xff09;的处理方式区别 1.Windows下的回车符 在Windows系统中&#xff0c;回车符通常是由两个字符组成的序列&#xff1a;回车符&#xff08;Carriage Return&#xff0c;简称CR&#xff0c;AS…...

计算机网络-VRRP工作原理

一、VRRP工作原理 前面我们大概了解了VRRP的一些基础概念&#xff0c;现在开始学习VRRP的技术原理。VRRP的选举及工作步骤&#xff1a; 确定网关地址 选举主备 主设备发送VRRP报文通知Backup设备 主设备响应终端ARP并维持在Master状态 终端正常发送报文到网关进行转发 因为我们…...

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…...

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 &#xff08;1&#xff09;连接查询&#xff08;JOIN&#xff09; 内连接&#xff08;INNER JOIN&#xff09;&#xff1a;返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

css的定位(position)详解:相对定位 绝对定位 固定定位

在 CSS 中&#xff0c;元素的定位通过 position 属性控制&#xff0c;共有 5 种定位模式&#xff1a;static&#xff08;静态定位&#xff09;、relative&#xff08;相对定位&#xff09;、absolute&#xff08;绝对定位&#xff09;、fixed&#xff08;固定定位&#xff09;和…...

C# 表达式和运算符(求值顺序)

求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如&#xff0c;已知表达式3*52&#xff0c;依照子表达式的求值顺序&#xff0c;有两种可能的结果&#xff0c;如图9-3所示。 如果乘法先执行&#xff0c;结果是17。如果5…...

逻辑回归暴力训练预测金融欺诈

简述 「使用逻辑回归暴力预测金融欺诈&#xff0c;并不断增加特征维度持续测试」的做法&#xff0c;体现了一种逐步建模与迭代验证的实验思路&#xff0c;在金融欺诈检测中非常有价值&#xff0c;本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

【 java 虚拟机知识 第一篇 】

目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...

图解JavaScript原型:原型链及其分析 | JavaScript图解

​​ 忽略该图的细节&#xff08;如内存地址值没有用二进制&#xff09; 以下是对该图进一步的理解和总结 1. JS 对象概念的辨析 对象是什么&#xff1a;保存在堆中一块区域&#xff0c;同时在栈中有一块区域保存其在堆中的地址&#xff08;也就是我们通常说的该变量指向谁&…...

麒麟系统使用-进行.NET开发

文章目录 前言一、搭建dotnet环境1.获取相关资源2.配置dotnet 二、使用dotnet三、其他说明总结 前言 麒麟系统的内核是基于linux的&#xff0c;如果需要进行.NET开发&#xff0c;则需要安装特定的应用。由于NET Framework 是仅适用于 Windows 版本的 .NET&#xff0c;所以要进…...

32位寻址与64位寻址

32位寻址与64位寻址 32位寻址是什么&#xff1f; 32位寻址是指计算机的CPU、内存或总线系统使用32位二进制数来标识和访问内存中的存储单元&#xff08;地址&#xff09;&#xff0c;其核心含义与能力如下&#xff1a; 1. 核心定义 地址位宽&#xff1a;CPU或内存控制器用32位…...

用js实现常见排序算法

以下是几种常见排序算法的 JS实现&#xff0c;包括选择排序、冒泡排序、插入排序、快速排序和归并排序&#xff0c;以及每种算法的特点和复杂度分析 1. 选择排序&#xff08;Selection Sort&#xff09; 核心思想&#xff1a;每次从未排序部分选择最小元素&#xff0c;与未排…...