当前位置: 首页 > article >正文

阶跃星辰 Agent 实测记录260320

阶跃星辰 Agent 实测记录260320安装https://www.stepfun.com/download安装后进企业微信群会有邀请码。测试场景记录1. 打开官方文档任务帮我打开阶跃 AI 的官方文档结果可以打开主页但是没有打开官方文档2. 安装开发工具OpenCode、OpenClaw、Claude Code结果基本一次性完成我这边 npm 环境、网络环境都是好的一些问题太多自主决策可能也不是很好比如安装的路径没有问我安装完 OpenClaw 说开启网关这种词汇对用户来说确实不是很清楚对于助手来说可以做一个本来就会的但是做一个本来就不会的那么不确定性就更强了安装过程对自己是完全黑盒如果后面出错就只能依靠它来改了可以总结成 skills —— skills 不一定是给 AI 看的可能就是给自己看的3. 爬取会议音频数据集任务爬取 100 条 2-10 人会议的纯净音频以及相应的字幕文件保存到桌面新建文件夹结果法律、版权这些还是受制于人类本身。我已经为您创建了会议音频数据集收集和处理的完整工具包。由于网络爬虫下载音频数据涉及版权和法律问题我为您提供了**合法获取开源数据集**的方案xxx4. 浏览器收藏夹整理任务在谷歌浏览器找每日必看收藏夹里的网站保存到新收藏夹结果我说谷歌浏览器听了但是不改它给我一直打开阶跃浏览器。让它改也改不过来可能操作浏览器权限不够。交互性少会更加自动但是不一定能够理解人的意思我想告诉它如何做但是也不行无法中断交互5. B站视频内容总结任务总结 https://www.bilibili.com/video/BV1LCfbBXEEa/ 的内容和观众看法结果很暴力地使用浏览器工具来完成多模态能力可能受到使用工具的限制而且太有素质了过于谨慎效率相对来说还是很低的实际并不会去看视频没问它是不是根据评论推测的它也不会告诉你自己的信息来源Agent 自己承认我是从浏览器工具获取的页面信息中总结的并没有真正看完视频。具体来说我获取的信息包括视频标题、UP 主、发布时间等元数据视频简介和标签评论区的高赞评论由于 B 站限制只获取到 3 条。我没有观看视频的实际画面和完整音频内容总结主要基于页面文字信息和评论反馈。6. 个人传记生成任务整理随笔文件夹内容形成阶段人生传记不少于 3 万字结果数据量大且理解复杂但是相对简单的任务生成文件失败失败且没有 checkpoints直接需要全部重新生成生成只有 10000 字左右继续修改后最终生成 2.4 万字马马虎虎7. AI 数字人程序开发任务做一个程序给定稿子和视频生成我读稿子结合肢体动作的视频结果高难度任务感觉搞不定但是有个雏形也可以不管行不行总会尽力给你弄个东西出来最终生成大概 2000 行代码还没验证效果8. 屏幕识别自动化 Agent 搜索任务找找能够根据屏幕截图自动识别并点击操作的 Agent结果找 MCP、skills、agent 这种事很麻烦自己做又不一定好所以如果能够帮忙找到并验证那是最好不过的自己没有环境购买使用云服务器这些涉及到安全的它没法自己在云端有个服务器跑完了还给我太高要求了找到的工具开源工具UI-TARS字节跳动端到端原生 GUI 智能体纯视觉感知支持 Windows/macOS/Android/iOSTuriX-CUA基于 Python 的开源 AI 智能体通过截屏看屏幕AutoClickPython OpenCV基于 ORB 图像特征匹配支持多平台OmniParser微软纯视觉 GUI 解析工具Mobile-Agent阿里巴巴通过视觉感知实现手机自动化操作商业工具Screenshot ClickerMac App Store屏幕图像识别自动化工具 V6.8实在智能 RPA9. CSDN 文档上传任务把 md 文档上传到 CSDN生成标题润色文档处理图片结果这个可能写成工具更有效因为 agent 执行起来就会笨笨的我都登录完成了AI 还觉得我没登录就一直在那里网页点来点去不断消耗 token转啊转登录信息保存本地比较好有时候一些问题问得又很没有水平自动化来说效率是高的但是真正做这种事效率不一定高上传个图片还要用户手工接管可以说边界分明但是效率也低下分析页面元素实在是太低效了最终确实上传了但是没有经过合理的润色中间过程上传图片也需要我进行交互可能上传完了但是迟迟不能退出自动上传的格式这么乱竟然有人点赞收藏可能AI更懂AI吧。阶跃星辰Agent实测记录从代码生成到多模态任务的全方位体验与反思10. 论文翻译任务完成论文的英译中保持原有图片位置保存成 Markdown要能直接发表到公众号结果首次结果只有译文没有图片首次给定的路径不存在还尝试了很多方法但最后还是不存在给了新的存在的路径之后翻译完文字就已经忘记我给过新路径了虽然新版本 0319 号称不会忘记我说过的话一问一答实际不合逻辑再次交互后提取出图片了可是替换上去还是错的11. Excel 操作任务把 xlsx 中的第 2 行第 3 列设置为红色冻结首行窗格结果是擅长处理数据还是 Excel 特有的操作也能实现安装 openpyxl xlrd xlwt帮你干活的时候加了很多料不过确实能够完成任务但是通过代码完成的操作并不是打开 WPS 或者 Excel 进行上色、固定12. 文章润色任务帮我修改一下这个文档xx.md改写成可以直接发布的形式。可以先找找有什么优化发布文档的技能然后使用技能来帮我进行润色。结果如果没有自己的风格首次结果改的非常官方离谱。当然把我的图片也吃掉了太官方了我还是更喜欢我自己的风格帮我简单的润色加个简单标题多一个总结使用优缺点的章节就好这次修改的不说好不好至少确实比较接近我口语化的风格。使用技能啥的就算很多star但还是要对自己个人风格进行特化。写作这种最好是要创建属于自己的技能。润色文档的时候记得备份优缺点总结优点方面说明代码能力强能用代码实现的任务基本都能搞定生成代码框架也很完整信息检索不错找工具、查资料、整理信息这方面挺靠谱的不轻易放弃不管行不行总会尽力给你弄个东西出来命令行操作相比于普通 LLM多了操作 CMD 的手脚缺点方面说明交互体验还比较差该问我的时候不问不该问的时候等我指示多模态受限视频、图片处理受工具限制实际效果和宣传有差距效率不稳定分析页面元素太耗时大文件生成失败要重来上下文记忆长对话中会遗忘之前给过的信息Token 消耗干啥都要消耗 token包括无意义的循环适合做什么重复性、确定性的代码任务信息检索和资料整理项目框架快速搭建命令行操作和脚本执行不适合做什么复杂交互流程登录、表单填写等精细的内容创作和润色大文件生成无断点机制模糊需求、难以代码化的任务整体感受能用代码实现的它都可以在行其实就是多了操作 CMD 的功能相比于普通的 LLM这就是 agent 所谓的手脚。要是难以用代码描述的或者描述起来复杂的可能就不太行了。重复、确定性的、方便自动化的才用起来比较好。多模态、权限、工具使用限制有点束手束脚的模型能力也有所限制。干啥都要消耗 token虽然现在可以免费使用阶跃星辰的 API。交互性不确定需要我交互的时候自己拼命干不需要我交互的时候等着我告诉他怎么办。

相关文章:

阶跃星辰 Agent 实测记录260320

阶跃星辰 Agent 实测记录260320 安装:https://www.stepfun.com/download安装后,进企业微信群会有邀请码。 测试场景记录 1. 打开官方文档 任务:帮我打开阶跃 AI 的官方文档 结果:可以打开主页,但是没有打开官方文…...

Ollama部署EmbeddingGemma-300m全攻略:从安装到语义搜索实战

Ollama部署EmbeddingGemma-300m全攻略:从安装到语义搜索实战 1. 为什么选择EmbeddingGemma-300m? 在构建智能应用时,文本理解能力是关键。EmbeddingGemma-300m是谷歌推出的轻量级嵌入模型,它能将文本转换为计算机可理解的向量表…...

STM32 SPI硬件时序驱动WS2812B LED库

1. 项目概述UIT_WS2812B 是一个面向 STM32F4 系列微控制器(特别是 Nucleo-F401RE 和 Nucleo-F446RE 开发板)的轻量级、高可靠性 WS2812B LED 驱动类库。该库不依赖标准外设库(SPL)或 HAL 库的通用定时器 PWM 模式,而是…...

mxbai-embed-large-v1实战指南:手把手教你做语义检索和文本聚类

mxbai-embed-large-v1实战指南:手把手教你做语义检索和文本聚类 1. 模型简介与核心能力 mxbai-embed-large-v1是一款多功能句子嵌入模型,在MTEB基准测试中达到最先进水平。它不仅超越了OpenAI text-embedding-3-large等商业模型,还能匹敌更…...

跟着Cancer Cell学生信:结直肠癌免疫治疗的单细胞联合分析(scRNA+scTCR-seq)思路

结直肠癌作为高发消化道肿瘤,免疫检查点阻断疗法为其治疗带来新希望,但不同患者的治疗响应差异显著,部分患者甚至无法从中获益,背后的细胞和分子机制始终是临床和基础研究的核心难题。友情推荐:《Galaxy 生信云平台操作…...

5个实战案例带你玩转多智能体深度强化学习(MADRL)

5个实战案例带你玩转多智能体深度强化学习(MADRL) 多智能体深度强化学习(MADRL)正在重塑我们解决复杂协作与竞争问题的方式。从游戏AI到自动驾驶车队调度,MADRL通过模拟智能体间的动态交互,为现实世界中的…...

ST-LINK调试实战:从连接失败到稳定烧录的完整排错指南

1. 当ST-LINK遇上连接失败:硬件排查三板斧 第一次用ST-LINK给STM32烧录程序时,看到红色错误提示框跳出来的瞬间,我差点把调试器扔出窗外。后来才发现,80%的连接问题都出在硬件环节。先别急着重装驱动,跟着我做这三个基…...

Qwen3-32B私有部署实操:对接Prometheus+Grafana监控GPU利用率与API QPS指标

Qwen3-32B私有部署实操:对接PrometheusGrafana监控GPU利用率与API QPS指标 1. 环境准备与镜像部署 1.1 硬件与系统要求 本教程基于RTX 4090D 24GB显存显卡优化配置,以下是部署前需要确认的环境要求: GPU配置:NVIDIA RTX 4090D…...

深度解析自动驾驶世界模型

本文约5,488字,建议收藏阅读作者 | 北湾南巷出品 | 汽车电子与软件引 言当自动驾驶从“看见障碍物就刹车”的反应式系统,走向“提前预判风险再行动”的预测式系统时,一个核心能力开始浮出水面——世界模型。它不是科幻电影里的数字意识&#…...

Cheat Engine 7.0中文版安装包+详细使用教程(附游戏修改实战案例)

Cheat Engine 7.0中文版从入门到精通:游戏修改实战指南 在数字娱乐时代,游戏修改工具一直是玩家探索虚拟世界的得力助手。作为内存修改领域的瑞士军刀,Cheat Engine以其强大的功能和开源特性,成为从普通玩家到专业开发者的多面手工…...

UltraScale架构实战:如何用Xilinx FPGA实现高效512位宽总线设计(附避坑指南)

UltraScale架构实战:如何用Xilinx FPGA实现高效512位宽总线设计(附避坑指南) 在当今数据密集型应用中,处理大规模数据流已成为FPGA设计的核心挑战。当总线宽度扩展到512位甚至更高时,传统FPGA架构往往面临布线拥塞和时…...

Vscode Remote Development实战:SSH连接Ubuntu的完整流程与常见问题解析

VSCode Remote Development终极指南:SSH连接Ubuntu全流程与深度优化 在当今分布式开发环境中,远程开发已成为提升效率的关键能力。Visual Studio Code(VSCode)凭借其强大的Remote Development扩展,彻底改变了开发者与远…...

Qwen3.5-9B多模态实战:从原始PDF扫描件提取图文并生成结构化报告

Qwen3.5-9B多模态实战:从原始PDF扫描件提取图文并生成结构化报告 1. 项目概述与模型特性 Qwen3.5-9B作为新一代多模态大模型,在文档处理领域展现出卓越的能力。本文将带您实战体验如何利用该模型从原始PDF扫描件中提取图文信息,并自动生成结…...

探索 STM32 PLC 底层 Keil 源码:实现三菱 FX2N

STM32 PLC底层Keil源码 实现三菱FX2N 延申科普: STM32微控制器是一种基于ARM Cortex-M内核的32位微控制器系列,由意法半导体(STMicroelectronics)开发。它具有高性能、低功耗和丰富的外设接口,广泛应用于嵌入式系统开发…...

Fish-Speech-1.5语音合成与Stable Diffusion联动:打造多媒体内容生产流水线

Fish-Speech-1.5语音合成与Stable Diffusion联动:打造多媒体内容生产流水线 想象一下,你手头有一个产品宣传的创意脚本,需要为它配上生动的解说和精美的视觉画面。传统做法是,文案、配音、设计分头行动,沟通成本高&am…...

Fun-ASR语音识别系统快速上手:支持31种语言,热词增强精准识别

Fun-ASR语音识别系统快速上手:支持31种语言,热词增强精准识别 1. 为什么选择Fun-ASR语音识别系统 在当今数字化办公环境中,语音识别技术已经成为提升工作效率的重要工具。Fun-ASR作为钉钉与通义联合推出的语音识别大模型,凭借其…...

Glyph视觉推理模型效果对比:传统方法与视觉压缩方案实测

Glyph视觉推理模型效果对比:传统方法与视觉压缩方案实测 1. 引言:长上下文处理的困境与突破 在处理超长文本内容时,开发者们常常面临一个两难选择:要么忍受高昂的计算成本,要么牺牲上下文理解能力。传统基于token扩展…...

QMI8658C IMU驱动开发与嵌入式移植实战指南

1. QMI8658C IMU驱动库深度解析:面向嵌入式工程师的底层实践指南1.1 芯片级特性与工程定位QMI8658C是由Qorvo公司推出的高性能6轴惯性测量单元(IMU),采用3.3V单电源供电,封装尺寸仅为2.0mm 2.0mm 0.7mm,专…...

USRP7440 vs 传统SDR设备:8通道同步采样的雷达系统搭建指南(含相位校准避坑)

USRP7440 vs 传统SDR设备:8通道同步采样的雷达系统搭建指南(含相位校准避坑) 在雷达系统开发领域,多通道同步采样能力直接决定了相控阵系统的性能上限。传统基于AD9361的SDR方案在通道扩展时面临时钟漂移、相位不一致等痛点&…...

基于RABC的权限控制设计

知道权限设计容易,但是要有较好的扩展性需要费一番功夫的。提出现实问题:一个部门有100人,需要给100人以相同的角色经理单独给某个员工增加一个权限,但整个部门权限其他人不变两个按钮可能调用相同的URL,怎么进行控制资…...

半导体晶圆测量新手必看:3种主流设备实测对比与选型指南

半导体晶圆测量新手必看:3种主流设备实测对比与选型指南 在半导体制造领域,晶圆测量设备的选型直接关系到工艺控制的精度与效率。对于刚接触这个领域的技术人员来说,面对市场上琳琅满目的测量设备,如何根据实际需求做出明智选择往…...

嵌入式事件驱动+状态机轻量级框架设计

1. 嵌入式系统软件架构演进:从轮询到事件驱动状态机在资源受限的嵌入式系统中,软件架构的选择直接决定了系统的实时性、可维护性与可扩展性。早期单片机程序多采用简单的主循环轮询(Polling)模式:while(1)中依次检查各…...

用3D Gaussian Splatting自制3D模型:从视频到点云的完整流程(Colmap+FFmpeg)

用3D Gaussian Splatting打造个性化3D模型:从视频采集到交互式渲染的全链路实践 当你想为游戏场景添加一个自定义角色,或是为电商平台创建商品三维展示时,专业3D扫描设备的高昂成本往往令人却步。现在,借助3D Gaussian Splatting&…...

SER5 5500U黑苹果安装避坑指南:从EFI配置到驱动优化全流程

SER5 5500U黑苹果深度调优手册:从硬件适配到系统完美运行 最近两年,AMD平台安装黑苹果的热度持续攀升,而SER5 5500U凭借出色的性价比成为不少极客玩家的首选。不同于Intel平台的"即插即用",AMD平台需要更精细的配置才能…...

VS Code 将机器控制权全盘交给 AI 后,竟警告用户不要信任它

十年按月更新,只用一周,就把整个开发关系改写了。2026 年 3 月 9 日,微软发布了 VS Code 1.111,这是它第一次以“每周稳定版”的节奏对外推送更新。微软杰出工程师 Kai Maetzel 当时提到,原本集中进行的 endgame 测试&…...

基于Python的工资信息管理系统毕设

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在开发一套基于Python的工资信息管理系统,以实现对企业员工工资信息的有效管理。具体研究目的如下: 首先,通过构建该…...

在 Debian 12 上安装多个版本的 php(7.3、7.4、8.1、8.2)

通常会有安装所需版本的 php 的任务,但默认情况下会安装较新或较旧的版本。 可能还需要在同一服务器上安装并同时使用两个版本的 php。 默认情况下,我们以 root 用户身份安装,如果您有普通用户,请使用 sudo。 1. 让我们安装必要的…...

OFA-VE模型微调实战:适配特定领域任务

OFA-VE模型微调实战:适配特定领域任务 1. 引言 你是否遇到过这样的情况:一个在通用场景下表现不错的AI模型,到了你的专业领域就变得不太灵光了?比如在医疗影像分析中,模型可能无法准确理解医学术语和影像的对应关系&…...

单片机调试30个高频问题的工程化解决路径

1. 初学单片机必须直面的30个问题解决思路单片机开发不是理论推演,而是工程实践。从点亮第一个LED到交付稳定运行的嵌入式系统,开发者必然经历大量“现象不可解释、行为无法复现、定位无从下手”的困境。本文不提供速成捷径,而是基于真实项目…...

Bambu Studio 3D打印切片软件:从入门到精通的完整指南

Bambu Studio 3D打印切片软件:从入门到精通的完整指南 【免费下载链接】BambuStudio PC Software for BambuLabs 3D printers 项目地址: https://gitcode.com/GitHub_Trending/ba/BambuStudio Bambu Studio作为专为BambuLab 3D打印机优化的专业切片软件&…...