当前位置: 首页 > article >正文

20250331-智谱-沉思

背景

收到GLM沉思的消息,立马试用下。感觉真的太及时了。
(背景:为了客户的需求“AI辅助写作”实验了2款开源workflow,2款在线workflow,好几款多智能体框架后,心中无底之际。。。)

1. GLM(开启沉思)

请帮我写个“写作智能体”的发展报告,500字内,谢谢。


# 写作智能体发展报告:从自动化到智能化的文本创作革命
## 引言
写作智能体作为一种结合大语言模型(LLM)、规划能力和工具使用能力的AI系统,正逐渐成为文本创作领域的重要力量。本报告将探讨写作智能体的发展历程、当前应用以及未来趋势,揭示这一技术如何改变传统的写作方式。
## 写作智能体的定义与特点
写作智能体是一种具备智能的软件实体,它能够感知环境,基于知识储备与算法模型进行推理决策,并通过执行相应行动来实现特定目标[[13](http://www.news.cn/info/20250327/3e204552da604ff7a9cd890b07920d36/c.html)]。简单来说,它就像是拥有"智慧大脑"的虚拟助手,能理解外界信息、思考应对策略并付诸行动。
写作智能体的特点在于:
1. 具备规划思考能力、记忆能力和使用工具函数的能力[[0](https://zhuanlan.zhihu.com/p/696599111)]
2. 能够执行迭代工作流,使用一系列工具自主处理复杂开放式任务[[2](https://www.nvidia.cn/glossary/ai-agents/)]
3. 不仅能生成文本,还能检查语法错误、优化语言表达、提高文本可读性[[1](https://zhuanlan.zhihu.com/p/717707464)]
## 发展历程
### 早期阶段:文本生成的起源
AI写作的历史可以追溯到20世纪中叶,当时研究者开始尝试使用计算机进行自动文本生成[[5](https://zhuanlan.zhihu.com/p/660788172)]。文本生成的目标是创建不仅语法正确、符合语境且对目标受众有吸引力的文本[[6](https://www.ibm.com/cn-zh/think/topics/text-generation)]。
早期的文本生成主要集中在两个方向:自然语言处理(NLP)和统计方法。研究者使用马尔可夫链和n-gram模型等技术,基于统计方法生成文本。这些早期尝试为后来的AI写作奠定了基础。
### 发展阶段:从简单到复杂
随着人工智能的发展和机器学习算法的兴起,文本生成领域在1980年代和1990年代开始获得动力[[7](https://www.ibm.com/cn-zh/topics/text-generation)]。这一时期,AI写作开始应用于特定领域,如历史学研究中使用生成式AI工具对相关史料进行检索及整理[[8](https://www.nju.edu.cn/info/1056/411081.htm)]。
生成式模型在AI领域有着悠久的历史,从隐马尔可夫模型(HMMs)和高斯混合模型(GMMs)开始,到后来的循环神经网络(RNNs)和变换器(transformers),这些模型的演进显著提高了文本生成的质量和连贯性[[9](https://zhuanlan.zhihu.com/p/637205203)]。
### 现代阶段:大语言模型与智能体的结合
近年来,随着大语言模型(LLM)的发展,写作智能体迎来了质的飞跃。现代写作智能体结合了大语言模型的文本生成能力和智能体的规划、推理和工具使用能力,形成了更强大的系统。
百度的文心智能体平台AgentBuilder是基于文心大模型的智能体平台,支持开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力[[11](https://agents.baidu.com/)]。字节的豆包智能体和智谱清言等也是当前流行的写作类GPT,功能包括论文写作、商业文案写作、搜索引擎优化、个性化改写等多方面[[12](https://zhuanlan.zhihu.com/p/695667875)]。
## 当前应用
### 学术研究领域
在学术研究中,写作智能体被广泛应用于论文写作、文献综述和研究数据分析。它能够快速处理大量文献,提取关键信息,并以连贯的方式呈现。例如,研究人员可以使用写作智能体帮助撰写研究论文、整理实验数据和生成研究报告。
### 商业应用领域
在商业领域,写作智能体被用于创建营销文案、商业计划书和市场分析报告。它能够根据市场需求和用户偏好,生成具有吸引力和说服力的文本内容。例如,企业可以使用写作智能体帮助撰写产品说明书、广告文案和客户沟通材料。
### 内容创作领域
在内容创作领域,写作智能体被用于生成各类文章、博客和社交媒体内容。它能够根据不同的风格和语调要求,创作出符合特定用户偏好的内容。例如,内容创作者可以使用写作智能体帮助生成新闻报道、专栏文章和视频脚本。
## 技术实现
### 基于大语言模型的技术架构
现代写作智能体通常基于大型语言模型(LLM),这些模型在海量数据上进行训练,能够理解和生成人类语言。常见的大语言模型包括GPT系列、BERT系列和各种开源模型。
### 多模态AI Agent创作平台
一些平台如Gnomic智能体平台,支持多模态AI Agent创作,可轻松接入智谱ChatGLM、文心一言等多种大模型,并在模型间无缝切换[[14](https://www.woshipm.com/aigc/6089895.html)]。这些平台提供了丰富的工具和接口,使开发者能够创建功能强大的写作智能体。
### 开发框架与工具
为了促进写作智能体的开发,各种开源框架和工具被创建出来。例如,知乎专栏提到的11个最流行的AI智能体开发框架,为开发者提供了构建和训练智能体的基础设施[[10](https://zhuanlan.zhihu.com/p/709029523)]。
## 未来趋势
### 智能体工作流程的重要性
斯坦福大学教授吴恩达指出,AI智能体的工作流程将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。他呼吁AI领域的工作人员关注智能体的工作流程[[16](https://zhuanlan.zhihu.com/p/690202723)]。这表明智能体的工作流程优化将成为未来研究的重点。
### 从Manus引爆到产业重塑
AI智能体已广泛应用于教育、金融、医疗等多个领域,并在软件开发、科学研究等方面取得突飞猛进的成果。近期备受关注的移动应用智能体能够自主操控设备完成复杂的交互[[18](https://www.ccf.org.cn/ccfdl/ccf_dl_focus/new/25-9-53/)]。这表明AI智能体正在从理论研究走向实际应用,并对各产业产生深远影响。
### 基于LLM的智能体前景
基于大语言模型的智能体在不同领域都有应用,包括自然科学、社会科学、工程系统和普通领域。未来,智能体的发展将涉及增强基于LLM的智能体的能力,使它们能够更好地处理复杂任务和环境[[19](https://zhuanlan.zhihu.com/p/677778544)]。
## 结论
写作智能体作为AI技术的重要应用,正在改变传统的写作方式。从早期的简单文本生成,到现代的智能体系统,写作智能体经历了显著的发展。目前,它已广泛应用于学术研究、商业应用和内容创作等领域,并展现出强大的潜力。
随着技术的不断进步,写作智能体将变得更加智能和强大,能够处理更复杂的任务和环境。未来,我们有理由期待写作智能体在更多领域发挥重要作用,为人类创造更大的价值。
## 参考文献
[0] 一文带你了解智能体(Agent) - 知乎专栏. https://zhuanlan.zhihu.com/p/696599111.
[1] 小白入门,大模型LLM的Agent智能体到底是什么? - 知乎专栏. https://zhuanlan.zhihu.com/p/717707464.
[2] 什么是AI 智能体? - 英伟达. https://www.nvidia.cn/glossary/ai-agents/.
[5] AI写作的历史 - 知乎专栏. https://zhuanlan.zhihu.com/p/660788172.
[6] 什么是AI 写作文本生成? - IBM. https://www.ibm.com/cn-zh/think/topics/text-generation.
[7] 什么是文本生成? - IBM. https://www.ibm.com/cn-zh/topics/text-generation.
[8] AI应用对历史学界产生多维影响 - 南京大学. https://www.nju.edu.cn/info/1056/411081.htm.
[9] 生成式AI的历史和发展(关键技术) - 知乎专栏. https://zhuanlan.zhihu.com/p/637205203.
[10] 11个最流行的AI智能体开发框架 - 知乎专栏. https://zhuanlan.zhihu.com/p/709029523.
[11] 文心智能体平台AgentBuilder | 想象即现实. https://agents.baidu.com/.
[12] 【AI Agent系列】最近爆火的AI Agent究竟是啥?20篇论文全面调研带 .... https://zhuanlan.zhihu.com/p/695667875.
[13] AI智能体:走进百姓生活的科技新力量 - 新华网. http://www.news.cn/info/20250327/3e204552da604ff7a9cd890b07920d36/c.html.
[14] 国内大模型/智能体盘点丨16家公司,13款大模型,19个智能体. https://www.woshipm.com/aigc/6089895.html.
[16] 【Agent设计模式】00-AI智能体工作流 - 知乎专栏. https://zhuanlan.zhihu.com/p/690202723.
[18] AI 智能体:从Manus引爆到产业重塑 - 中国计算机学会. https://www.ccf.org.cn/ccfdl/ccf_dl_focus/new/25-9-53/.
[19] 综述:探索基于大型语言模型的智能体:定义、方法与前景 - 知乎专栏. https://zhuanlan.zhihu.com/p/677778544. 

转PDF

import markdown
import pdfkit
import subprocess# 指定编码格式为UTF-8
options = {'encoding': "UTF-8",'custom-header': [('Content-Disposition', 'attachment; filename=output.pdf')]
}# 将Markdown文本转换为HTML
def markdown_to_html(markdown_text):return markdown.markdown(markdown_text, extensions=['nl2br'])# 将HTML转换为PDF
def html_to_pdf(html_text, output_file):pdfkit.from_string(html_text, output_file, options=options)def html_to_image(html_content, output_file):# 将HTML内容写入临时文件with open('temp.html', 'w') as f:f.write(html_content)# 调用wkhtmltoimage命令行工具subprocess.run(['wkhtmltoimage', 'temp.html', output_file])file='writerAgent'
#file='写作智能体'
# 从D:\PyCharmWorkspace\AITutorial02\zhipu\articles\writerAgent.md 读取text
markdown_text = open(f'D:\\PyCharmWorkspace\\AITutorial02\\zhipu\\articles\\{file}.md', 'r', encoding='utf-8').read()# 转换流程
html_text = markdown_to_html(markdown_text)
print(html_text)
html_to_pdf(html_text, f'./{file}.pdf')

有理有据,数据真实可查,引用到位。

2. AutoGLM沉思

输出参考:绑定资源

试用的感受:

1. 通过浏览器自动浏览可以发挥出 个性化 的输出优势,可以任意扩展专业的知识源。满足客户对自己行业的互联网检索信息需求。


2. 浏览器本身是人的工具,也就是说,除了code interprector(含SQLexecute),智能体拥有了与人兼容的工具调用能力,为智能体真的成为人的代理创造了条件。(也许以后一句话,agent就帮我买奶茶了)

*关于这一点,OpenAI的AgentSDK推出的浏览工具好像是“视觉理解”(我认为这个最牛)。

3. 万字长文!13787字(30分钟内完成,含浏览过程中的人工登录环节等)。对agent来说输入可能是100万字或更多(1个网页可能就有1w),最终输出没有重叠,就是将每个阶段的结果总结的非常好。(我想,一定有些技术提升超大上下文的归纳能力。)

4. 目前是beta版,已经是完整的一套应用(不是框架)。GLM还有其他的agent,数据分析,代码执行等,难怪大家都甚至开始“担心”这种潜力。

5. 输出很快,免费!(*项目需要,曾经初步估算过部署一个Deepseek-distill 32B的价格)

总结

我觉得,今年由manus开始的多智能体应用已经展开赛道,大厂们陆续推出更重量级更成熟的应用 ...

相关文章:

20250331-智谱-沉思

背景 收到GLM沉思的消息,立马试用下。感觉真的太及时了。 (背景:为了客户的需求“AI辅助写作”实验了2款开源workflow,2款在线workflow,好几款多智能体框架后,心中无底之际。。。) 1. GLM(开启…...

Java EE(17)——网络原理——IP数据报结构IP协议解析(简述)

一.IP数据报结构 (1)版本:指明协议的版本,IPv4就是4,IPv6就是6 (2)首部长度:单位是4字节,表示IP报头的长度范围是20~60字节 (3)8位区分服务:实际上只有4位TOS有效,分别是最小延时,最…...

26考研|高等代数:线性空间

线性空间这一章在整个高等代数学习过程中是非常精华的部分,在学习这一章的过程中会有部分的概念较为抽象,一定要抓紧抓牢对于概念的理解,反复阅读与感受,同时也可以根据已知的解析几何中介绍的二维空间或者三维空间进行类推比较&a…...

基础算法篇(3)(蓝桥杯常考点)-图论

前言 这期是蓝桥杯常考点的最后一章了,其中的dijkstra算法更是蓝桥杯中的高频考点 图的基本相关概念 有向图和无向图 自环和重边 稠密图和稀疏图 对于不带权的图,一条路径的路径长度是指该路径上各边权值的总和 对于带权的图,一条路径长度时…...

git错误:fatal: detected dubious ownership in repository at xxxxxx

1、报错说明 这个错误通常是由于Git仓库目录的拥有者或权限问题引起的。Git检测到仓库目录的所有权可能存在不一致或不安全的情况。 通常导致此报错的可能原因: (1)文件或目录的拥有者不一致: 仓库目录中的某些文件或子目录可能…...

【Linux】进程间通信(IPC)-- 无名管道、命名管道

IPC机制 实现进程间通信 在多个进程间传输数据或共享信息的机制。 数据交换,共享资源,进程同步,消息传递。 IPC实现原理:通信进程能够访问相同的内存区域。 方法: 管道:无名管道pipe、命名管道FIFO S…...

每日一题-力扣-2278. 字母在字符串中的百分比 0331

字母在字符串中的百分比求解方案 | 力扣 2278 题解 问题描述 给定一个字符串 s 和一个字母 letter,我们需要计算 letter 在 s 中出现的百分比,并将结果向下取整。例如,如果字符串是 "foobar",字母是 "o"&…...

【分布式】深入剖析 Sentinel 限流:原理、实现

在当今分布式系统盛行的时代,流量的剧增给系统稳定性带来了巨大挑战。Sentinel 作为一款强大的流量控制组件,在保障系统平稳运行方面发挥着关键作用。本文将深入探讨 Sentinel 限流的原理、实现方案以及其优缺点,助力开发者更好地运用这一工具…...

[leetcode]2492. 两个城市间路径的最小分数(并查集 排序后建边)

题目链接 题意 给定一个 n n n个点 m m m条边的无向图 每条边有边权 求1-n的路径中最小的边权是多少 每条路可以重复走 思路 把边按边权降序排序 用并查集维护连通性 遍历每条边 每次合并边的起点和终点 如果1和n联通 并且这条边在1和n的这个连通块中 就对ans取min Code…...

关于CodeJava的学习笔记——11

一、GUI 1、最简单的GUI 只有一个按钮的GUI import java.awt.*; import javax.swing.*; public class SimpleGUI{JFrame frame;Button bt;public SimpleGUI(){frame new JFrame("标题栏内容");bt new Button("点我啊");frame.add(bt);frame.setSize(8…...

首个物业plus系列展 2025上海国际智慧物业博览会开幕

AI赋能服务升级!首个“物业plus”系列展 2025上海国际智慧物业博览会盛大开幕 3月31日,2025上海国际智慧物业博览会(简称“上海物博会”)在上海新国际博览中心N4馆隆重开幕。本届展会由广州旭杨国际展览有限公司主办&#xff0c…...

嵌入式八股文学习——虚函数相关知识学习

虚函数 什么是虚函数?虚函数示例解析代码解析: 使用虚函数的注意事项1. 虚函数的声明与定义2. 派生类中的虚函数 哪些函数不能声明为虚函数1. 普通函数(非成员函数)2. 构造函数3. 内联成员函数4. 静态成员函数5. 友元函数总结 纯虚…...

rk3586开发版新增系统调用(Android13)

一、前言 最近想学一下kernel和hal,所以买了一块板子,带了个摄像头和屏幕,1100,学习投资了。这个Android内核定一个系统调用感觉是真的麻烦,主要是有一层bionic C,一开始不熟悉的时候还是花了点时间去配置。 二、kernel修改 include/uapi/asm-generic…...

OCR第三个方案:PP-OCRv4的初步探索

一、PP-OCR历史简要回顾 先请出PP-OCR官网,理解上有出入的,以官网为准。 1.1 PP-OCR系列历史 PP-OCRv1(2020):首创3.5M超轻量模型,奠定两阶段架构基础(检测方向分类识别)PP-OCRv2…...

物联网开发项目:AS608+ESP32S3+Vue构建指纹识别系统(二)——ESP32部分

一、前言 接着上一篇文章介绍的关于AS608模块的介绍以及关于指纹特征库的提取与导入分析,如果亲自上手了的话,那么对于Arduino IDE和AS608的基本操作已经熟悉了。 在这一个月之中,抛开中途有事耽误了,终于是基本上完成了我们整个项…...

程序化广告行业(46/89):竞价结算规则、底价策略与内部排名解析

程序化广告行业(46/89):竞价结算规则、底价策略与内部排名解析 大家好!在之前的几篇博客中,我们已经深入探讨了程序化广告的多个重要方面,从基础概念到实际操作流程。我写这些博客的目的,就是希…...

ICLR 2025 Spotlight:让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文。 论文出自蚂蚁数科与清华大学兴军亮老师团队合作的科研项目…...

第十九章:Python-pyttsx3 库实现文本转语音功能

前言 在开发语音交互应用或需要文本转语音功能的项目时,pyttsx3 是一个非常实用的 Python 库。它支持离线语音合成,无需联网即可将文本转换为语音。本文将详细介绍 pyttsx3 的功能、用法以及常见问题的解决方法,并通过示例代码帮助你快速上手…...

Unity 2022.3.x部分Android设备播放视频黑屏问题

Android平台视频兼容性问题很多…类似的黑屏问题真的很头大,总结一些常见问题: 1. 视频文件不支持压缩 如果使用AssetBundle加载视频,这个AssetBundle压缩格式要选None。有人可能会说最新版Unity已经支持bundle压缩下播放视频,稳…...

vLLM 部署 openai whisper 模型实现语音转文字

vLLM 部署 openai whisper 模型实现语音转文字 1. 安装 vLLM2. 启动 openai whisper 模型 1. 安装 vLLM pip install vllm vllm[audio] --pre --extra-index-url https://wheels.vllm.ai/nightly --upgrade2. 启动 openai whisper 模型 CUDA_VISIBLE_DEVICES0 \ VLLM_WORKER_…...

【Zabbix技术系列文章】第④篇——Zabbix 数据可视化

在当今数字化运维时代,面对海量的监控数据,如何从中快速获取有价值的信息至关重要。Zabbix 的数据可视化功能为我们提供了直观、高效的解决方案,它能将复杂的监控数据转化为清晰易懂的图表和仪表盘,助力运维人员迅速发现问题、分析…...

表格数据导出为Excel

环境及插件配置:(理论上vue2应该也可以使用,没有试验过) "vue": "^3.2.36", "webpack": "^5.94.0", "webpack-cli": "^5.1.4", "file-saver": "^2.…...

Faster-Whisper —— 为语音识别加速的利器

Faster-Whisper —— 为语音识别加速的利器 在语音识别技术迅速发展的今天,OpenAI 的 Whisper 模型因其强大的多语言识别能力和优异的准确率而受到广泛关注。然而,高精度模型往往伴随着高昂的计算开销和较长的推理时间,这对于需要实时或大规…...

SvelteKit 最新中文文档教程(16)—— Service workers

前言 Svelte,一个语法简洁、入门容易,面向未来的前端框架。 从 Svelte 诞生之初,就备受开发者的喜爱,根据统计,从 2019 年到 2024 年,连续 6 年一直是开发者最感兴趣的前端框架 No.1: Svelte …...

Flutter项目之构建打包分析

目录: 1、准备部分2、构建Android包2.1、配置修改部分2.2、编译打包 3、构建ios包3.1、配置修改部分3.2、编译打包 1、准备部分 2、构建Android包 2.1、配置修改部分 2.2、编译打包 执行flutter build apk命令进行打包。 3、构建ios包 3.1、配置修改部分 3.2、编译…...

24、网络编程基础概念

网络编程基础概念 网络结构模式MAC地址IP地址子网掩码端口网络模型协议网络通信的过程(封装与解封装) 网络结构模式 C/S结构,由客户机和服务器两部分组成,如QQ、英雄联盟 B/S结构,通过浏览器与服务器进程交互&#xf…...

Mentalab Explore Pro携手 Wearanize + 数据集,推动睡眠科学研究

在神经科学和睡眠研究的领域,精确监测大脑活动是获取深入见解的关键。传统多导睡眠监测(PSG)设备虽然提供了详尽的数据,但其操作的复杂性和成本限制了其在更广泛场景中的应用。可穿戴技术的兴起提供了一种新的数据收集方式&#x…...

基于 RK3588 的 YOLO 多线程推理多级硬件加速引擎框架设计(代码框架和实现细节)

一、前言 接续上一篇文章,这个部分主要分析代码框架的实现细节和设计理念。 基于RK3588的YOLO多线程推理多级硬件加速引擎框架设计(项目总览和加速效果)-CSDN博客https://blog.csdn.net/plmm__/article/details/146542002?spm1001.2014.300…...

element-ui图片查看器

element-ui图片查看器 调用案例&#xff1a; <el-image-viewerv-if"showViewer":on-close"()>{showViewerfalse}":url-list"imgList" />export default {components: {Banner,el-image-viewer:()>import(element-ui/packages/image/…...

VoIP技术及其与UDP的关系详解

随着互联网的飞速发展&#xff0c;基于IP的语音通信技术&#xff08;Voice over Internet Protocol&#xff0c;简称VoIP&#xff09;已经成为现代通信的重要支柱。从Skype到Zoom&#xff0c;从企业电话系统到智能音箱&#xff0c;VoIP以其低成本、高灵活性和强大的扩展性逐渐取…...