python ast 详解与用法
目录
- 基本概念
- 节点类型
- ast.Assign
- ast.Name
- ast.Constant
- ast.Call
- ast.Attribute
- 结点的遍历
- ast源码
- 示例
- 结点的修改
- 示例
- 参考链接
基本概念
在 python 中,我们可以通过自带的 ast
模块来对解析遍历语法树,通过ast.parse()
可以将字符串代码解析为抽象语法树,然后通过ast.dump()
可以打印这棵语法树。
除了ast
模块外,还有 astor
模块,其中的 astor.to_sourse()
函数可以将语法树Node
转换为代码, astor.dump_tree()
可以很好地格式化整棵树。
除了这些基础操作外,我们还可以遍历和修改整棵语法树。
比如,对于a = 10
来说,我们可以先解析成抽象语法树,然后打印所有的结点,如下所示。根据输出,我们可以看到根节点是Module
类型的,然后其body
是Assign
类型的。对于Assign
类型的结点,可以继续划分为Name
结点(表示变量名)和Constant
结点(表示变量内容)。
node = ast.parse('a = 10')
print(astor.dump_tree(node))
# Module(body=[Assign(targets=[Name(id='a')], value=Constant(value=10, kind=None), type_comment=None)], type_ignores=[])
节点类型
上面的简单示例向我们展示了几种基本结点类型(Assign、Name、Constant
),接下来我们将会展示其他几种常见的结点类型和示例,完整的节点类型可以查阅节点类型。大体上,我们可以把结点类型分为叶子结点
类型和非叶子结点
类型,比如Assign
就是非叶子结点类型,Name
和Constant
是叶子结点类型,因为他们不会有子结点了。
ast.Assign
Assign
类型用来表示赋值语句,比如a = 10
、 b = a
这样的赋值语句都是Assign
结点类型,他并不是一个叶子结点,因为它的下面一般还有 Name
结点。
ast.Name
Name
类型用来表示一个变量的名称,是一个叶子结点
。比如对于b = a
这样的赋值语句,子结点就是两个Name
。
node = ast.parse('a = b')
print(astor.dump_tree(node.body[0]))
# Assign(targets=[Name(id='a')], value=Name(id='b'), type_comment=None)
ast.Constant
表示一个不可变内容,它可以是Number
、string
,只要其内容是不可变的,都是ast.Constant
类型的结点,它是一个叶子结点
。
node = ast.parse('a = 100')
print(astor.dump_tree(node.body[0]))
# Assign(targets=[Name(id='a')], value=Constant(value=100, kind=None), type_comment=None)node = ast.parse('a = "paddle"')
print(astor.dump_tree(node.body[0]))
# Assign(targets=[Name(id='a')], value=Constant(value='paddle', kind=None), type_comment=None)
ast.Call
表示函数的调用,比如paddle.to_tensor()
。非叶子节点类型,一般包含三个属性:func、args、 keywords
。
- func:代表调用函数的名称,一般是一个
ast.Name
或ast.Constant
类型的结点,如果是连续调用,会是一个ast.Call
结点。 - args:代表函数传入的位置参数和可变参数。
- keywords:代表函数传入的关键字参数。
node = ast.parse('paddle.to_tensor(1, a = 10)')
print(astor.dump_tree(node.body[0]))# Expr(value=Call(func=Attribute(value=Name(id='paddle'), attr='to_tensor'),args=[Constant(value=1, kind=None)],keywords=[keyword(arg='a', value=Constant(value=10, kind=None))]))
对于上面的例子,我们通过可视化可以看到,顶层是一个ast.Expr
类型的结点,表示一个表达式。下面是ast.Call 结点
,Call
结点包含 一个ast.Attribute
结点,表示调用者和调用的方法名,paddle
是调用者,to_tensor
是方法名;一个ast.Constant
类型的args
,表示函数的位置参数;一个ast.keyword
,表示函数的关键字参数。
下面我们看一个比较复杂的示例,多个函数的连续调用
。根据输出结果可以看到,最后的调用reshape
在最外层,然后一直向内递归,子结点还是ast.Call
类型的结点。
node = ast.parse('a.to_tensor(1, a = 10).reshape(1)')
print(astor.dump_tree(node.body[0]))Expr(value=Call(func=Attribute(value=Call(func=Attribute(value=Name(id='a'), attr='to_tensor'), args=[Constant(value=1, kind=None)],keywords=[keyword(arg='a', value=Constant(value=10, kind=None))]),attr='reshape'),args=[Constant(value=1, kind=None)],keywords=[]))
ast.Attribute
上面的例子中出现了ast.Attribute
结点,Attribute
结点可以理解为属性,是一个非叶子结点。它包含两个字段,value
字段和attr
字段。对于a.shape
来说value
指明调用者,即a
;attr
指明调用的方法名,即shape
。
node = ast.parse('a.shape')
print(astor.dump_tree(node.body[0]))Expr(value=Attribute(value=Name(id='a'), attr='shape'))
结点的遍历
在ast
模块中,可以借助继承ast.NodeVisitor
类来完成结点的遍历,该类具有两种访问结点的方法,一种是针对所有结点类型通用的访问方法generic_visit()
,另一种是针对某个类型结点的访问方法 visit_xxx
,其中xxx代表具体的结点类型。generic_visit()
函数是遍历每个结点的入口函数,随后会调用visitor()
函数,获取该结点的类型,然后判断是否有遍历该类型结点的函数,如果有则调用 visit_xxx
类型的方法,如果没有则调用通用generic_visit()
方法。
ast源码
class NodeVisitor(object):def visit(self, node):"""Visit a node."""method = 'visit_' + node.__class__.__name__visitor = getattr(self, method, self.generic_visit)return visitor(node)def generic_visit(self, node):# 可以看到 generic_visit函数会调用visit函数,然后寻找并调用特定类型的visit函数。 """Called if no explicit visitor function exists for a node."""for field, value in iter_fields(node):if isinstance(value, list):for item in value:if isinstance(item, AST):self.visit(item)elif isinstance(value, AST):self.visit(value)def visit_Constant(self, node):value = node.valuetype_name = _const_node_type_names.get(type(value))if type_name is None:for cls, name in _const_node_type_names.items():if isinstance(value, cls):type_name = namebreakif type_name is not None:method = 'visit_' + type_nametry:visitor = getattr(self, method)except AttributeError:passelse:import warningswarnings.warn(f"{method} is deprecated; add visit_Constant",PendingDeprecationWarning, 2)return visitor(node)return self.generic_visit(node)
示例
下面是一个例子,我们定义了一个继承ast.NodeVisitor
的类,并且重写了visit_attribute
方法,这样在遍历到ast.Attribute
结点时,会输出当前调用的属性名
或方法名
,对于其他类型的结点则会输出结点类型
。
class CustomVisitor(ast.NodeVisitor):def visit_Attribute(self, node):print('----' + node.attr)ast.NodeVisitor.generic_visit(self, node)def generic_visit(self, node):print(node.__class__.__name__)ast.NodeVisitor.generic_visit(self, node)code = textwrap.dedent('''import paddlex = paddle.to_tensor([1, 2, 3])axis = 0y = paddle.max(x, axis=axis)'''
)
node = ast.parse(code)
visitor = CustomVisitor()
visitor.generic_visit(node)
需要注意的是,当我们重写visit_xxx函数后,一定要记得再次调用
ast.NodeVisitor.generic_visit(self, node)
,这样才会继续遍历整棵语法树。
结点的修改
对于结点的修改可以借助ast.NodeTransformer
类来完成,ast.NodeTransformer
继承自ast.NodeVisitor
类,重写了generic_visit
方法,该方法可以传入一个结点,并且返回修改后的结点,从而完成语法树的修改。
示例
在该示例中,我们定义了CustomVisitor
类来修改ast.Call
结点。具体来说,当遍历到Call
类型的结点后,流程如下:
- 首先会调用
get_full_attr
方法获取整个api
名称,如果是普通方法调用,则会返回完整的调用名称,比如torch.tensor()
会返回torch.tensor
;如果是连续的方法调用,比如x.exp().floor()
,则会返回ClassMethod.floor
。 - 然后调用
ast.NodeVisitor.generic_visit(self, node)
,进行深度优先的修改,这样就可以一层层递归,先修改内层,再修改外层。 - 如果是普通的方法调用,则修改结点后返回;
- 如果是连续的方法调用,需要先通过
astor.to_source(node)
获取前缀方法,即调用者,保留前缀方法名称的同时,修改目前的方法名后返回。具体是通过'{}.{}()'
实现的。
def get_full_attr(node):# torch.nn.fucntional.reluif isinstance(node, ast.Attribute):return get_full_attr(node.value) + '.' + node.attr# x.abs() -> 'x'elif isinstance(node, ast.Name):return node.id# for example ast.Callelse:return 'ClassMethod'class CustomVisitor(ast.NodeTransformer):def visit_Call(self, node):# 获取api的全称full_func = get_full_attr(node.func)# post orderast.NodeVisitor.generic_visit(self, node)# 如果是普通方法调用,直接改写整个结点即可if full_func == 'torch.tensor':# 将 torch.tensor() 改写为 paddle.to_tensor()code = 'paddle.to_tensor()'new_node = ast.parse(code).body[0]return new_node.value# 如果是类方法调用,需要取前面改写后的方法作为 func.value if full_func == 'ClassMethod.floor':# 获取前缀方法作为 func.valuenew_func = astor.to_source(node).strip('\n')new_func = new_func[0: new_func.rfind('.')]# 将 floor() 改写为 floor2()code = '{}.{}()'.format(new_func, 'floor2')new_node = ast.parse(code).body[0]return new_node.value# 其余结点不修改return nodecode = textwrap.dedent('''import torchx = torch.tensor([1, 2, 3])x = x.exp().floor()'''
)
node = ast.parse(code)
visitor = CustomVisitor()
node = visitor.generic_visit(node)
result_code = astor.to_source(node)
print(result_code)
参考链接
https://blog.csdn.net/ThinkTimes/article/details/110831176?ydreferer=aHR0cHM6Ly9jbi5iaW5nLmNvbS8%3D
https://greentreesnakes.readthedocs.io/en/latest/
https://github.com/PaddlePaddle/PaConvert
相关文章:

python ast 详解与用法
目录 基本概念节点类型ast.Assignast.Nameast.Constantast.Callast.Attribute 结点的遍历ast源码示例 结点的修改示例 参考链接 基本概念 在 python 中,我们可以通过自带的 ast 模块来对解析遍历语法树,通过ast.parse()可以将字符串代码解析为抽象语法树…...

Go语言开发小技巧易错点100例(七)
往期回顾: Go语言开发小技巧&易错点100例(一)Go语言开发小技巧&易错点100例(二)Go语言开发小技巧&易错点100例(三)Go语言开发小技巧&易错点100例(四)Go…...

爬虫为什么需要ip
爬虫需要使用爬虫ip主要是为了解决以下问题: 1、反爬虫机制:许多网站会设置反爬虫机制来防止爬虫程序的访问,例如限制IP地址的访问频率、检测访问来源等。使用爬虫ip可以绕过这些限制,使得爬虫程序更难被检测到。 2、访问限制&a…...

RabbitMQ-保证消息可靠性
RabbitMQ-保证消息可靠性 1.消息可靠性1.1.生产者消息确认1.1.1.修改配置1.1.2.定义Return回调1.1.3.定义ConfirmCallback 1.2.消息持久化1.2.1.交换机持久化1.2.2.队列持久化1.2.3.消息持久化 1.3.消费者消息确认1.3.1.演示none模式1.3.2.演示auto模式 1.4.消费失败重试机制1.…...

Python教程——Python本地环境安装
文章目录 简介安装Python下载安装验证安装结果 手动添加环境变量安装问题 简介 python官网:https://www.python.org/ Python Windows下载地址:https://www.python.org/downloads/windows/ Python 官方文档:https://www.python.org/doc/ Pytho…...

“智慧交通”转型升级+创新发展策略
随着“互联网交通”的应用创新推陈出新,传统轨道交通行业客户服务中心已难以满足乘客对便捷高效的客户服务需求;节假日人流量激增,客户服务人手不足,交通、站点堵塞、信息更新不及时等问题是常态。因此,“智慧城市”交…...
华为OD机试 - 开放日活动、取出尽量少的球(Python)
题目描述 某部门开展Family Day开放日活动,其中有个从桶里取球的游戏,游戏规则如下: 有N个容量一样的小桶等距排开, 且每个小桶都默认装了数量不等的小球, 每个小桶装的小球数量记录在数组 bucketBallNums 中, 游戏开始时,要求所有桶的小球总数不能超过SUM, 如果…...

一些关于单链表的操作
思维导图: 一, 链表 1.1节点的结构 链表是啥样的啊?顾名思义链表就是一种用链子链接起来的表。那这种表是怎么样的啊? 这样的呗: 现在,我们知道了链表的形状了。那我们该如何用编程语言来形成这一种形状…...

CTF-PHP反序列化漏洞2-利用魔法函数
作者:Eason_LYC 悲观者预言失败,十言九中。 乐观者创造奇迹,一次即可。 一个人的价值,在于他所拥有的。可以不学无术,但不能一无所有! 技术领域:WEB安全、网络攻防 关注WEB安全、网络攻防。我的…...

Doris(23):Doris的函数—字符串函数
1 append_trailing_char_if_absent(VARCHAR str, VARCHAR trailing_char) 如果s字符串非空并且末尾不包含c字符,则将c字符附加到末尾。 trailing_char只包含一个字符,如果包含多个字符,将返回NULL select append_trailing_char_if_absent(a,c);select append_trailing_cha…...

01-Shiro550漏洞流程
1. 漏洞原理 Apache Shiro框架提供了记住密码的功能(RememberMe),用户登录成功后会生成经过加密并编码的cookie。在服务端对rememberMe的cookie值,先base64解码然后AES解密再反序列化,就导致了反序列化RCE漏洞。 那么…...

《程序员面试金典(第6版)》面试题 16.08. 整数的英语表示
题目描述 给定一个整数,打印该整数的英文描述。 示例 1: 输入: 123输出: “One Hundred Twenty Three” 示例 2: 输入: 12345输出: “Twelve Thousand Three Hundred Forty Five” 示例 3: 输入: 1234567输出: “One Million Two Hundred Thirty Four Thousand…...
ChatGPT技术原理 第四章:Transformer模型
目录 4.1 什么是Transformer 4.2 Transformer结构详解 4.3 Self-Attention机制 4.4 Multi-Head Attention机制 4.1 什么是Transformer...

基于redis和threadlocal实现登录状态校验和拦截
1.流程图 单机节点下的登录状态校验 分布式节点下的登录状态校验 2.代码实现 实现步骤分为如下几步 实现WebMvcConfigurer接口,添加拦截器定义拦截器,需要配置两个interceptor,第一个用于刷新token,写threadlocalÿ…...

14-6-进程间通信-信号量
前面学习了pipe,fifo,共享内存,信号。 本章将讲述信号量。 一、什么是信号量/信号量集? 1.什么是信号量 信号量是一个计数器。信号量用于实现进程间的同步和互斥。而可以取多个正整数的信号量被称为通用信号量。 对信号量的使用场景的解读 房间&#…...
《中国教育报》投稿邮箱编辑部征稿
《中国教育报》国家教育部主管,中国教育报刊社主办的以教育新闻为主的全国性日报。是迄今为止中国最具权威和最有影响力的教育新闻媒体。中国教育报刊社是中华人民共和国教育部直属的新闻出版机构。2018年获得第三届全国“百强报纸”。2019年入选“新媒体影响力指数…...

Photoshop如何使用绘画和图像修饰之实例演示?
文章目录 0.引言1.给图像添加渐变色效果2.快速创建一副素描画3.清除图像中多余的景物4.快速融合两张图像5.调整图像光影6.人像面部瑕疵修除7.美化眼睛 0.引言 因科研等多场景需要进行绘图处理,笔者对PS进行了学习,本文通过《Photoshop2021入门教程》及其…...

【C++】布隆过滤器
文章目录 布隆过滤器提出布隆过滤器概念布隆过滤器应用场景设计思路:布隆过滤器的插入布隆过滤器的查找布隆过滤器删除BloomFilter.h布隆过滤器优点布隆过滤器缺陷 布隆过滤器提出 我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经…...

功能齐全的 ESP32 智能手表,具有多个表盘、心率传感器硬件设计
相关设计资料下载ESP32 智能手表带心率、指南针设计资料(包含Arduino源码+原理图+Gerber+3D文件).zip 介绍 我们调查了智能手表项目的不同方面,并学会了集成和测试每个单独的部分。在本文中,我们将使用所学知识,结合使用硬件和软件组件,从头开始创建我们自己的智能手表。在…...

微服务不是本地部署的最佳选择,不妨试试模块化单体
微服务仅适用于成熟产品 关于从头开始使用微服务,马丁・福勒(Martin Fowler)总结道: 1. 几乎所有成功的微服务都是从一个过于庞大而不得不拆分的单体应用开始的。 2. 几乎所有从头开始以微服务构建的系统,最后都会因…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...

多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...

css实现圆环展示百分比,根据值动态展示所占比例
代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...
质量体系的重要
质量体系是为确保产品、服务或过程质量满足规定要求,由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面: 🏛️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限,形成层级清晰的管理网络…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...

让AI看见世界:MCP协议与服务器的工作原理
让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…...

3-11单元格区域边界定位(End属性)学习笔记
返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...