基于上下文分析的 Python 实时 API 推荐
原文来自微信公众号“编程语言Lab”:基于上下文分析的 Python 实时 API 推荐
搜索关注 “编程语言Lab”公众号(HW-PLLab)获取更多技术内容!
欢迎加入 编程语言社区 SIG-程序分析 参与交流讨论(加入方式:添加文末小助手微信,备注“加入 SIG-程序分析”)。
作者 | 何欣程
编辑 | Skylar
作者简介
何欣程,南京大学计算机系软件质量研究所博士生,研究方向为程序分析,编程辅助。
视频回顾
编程语言技术沙龙|第16期:基于上下文分析的 python 实时 API 推荐
1 研究介绍
API 推荐一直是一个热门话题,相关的工作 1 也很多。当前的 API 推荐主要分为两类,一类是基于自然语言查询的 API 推荐,这类工作更加关注自然语言文本相关信息,像众包信息和 API 文档等。例如 16 年的 RACK,通过从 Stack Overflow 的众包知识中提取关键词 - API 映射提供相关 API 列表推荐。18 年的 BIKER 通过 word embedding 方法计算两段文本描述的相似度,根据 Stack Overflow 文本和 API 文档的相似度进行排序。

相比来说,基于代码上下文的 API 推荐在实际开发过程中使用更多的一般都是各大语言 IDE 中的智能代码补全插件,这类插件就涵盖了比较全面的 API 推荐功能,比如基于 Typeshed 的 Pycharm 补全功能以及 Vscode Intelli 系列的智能插件等等。

在论文方面,基于代码的 API 推荐更多的是应用在静态语言上,例如 Java,C,C++ 等,但针对动态语言的较少一些。关于 Python 的一共有三篇,其中两篇都是利用 AST 信息来进行学习决策。但在实时场景下,Python Parser 并不能解析出可用的 AST,这就在 IDE 等场景下,给具体的落地应用带来挑战。

2 实时场景下的 API 推荐
目标与挑战
基于这个问题,我们就尝试暂时从 AST 上挪开视线,提出一种利用如 Tokenflow、Dataflow 等上下文信息来进行实时 Python API 推荐的方法。具体来说,实时场景下的 API 推荐,我们将其定义为,针对形如 caller.API 的 recommendation hole,我们在仅知 hole 之前的代码情况下,提供排序后的 API 候选表。
而要达成这个目标,需要解决两方面的挑战。首先,是 Python 本身的动态特性。Python 具有类型动态性、路径敏感性,传统的静态分析方法在上面要么失败要么难以得到足够精准的结果。其次,在实时场景下,代码的语法语义都不完整,给静态程序分析带来很大难题,缺乏代码开发历史,针对一些基于历史变更学习的方法带来挑战。此外,实时性推荐也需要一些在线的轻量级的分析过程。
Visual Studio IntelliCode 的局限性
面对这些挑战,基于学习的 API 推荐方法往往比大多数传统方法具有更好的性能。然而,它们也有一些局限性。Visual Studio IntelliCode 是最先进的 Python 推荐工具之一。它是以学习为基础的。我们使用它来演示这种方法的一些局限性。
首先,推荐 API 的能力很大程度上依赖于 API 调用对象的类型推断结果。例如,当调用方类型未知时,没有可收集的候选 API。Intellicode 对推荐点 kwargs 产生 NULL 推荐。原因是它不能推断调用者对象的类型。

其次,即使可以成功推断对象类型,Intellicode 生成的推荐列表也有可能只包含字母顺序的候选对象。主要原因是基于学习的方法在推荐频繁调用的 API 方面做得很好,而不是项目特定的 API。

另外,即使 IntelliCode 成功地推荐了一些被标记为星号的候选人,这些推荐也可能是错误的。在例子中, IntelliCode 提供星号标记的 API,但排名前 4 的答案都不正确,但可能在训练集中使用频率更高。这个问题的产生部分是由于机器学习的不确定性。

PyART——从不完整的 Python 上下文中提取数据流
PyART 提供了一种从不完整的 Python 上下文中提取数据流的有效方法,我们称它为乐观的,因为这样的数据流既不 sound 也不 complete,但足以提供 API 建议,收集起来也具有成本效益。核心思想是模拟人类直觉,这与传统的数据流分析不同。传统的数据流分析试图在基本块的边界上获取过程中每个点的信息,并限定每个块的进入状态和退出状态。控制流用于确定一个值如何传播。然而这对于 Python 来说是困难的。
相比之下,人类主要基于局部符号信息来推断数据流。例如,他们考虑周围的变量和代码结构。因此,PyART 定义了从五个基本抽象语法单元派生近似数据流的规则。
Rule1: Assignment
规则 1 是对赋值做了一个约束,对于位于位置 l 之前的右侧操作数 e 中的任何变量和方法对象 u,都有数据流从 u 流向左侧操作数 v。这里,标识符 VM 表示表达式中的所有变量和方法对象,DFS(v) 表示涉及对象 v 的所有数据流路径。

Rule2: Loop
规则 2 是循环指定数据流提取,即从迭代器 e 到循环变量 v 中的任何变量或方法对象中有数据流流向。

Rule3: Object attribute access/invocation
规则 3 是关于属性加载和调用的,如果一个对象 u 访问了一个字段属性或调用了一个方法属性 v,在 u 和 v.n 之间有数据流。

Rule4: Container access
规则 4 是为容器访问指定了数据流,如果容器 v 通过索引 e 访问,则数据流从 e 中的任何对象 u 到容器对象 v。

Rule5: Function parameter passing
规则 5 是用于函数参数传递,它指定任何参数 e 中涉及的任何变量都有数据流流向函数 f。

Rule6: Function parameter passing
由于这五个单元可能以组合的形式出现,所以规则 6 聚合了从单个单元派生的数据流关系。

Rule7: Propagation
此外,PyART 根据传播规则对流的效果进行建模。例如,如果 line1 中有一个关于 x 的数据流,它将在 line1 之后关于 x 的其他位置传播。

Rule8: Preservation
最后,规则 8 保留所有变量或方法对象不受单位影响的数据流关系 (因此应该删除)。

编码器根据收集到的特征,生成一个包含四个元素的特征向量,包括:数据流提示,token 相似性、caller-API 共现频率以及上下文 token-API 共现频率。在训练过程中,模型构造器使用随机森林进行监督学习。

实验评估结果表明,我们提出的数据流分析方法、API 推荐方法均优于 baseline,且具有轻量级、实时性的优势。
Peng Y, Li S, Gu W, et al, Revisiting, Benchmarking and Exploring API Recommendation: How Far Are We?[J]. arXiv preprint arXiv:2112.12653, 2021. ↩︎
相关文章:
基于上下文分析的 Python 实时 API 推荐
原文来自微信公众号“编程语言Lab”:基于上下文分析的 Python 实时 API 推荐 搜索关注 “编程语言Lab”公众号(HW-PLLab)获取更多技术内容! 欢迎加入 编程语言社区 SIG-程序分析 参与交流讨论(加入方式:添加…...
软件测试-接口测试-代码实现接口测试
文章目录 1.request1.1 request介绍1.2 发送get请求1.3 发送set请求1.4 其他请求方式1.5 传递url参数1.6 响应内容解析1.7 cookie1.8 设置session2.集成UnitTest2.1 接口测试框架开发2.2 案例:使用TPShop项目完成对登录功能的接口测试1.request 1.1 request介绍 概念 基于py…...
中村成洋《垃圾回收的算法与实现》PDF 读书笔记
观前提醒 为了能够锻炼自己,我会查阅大量外文不停的修改内容,少部分会提示成中文。 可能有误,请见谅 提示:若是觉得阅读困难,可以看如下内容 脚本之家可获取,若失效可私信浏览器的沙拉查词扩展…...
docker 网络模式
docker 网络模式主要分为四种,可以通过docker network ls 查看 ~$ docker network ls NETWORK ID NAME DRIVER SCOPE a51d97d72f10 bridge br…...
数据库开发(一文概括mysql基本知识)
Mysql 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 关系型数据库(Relational Database Management System:关系数据库管理系统)应用软件之一。mysql在问开发中,几乎必不可少,因为其他的可能是要收费的&#x…...
【JVM】详解Java内存区域和分配
这里写目录标题一、前言二、运行时数据分区2.1程序计数器(PC)2.2 Java虚拟机栈2.3 本地方法栈2.4 Java堆2.5 方法区2.5.1 运行时常量池2.6 直接内存三、HotSpot虚拟机对象探秘3.1 对象的创建3.2 对象的内存布局3.3 对象的访问定位一、前言 C/C需要自行回收和释放已经没用的对象…...
JAVA开发(史上最完整追本溯源JAVA历史、发展和学习)
(第二次世界大战1931-1945) 世界上最先进的技术往往是由于战争催生,在第二次世界大战中除了飞机,坦克和大炮的武器较量外,在隐秘战线的情报工作其实更为重要,在军队将领来往的电报中,为了防止军事情报的泄漏ÿ…...
Qt 防止程序退出
文章目录摘要QWidgetQML方法 1方法 2关键字: Qt、 eventFilter、 Close、 键盘、 任务管理器摘要 今天要聊得内容还是怎么防止别人关闭我的程序,之前都是在win下面,一般都是用过钩子连捕获键盘事件,完了吧对应的事件忽略&#x…...
【校验码 - 循环冗余校验码CRC】
水善利万物而不争,处众人之所恶,故几于道💦 目录 循环冗余校验码 1.多项式 2.CRC编码的组成 3.校验码的生成 4.例题: 循环冗余校验码 广泛地在网络通信及磁盘存储时采用。 1.多项式 在循环冗余校验(CRC)码中,无一例…...
【Rust】一文讲透Rust中的PartialEq和Eq
前言 本文将围绕对象:PartialEq和Eq,以及PartialOrd和Ord,即四个Rust中重点的Compare Trait进行讨论并解释其中的细节,内容涵盖理论以及代码实现。 在正式介绍PartialEq和Eq、以及PartialOrd和Ord之前,本文会首先介绍…...
Vulnhub靶场----9、DC-9
文章目录一、环境搭建二、渗透流程三、思路总结一、环境搭建 DC-9下载地址:https://download.vulnhub.com/dc/DC-9.zip kali:192.168.144.148 DC-9:192.168.144.158 二、渗透流程 1、信息收集nmap -T5 -A -p- -sV -sT 192.168.144.158思路&am…...
使用Containerd搭建K8s集群【v1.25】
[toc] 一、安装要求 在开始之前,部署Kubernetes集群机器需要满足以下几个条件: 一台或多台机器,操作系统 CentOS7.x-86_x64硬件配置:2GB或更多RAM,2个CPU或更多CPU,硬盘30GB或更多集群中所有机器之间网络互通可以访问外网,需要拉取镜像禁止swap分区二、准备环境 角色IP…...
NMT - 构建双语概率词典(Probabilistic dictionaries)
文章目录一、安装依赖包mosesdecoder安装 mgiza二、数据预处理三、训练本文参考:How to train your Bicleaner https://github.com/bitextor/bicleaner/wiki/How-to-train-your-Bicleaner 一、安装依赖包 这个过程主要依赖于 mosesdecodermgiza mosesdecoder git…...
《ChatGPT是怎样炼成的》
ChatGPT 在全世界范围内风靡一时,我现在每天都会使用 ChatGPT 帮我回答几个问题,甚至有的时候在一天内我和它对话的时间比和正常人类对话还要多,因为它确实“法力无边,功能强大”。 ChatGPT 可以帮助我解读程序,做翻译…...
Streaming System是第一章翻译
GIthub链接,欢迎志同道合的小伙伴一起翻译 Chapter 1.Streaming101 如今,流数据处理在大数据中是非常重要的,其主要原因是: 企业渴望对他们的数据有更及时的了解,而转换到流处理是实现更低延迟的一个好方法…...
abap MODIFY常用语法解析
MODIFY 是既可以操作数据又可以操作内表的一个语法, 实现的逻辑都一样. 如果你内表或数据库中存在该行数据会对该行数据进行更新. 如果不存在,就会插入数据. , 1.如果it_tab是带有标题行的内表,是可以忽略FROM wa_tab工作区的 MODIFY it_tab .2.把工作区wa_tab中的数据更新…...
[媒体分流直播]媒体直播和传统直播的区别,以及媒体直播的特点
传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 直播毋庸置疑已经融入到了我们生活的方方面面,小到才艺,游戏,大到政策的发布,许多企业和机构也越来越重视直播,那么一场活动怎…...
打地鼠游戏-第14届蓝桥杯STEMA测评Scratch真题精选
[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥杯真题,这是Scratch蓝桥杯真题解析第102讲。 蓝桥杯选拔赛现已更名为STEMA,即STEM 能力测试,是蓝桥杯大赛组委会与美国普林斯顿多…...
链表经典刷题--快慢指针与双指针
本篇总结链表解题思路----快慢指针,其实也就是双指针,这个快慢并不单纯指“快慢”,它更多的可以表示,速度快慢,距离长度,时间大小等等,用法很有趣也很独特,理解它的思想,…...
【Java集合框架】篇四:Set接口
1. Set及主要实现类特点 Set:无序、不可重复(去重)、存储value HashSet:底层使用HashMap,即使用 数组单项链表红黑树 结构进行存储。(jkd8中) LinkedHashSet:是HashSet的子类&…...
家政维修平台实战20:权限设计
目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色…...
Mac软件卸载指南,简单易懂!
刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"࿰…...
项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
莫兰迪高级灰总结计划简约商务通用PPT模版
莫兰迪高级灰总结计划简约商务通用PPT模版,莫兰迪调色板清新简约工作汇报PPT模版,莫兰迪时尚风极简设计PPT模版,大学生毕业论文答辩PPT模版,莫兰迪配色总结计划简约商务通用PPT模版,莫兰迪商务汇报PPT模版,…...
Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
elementUI点击浏览table所选行数据查看文档
项目场景: table按照要求特定的数据变成按钮可以点击 解决方案: <el-table-columnprop"mlname"label"名称"align"center"width"180"><template slot-scope"scope"><el-buttonv-if&qu…...
HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散
前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司「七月在线」的职责之一 且个人认为,…...
Python竞赛环境搭建全攻略
Python环境搭建竞赛技术文章大纲 竞赛背景与意义 竞赛的目的与价值Python在竞赛中的应用场景环境搭建对竞赛效率的影响 竞赛环境需求分析 常见竞赛类型(算法、数据分析、机器学习等)不同竞赛对Python版本及库的要求硬件与操作系统的兼容性问题 Pyth…...
微服务通信安全:深入解析mTLS的原理与实践
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、引言:微服务时代的通信安全挑战 随着云原生和微服务架构的普及,服务间的通信安全成为系统设计的核心议题。传统的单体架构中&…...
