当前位置：首页 > news >正文

Web安全研究（六）

news 2026/5/19 20:54:42

文章目录

HideNoSeek: Camouflaging(隐藏) Malicious JavaScript in Benign ASTs
- 文章结构
- Intro
- js obfuscation
- methodology
- - Example

HideNoSeek: Camouflaging(隐藏) Malicious JavaScript in Benign ASTs

CCS 2019
CISPA

恶意软件领域，基于学习的系统已经非常流行，并且可以检测新的恶意变种。然而，掌握目标系统特定内部知识的攻击者可能会生成被错误分类的输入样本。在实践中，强攻击者的假设并不现实，因为这意味着可以获取内部信息。

作者提出HideNoSeek这种工具，无需任何目标系统的信息，可以规避整个基于语法特征的检测器类别；这种攻击包括改变恶意js样本的结构以重新生产良性语法。

具体来说，HideNoSeek需要恶意种子样本来搜索恶意种子样本和良性样本之间的同构子图，然后使用恶意等价物（相同的AST结构）来替换良性部分，并且调整其余良性数据依赖关系。

文章结构

intro
javascript obfuscation
1. obfuscation techniques
2. static detection system
3. malicious transformation of ASTs
Mthodology
1. Conceptual Overview
2. Program dependency graph analysis
3. slicing-based clone detection
4. malicious code with a benign ast
comprehensive evaluation
1. experimental setup
2. evasive samples generation
3. validity test
4. evaluation against real-world systems
5. run-time performance
discussion
related work
conclusion

Intro

Javascript是一种浏览器语言，最初是为了增强网站与用户的交互性和提高用户友好性创建的，但其是在用户浏览器上工作，因此也可用于从事恶意活动，如加密货币挖掘，偷渡式下载，重定向托管网站等。利用js的词法和语法可以为捕捉代码的显著属性提供有价值的洞察力。且与机器学习相结合时，可以准确的检测出新的混淆变体。

攻击者越来越多的使用混淆技术来逃避检测，给人工分析带来更多的障碍。因此恶意\混淆会在样本的语法中留下痕迹。因此，改变恶意样本的结构以重现现有良性语法的设计会挫败任何基于语法或词汇结构的分类器。例如作者可以在更大的良性软件中插入恶意软件，以通过在统计上增加良性特征来逃避检测。

作者提出一种在AST层检测、替换和调整良性文件与恶意文件之间所谓克隆的方法：
通过语法分析将js代码转为AST，而后用来构建程序依赖图；program dependecy graph，PDG

基于后向切片的克隆检测；
良性AST替换；

js obfuscation

作者在野外发现的几种类型的混淆规避技术：

随机化混淆，在不改变语义的情况下，随机插入或改变脚本元素，如添加空白字符，变量名随机化，从而挫败依赖于内容匹配的技术
数据混淆，重新组合字符串的操作技术，如字符串拆分/合并，字符替换
编码混淆，使用标准编码或自定义编码，以及加密解密功能，米遍特定字符串以文本形式出现
逻辑结构混淆，在脚本中添加无关指令，如大量条件分支
环境交互，将语句拆分并分散到HTML文档中的多个脚本标签中，有效载荷包存在DOM中，然后再提取出来；

Still, obfuscation should not be confused with maliciousness: benign obfuscation can protect intellectual property, while malicious obfuscation hides the malicious intent of the sample.

混淆和恶意不能混为一谈，良性混淆可以保护知识产权，恶意混淆则用于隐藏样本的恶意意图。

HideNoSeek并不试图将样本的恶意性隐藏在传统的混淆层后面，而是先通过JSDetox，box-js进行解混淆，然后改变恶意样本的结构，重写为现有的良性语法，这一隐藏形式可视为一种新的混淆形式。

methodology

三部分构成：

抽象代码表示，使用控制流和数据流来增强ast，并将数据存储在pdg中
同构子图查询，查找benign和malware的相同子图，然后后向切片，使用恶意克隆代替良性克隆，并遵循原有的良性数据依赖关系
将AST转换回代码

语法分析由 JavaScript 解析器 Esprima [28] 进行，它以有效的 JavaScriptsample 作为输入，生成描述程序句法结构的有序树（AST）。

总的来说，Esprima 可以生成 69 个不同的语法单元，称为节点。

内节点代表操作符，如变量声明（VariableDeclaration）、赋值表达式（AssignmentExpression）或 If 语句（IfStatement），而叶节点则代表操作数，如标识符（Identifier）或文字（Literal）（ContinueStatement 和 BreakStatement 除外）。

var x = 1;
var y = 1;
if (x == 1) {d = y;}

如图所示，AST 仅保留了程序构造如何嵌套以形成源代码的信息，但不包含任何语义信息，如控制流或数据流，而这正是我们进行克隆检测所需要的。

在 JavaScript 中，作用域定义了变量的可访问性。在 JavaScript 中，作用域定义了变量的可访问性。如果变量是在任何函数之外定义的，或者没有使用 var、let 或 const 关键字，或者使用了 window 对象，那么它就属于全局作用域，而只能在代码的特定部分（如块语句）中使用的变量则属于局部作用域。

目标是从恶意文件中检测出也可以在良性文件中找到的子AST。将这种常见结构称为克隆。

为了检测克隆，作者采用了 Komondooret 等人[45]的算法，该算法结合了 PDGs 和程序切片的变体[78]。

创建等价类（第 3.3.1 节），根据其抽象语法意义重新组合常见的良性和恶意 PDG 语句节点。
对于同一类别中具有相同语句依赖性（即切分标准）的良性和恶意对，我们将它们添加到当前克隆列表中，并沿着它们的控制和数据依赖性向后切分。
当且仅当它们匹配（语法相同）时，我们才会将这些前代节点添加到当前克隆列表中，只要找到匹配的语句节点，我们就会进行迭代（第 3.3.2 节）。

Example

恶意js样本

wscript = WScript . CreateObject ('WScript . Shell ');
wscript . run (" cmd . exe /c \"< malicious powershell >;\" ", "0");

良性样本：

obj = document . createElement (" object ");
obj . setAttribute ("id", this . internal . flash .id);
obj . setAttribute (" type ", " application /x- shockwave - flash ");
obj . setAttribute (" tabindex ", " -1");
createParam (obj , " flashvars ", flashVars );

良性AST形势下的恶意语义样本：

wscript = WScript . CreateObject ('WScript . Shell ');
wscript . toString ('id ', this . internal . flash .id);
wscript . run ('cmd . exe /c "< malicious powershell >;" ', "0");
wscript . hasOwnProperty ('tabindex ', ' -1');
parseFloat ( wscript , 'flashvars ', flashVars );

Web安全研究（六）

文章目录

HideNoSeek: Camouflaging(隐藏) Malicious JavaScript in Benign ASTs

文章结构

Intro

js obfuscation

methodology

Example

相关文章：

Web安全研究（六）

python3 中try 异常调试 raise 异常抛出

Java中的序列化是什么？如何实现对象的序列化和反序列化？请解释Serializable接口的作用是什么？请解释transient关键字的作用是什么？为什么会使用它？

二维差分---三维差分算法笔记

D. Divisible Pairs

【教程】Kotlin语言学习笔记（二）——数据类型（持续更新）

react 插槽

Linux运用fork函数创建进程

Pytest测试技巧之Fixture：模块化管理测试数据

设计模式-职责链模式Chain of Responsibility

书生浦语大模型实战营-课程作业（3）

考研英语单词25

计算机网络——08应用层原理

面试计算机网络框架八股文十问十答第五期

拟合案例1：matlab积分函数拟合详细步骤及源码

嵌入式软件设计入门：从零开始学习嵌入式软件设计

Educational Codeforces Round 135 (Rated for Div. 2)C. Digital Logarithm（思维）

微信小程序介绍、账号申请、开发者工具目录结构详解及小程序配置

数字的魅力之情有独钟的素数

Vue2源码梳理：render函数的实现

仅限内部团队流通的Perplexity调试日志解析手册：5类query失败根因定位图谱（含curl+curl-debug完整链路）

5大核心功能揭秘：MoneyPrinterPlus如何实现AI短视频自动化批量生产

ESP32-S3-DevKitC-1驱动3.5寸ILI9488 TFT：从零构建LVGL音乐播放器UI

别再只盯着时序图了！FPGA驱动AD7606的8通道同步采样，这3个实战细节才是关键

3步打造你的专属Minecraft领地世界：PlotSquared终极指南

Midscene.js实战指南：3步构建跨平台AI自动化测试，效率提升70%

任天堂Switch游戏备份终极指南：nxdumptool完全解析

2026 OpenTiny NEXT 产品调研启动！

LPA分层审核指标是什么？读懂LPA分层审核指标才能评估审核有效性

Cortex-R52+中断控制器与定时器深度解析