Towards Low-Latency and Adaptive Ransomware Detection Using Contrastive Learning
TL;DR 精炼摘要
本文提出结合硬件性能计数器的自监督对比学习与神经架构搜索框架,实现勒索软件低延迟、早期且自适应检测。通过定制损失函数减少响应时间,自动构建适应未知变种的模型,显著提升检测准确率(+16.1%)和响应速度(快6倍),增强防御鲁棒性。
摘要
Ransomware has become a critical threat to cybersecurity due to its rapid evolution, the necessity for early detection, and growing diversity, posing significant challenges to traditional detection methods. While AI-based approaches had been proposed by prior works to assist ransomware detection, existing methods suffer from three major limitations, ad-hoc feature dependencies, delayed response, and limited adaptability to unseen variants. In this paper, we propose a framework that integrates self-supervised contrastive learning with neural architecture search (NAS) to address these challenges. Specifically, this paper offers three important contributions. (1) We design a contrastive learning framework that incorporates hardware performance counters (HPC) to analyze the runtime behavior of target ransomware. (2) We introduce a customized loss function that encourages early-stage detection of malicious activity, and significantly reduces the detection latency. (3) We deploy a neural architecture search (NAS) framework to automatically construct adaptive model architectures, allowing the detector to flexibly align with unseen ransomware variants. Experimental results show that our proposed method achieves significant improvements in both detection accuracy (up to 16.1%) and response time (up to 6x) compared to existing approaches while maintaining robustness under evasive attacks.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Towards Low-Latency and Adaptive Ransomware Detection Using Contrastive Learning (面向低延迟和自适应勒索软件检测的对比学习方法)
1.2. 作者
- Zhixin Pan (潘志新) - 佛罗里达州立大学 (Florida State University) 工程学院
- Ziyu Shu (舒子宇) - 纽约州立大学石溪分校 (Stony Brook University) 放射肿瘤学系,同时隶属于纽约大学 (NYU)
- Amberbir Alemayoh - 佛罗里达州立大学 (Florida State University) 工程学院,同时隶属于维罗纳大学 (University of Verona)
1.3. 发表期刊/会议
该论文发布在 arXiv 预印本平台。arXiv 是一个开放获取的论文预印本库,主要收录物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和系统科学、经济学等领域的论文。它允许研究人员在正式同行评审和发表之前分享他们的研究成果,具有快速传播和广泛可及性。虽然 arXiv 上的论文尚未经过严格的同行评审,但其在学术界具有重要的影响力,常被视为前沿研究的早期发布平台。
1.4. 发表年份
2025年。
1.5. 摘要
勒索软件 (Ransomware) 因其快速演变、早期检测的必要性以及日益增长的多样性,已成为网络安全领域的严峻威胁,对传统检测方法构成了重大挑战。尽管先前的研究提出了基于人工智能 (AI-based) 的方法来辅助勒索软件检测,但现有方法存在三大主要局限性:特设的特征依赖性 (ad-hoc feature dependencies)、响应延迟 (delayed response) 和对未知变种的适应性有限 (limited adaptability to unseen variants)。本文提出了一种将自监督对比学习 (self-supervised contrastive learning) 与神经架构搜索 (Neural Architecture Search, NAS) 相结合的框架来解决这些挑战。具体而言,本文提供了三项重要贡献:(1) 设计了一个结合硬件性能计数器 (Hardware Performance Counters, HPC) 来分析目标勒索软件运行时行为的对比学习框架。(2) 引入了一个定制的损失函数,鼓励对恶意活动进行早期检测,显著降低了检测延迟。(3) 部署了一个神经架构搜索 (NAS) 框架来自动构建自适应模型架构,使检测器能够灵活地适应未知勒索软件变种。实验结果表明,与现有方法相比,本文提出的方法在检测准确性 (高达 16.1%) 和响应时间 (快达 6 倍) 方面均取得了显著改进,同时在规避攻击 (evasive attacks) 下保持了鲁棒性。
1.6. 原文链接
https://arxiv.org/abs/2510.21957v1 (预印本) PDF 链接: https://arxiv.org/pdf/2510.21957v1.pdf
2. 整体概括
2.1. 研究背景与动机
勒索软件 (Ransomware) 已迅速成为网络安全领域最普遍的威胁之一。它通过加密受感染机器上的文件并要求赎金来解密,给个人和组织造成了巨大的经济损失。例如,近期研究表明全球勒索软件相关的损失已超过 6 万亿美元,这凸显了对高效防御框架的迫切需求。
与传统恶意软件 (malware) 相比,勒索软件具有更强的威胁性,原因在于其隐蔽性 (stealth) 和对即时响应 (urgency for immediate response) 的要求。典型的勒索软件攻击包括两个主要阶段:
-
隐蔽初始化阶段 (stealthy initialization phase): 恶意软件进行自身注册、加载加密算法。这个阶段的行为通常与良性程序 (benign programs) 相似,使得早期检测变得特别困难。
-
感染阶段 (infection phase): 加密过程开始并在几毫秒内造成损害。即使被检测并终止,勒索软件可能已经加密了关键文件,造成不可逆转的损害。
此外,现代勒索软件通过混淆 (obfuscation)、代码变形 (code morphing) 和逻辑伪装 (logic camouflage) 不断演变,产生能够逃避传统检测器的复杂变种。
现有的勒索软件检测方法,无论是传统的静态分析 (static analysis) 或动态分析 (dynamic analysis),还是新兴的基于机器学习 (Machine Learning, ML) 的方法,都存在各自的局限性:
- 传统静态分析: 计算效率高,但容易受到代码变形等规避攻击的影响,导致可靠性差。
- 传统动态分析: 提供更丰富的行为上下文,但往往面临检测延迟问题,这在勒索软件攻击的快速进展下是不可接受的。
- 基于ML的方法: 虽然能够学习复杂的行为模式,但仍存在以下主要限制:
-
特设特征依赖 (Ad-hoc feature dependencies): 严重依赖手动选择的特征,限制了其泛化能力 (generalizability) 和对规避攻击 (evasion attacks) 的鲁棒性 (robustness)。
-
响应延迟 (Delayed response): 大多数模型仅为准确性 (accuracy) 而训练,没有明确惩罚检测延迟,降低了实际响应能力。
-
适应性有限 (Limited adaptability): 模型架构通常是静态设计的,限制了它们对未知勒索软件变种的适应能力。
因此,迫切需要一种能够克服这些挑战,实现低延迟、高鲁棒性并能适应快速演变的勒索软件威胁的检测框架。
-
2.2. 核心贡献/主要发现
本文旨在通过整合自监督对比学习和神经架构搜索 (NAS) 来解决现有勒索软件检测方法的局限性,实现了低延迟和自适应的勒索软件检测。主要贡献和发现可以总结如下:
- 提出结合硬件性能计数器 (HPC) 的对比学习框架: 设计了一个基于对比学习的框架,利用硬件性能计数器 (HPC) 来分析目标勒索软件的运行时行为。这实现了自动化特征工程 (automated feature engineering),避免了手动选择特设特征,从而提高了对规避攻击的抵御能力。
- 引入定制的延迟感知损失函数 (Latency-Aware Loss Function): 提出了一种创新的损失函数,明确鼓励恶意活动的早期检测,显著降低了检测延迟。这对于勒索软件场景至关重要,因为即使成功检测,高延迟也可能导致不可逆转的损害。
- 部署神经架构搜索 (NAS) 框架: 采用 NAS 自动构建自适应的模型架构,使检测器能够灵活地适应未知勒索软件变种。这解决了现有模型架构静态、缺乏适应性的问题。
- 实验验证卓越性能: 在对六种勒索软件变种的综合实验中,本文方法与现有方法相比,在以下方面取得了显著改进:
-
检测准确性 (Detection Accuracy): 平均准确率高达 95.9%,F1-score 达到 0.96,相较于基线方法有最高 16.1% 的提升。
-
鲁棒性 (Robustness): 在代码变形、延迟激活和逻辑重排序等规避攻击下,保持了稳定的高准确率,远优于基线方法。
-
检测延迟 (Detection Latency): 平均检测延迟低于 100 毫秒,比现有方法快达 6 倍,显著优于未包含延迟感知损失的消融模型。
-
适应性 (Adaptability): 在面对未知勒索软件变种时,展现出对灾难性遗忘 (catastrophic forgetting) 的强韧性,并在保留已学习知识的同时,以极低的重训练开销 (79.8秒) 快速适应新变种。
-
开销 (Overhead): 推理延迟低 (20.3ms/样本) 且内存占用小 (19.0MB),表明其适用于实时和资源受限环境。
这些贡献共同构成了一个全面且高效的勒索软件检测解决方案,旨在应对勒索软件日益增长的复杂性和规避能力。
-
3. 预备知识与相关工作
本节将为读者提供理解本文方法所需的基础概念,并回顾勒索软件检测领域的相关工作,特别是基于机器学习的方法,以便更好地理解本文的创新点。
3.1. 基础概念
3.1.1. 勒索软件 (Ransomware)
勒索软件 (Ransomware) 是一种恶意软件 (malware),它通过加密受害者计算机上的文件或锁定整个系统来限制用户访问,然后要求受害者支付赎金 (通常是加密货币) 以换取解密密钥或系统访问权限。勒索软件通常通过钓鱼邮件、恶意网站下载或软件漏洞传播。
3.1.2. 静态分析 (Static Analysis) 与 动态分析 (Dynamic Analysis)
在网络安全领域,检测恶意软件主要有两种方法:
- 静态分析 (Static Analysis): 在不执行程序代码的情况下,通过检查程序文件(如可执行文件、源代码)来识别恶意行为。这包括分析文件头、代码结构、字符串、导入/导出函数等。优点是效率高、不会触发恶意行为;缺点是容易被代码混淆 (code obfuscation)、打包 (packing) 等技术规避。
- 动态分析 (Dynamic Analysis): 通过在受控环境中(如沙箱)执行程序,监控其运行时行为来识别恶意活动。这包括文件操作、注册表修改、网络通信、API 调用、内存活动等。优点是能够捕获实际的恶意行为,对混淆技术有较强的鲁制性;缺点是可能引入检测延迟,且需要特定的执行条件才能触发所有恶意行为。
3.1.3. 机器学习 (Machine Learning, ML) 与 人工智能 (Artificial Intelligence, AI)
- 人工智能 (Artificial Intelligence, AI): 是一门研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的综合性学科。它旨在让机器像人一样思考和行动。
- 机器学习 (Machine Learning, ML): 是人工智能的一个子领域,它让计算机系统能够通过数据学习,而无需进行明确的编程。机器学习算法通过识别数据中的模式来建立模型,并利用这些模型对新数据进行预测或决策。
3.1.4. 对比学习 (Contrastive Learning)
对比学习 (Contrastive Learning) 是一种自监督学习 (self-supervised learning) 方法,其核心思想是学习如何区分相似和不相似的数据样本。它通过构建“正样本对”和“负样本对”来训练模型:
-
正样本对 (Positive Pairs): 指的是在语义上相似的两个样本(例如,同一图像经过不同数据增强后的两个版本,或同一类别的不同实例)。模型的目标是使这些样本在特征空间 (feature space) 中彼此靠近。
-
负样本对 (Negative Pairs): 指的是在语义上不相似的两个样本(例如,来自不同类别的图像,或同一类但被认为是噪声的样本)。模型的目标是使这些样本在特征空间中彼此远离。
通过这种方式,对比学习训练一个编码器 (encoder) 来提取有意义的特征表示,这些表示能够捕捉数据内在的判别性信息,而无需人工标注。
如图 2 所示,给定一个锚点输入 ,一个正样本 通过数据增强生成,一个负样本 从不同类别中选择。模型学习一个特征表示,使得锚点 和正样本 之间的距离最小化,而锚点 和负样本 之间的距离最大化。
3.1.5. 神经架构搜索 (Neural Architecture Search, NAS)
神经架构搜索 (Neural Architecture Search, NAS) 是一种自动化机器学习 (AutoML) 技术,旨在自动设计和优化神经网络的架构,而不是依靠人工专家进行手动设计。传统上,设计高效的神经网络架构是一项耗时且需要专业知识的任务。NAS 通过算法自动探索一个预定义的搜索空间,寻找在特定任务上表现最佳的模型架构。这有助于在给定计算预算下发现更优的架构,并提高模型的适应性。
3.1.6. 硬件性能计数器 (Hardware Performance Counters, HPC) 与 嵌入式跟踪缓冲区 (Embedded Trace Buffers, ETB)
- 硬件性能计数器 (Hardware Performance Counters, HPC): 是集成在现代处理器中的一组特殊硬件寄存器,用于实时监控处理器内部的各种事件,如指令执行次数、缓存命中/未命中、分支预测错误、内存访问模式等。HPC 能够提供非常细粒度的运行时行为数据,且对被监控程序的性能影响极小。
- 嵌入式跟踪缓冲区 (Embedded Trace Buffers, ETB): 是一种硬件调试和跟踪组件,常见于嵌入式系统和片上系统 (SoC) 中。ETB 能够无侵入性地捕获处理器在执行过程中的控制流转换、内存访问和低级指令行为等实时数据,并将这些数据存储在内部缓冲区中。通过 ETB 收集的轨迹 (traces) 可以用于深入分析程序的运行时行为,而不会引入软件插桩 (software instrumentation) 带来的延迟和噪声。
3.1.7. 循环神经网络 (Recurrent Neural Network, RNN) 与 门控循环单元 (Gated Recurrent Unit, GRU)
- 循环神经网络 (Recurrent Neural Network, RNN): 是一种专门处理序列数据(如时间序列、文本、语音)的神经网络。与传统神经网络不同,RNN 具有内部循环结构,允许信息在网络中持久化,使其能够利用序列中的先前信息来影响当前输出。
- 门控循环单元 (Gated Recurrent Unit, GRU): 是一种 RNN 的变体,由 Cho 等人于 2014 年提出。它引入了“门”机制(更新门和重置门),以更好地控制信息流,从而有效解决了传统 RNN 中梯度消失 (vanishing gradient) 和梯度爆炸 (exploding gradient) 的问题,使其能够学习长序列依赖关系。GRU 比另一种流行的 RNN 变体长短期记忆网络 (Long Short-Term Memory, LSTM) 更轻量级,参数更少,计算成本更低,但通常能达到相似的性能。
3.1.8. 动态时间规整 (Dynamic Time Warping, DTW)
动态时间规整 (Dynamic Time Warping, DTW) 是一种用于测量两个时间序列之间相似性的算法,即使这两个序列在时间轴上存在“扭曲”或非线性变形。DTW 寻找两个序列之间的最佳匹配路径,最小化它们之间的累积距离。它尤其适用于处理长度不相等、或者相同模式在不同序列中出现时间点不同的情况。在本文中,DTW 用于对齐勒索软件的运行时轨迹,从而克服时间扭曲和模式错位的问题。
3.2. 前人工作
在勒索软件检测领域,前人工作主要分为静态分析和动态分析两大类,且随着机器学习的兴起,这两类方法也逐渐融入了 ML 技术。
3.2.1. 基于 ML 的静态分析 (ML-based Static Analysis)
这类方法在程序执行前检查勒索软件的代码或可执行文件,利用机器学习模型识别可疑特征。
- Lee et al. [2]: 提出了一个基于多层感知机 (Multilayer Perceptron, MLP) 的方法,通过分析文件头信息来检测勒索软件签名 (signatures)。
- 其他 ML 模型应用: 类似的静态分析方法也尝试使用了 k-最近邻 (k-Nearest Neighbors, KNN) [4]、深度神经网络 (Deep Neural Networks, DNN) [5] 和强化学习 (Reinforcement Learning) [6]。 局限性: 静态分析方法常因良性程序与勒索软件共享相似模式(如磁盘加密工具)而导致高误报率 (false positive rates)。此外,高级攻击者可以通过代码变形 (code morphing) 等混淆技术绕过基于签名的检测器。
3.2.2. 基于 ML 的动态分析 (ML-based Dynamic Analysis)
这类方法在程序运行时监控其行为,以识别恶意操作。
- Herrera et al. [7]: 开发了一个动态勒索软件检测框架,使用随机森林 (random forests) 模型基于手动选择的特征识别可疑活动。
- Gulmez et al. [8] (XRan): 提出了一个可解释的深度学习 (explainable deep learning-based) 勒索软件检测系统
XRan,用于分析时间模式 (temporal patterns) 以提高检测准确性。 - Yang et al. [9]: 提出了一种基于对比学习的 Android 恶意软件检测和分类方法。 局限性: 尽管动态分析提供了有前景的检测性能,但大多数方法未能考虑检测延迟 (detection latency)。在勒索软件攻击的背景下,即使成功检测,延迟也可能导致不可逆转的损害。此外,许多方法仍依赖于手动工程特征,限制了对新变种的适应性。
3.3. 技术演进
勒索软件检测的技术演进大致经历了以下阶段:
-
早期传统方法: 主要依赖静态签名匹配和基于规则的动态行为监控。这些方法简单高效,但易被混淆和变形技术规避。
-
基于机器学习的早期尝试: 随着机器学习的兴起,研究者开始尝试利用其强大的模式识别能力。早期工作多集中在利用监督学习模型 (supervised learning models) 对手动提取的特征进行分类,这在一定程度上提升了检测能力,但仍受限于特征工程的挑战。
-
深度学习的引入: 深度学习模型(如 RNN、LSTM)能够自动从原始数据中学习更复杂的特征,提升了对动态行为模式的捕捉能力。然而,多数模型仍侧重于准确性,而忽略了实时性和适应性的需求。
-
本文所处阶段(自监督学习与自动化架构): 本文的工作代表了勒索软件检测领域的一个新趋势,即利用自监督学习(特别是对比学习)来解决Thinking...
Beginning the Assessment
I'm starting to dissect the user's instructions. My initial focus is on the expectations – the specific role of research assistant and the need for a detailed analysis of the given paper. I understand the importance of adhering to the structure and guidelines provided.
Evaluating the Framework
I'm now carefully examining the proposed analysis framework. I'm focusing on the structure – ensuring each section is clear and logically sound, and that the order of the steps supports a comprehensive review of the paper. I'll need to adapt my approach to fit the given framework effectively.
Structuring the Analysis
I've started organizing the information into the pre-defined sections. I'm focusing on "Paper Basic Information," diligently extracting details like the title, authors, affiliations, and the abstract. Following that, I'm already summarizing the core contributions and key findings to capture the essence of the work effectively.
Deep Diving into the Paper
I'm now fully immersed in the core methodology section. I am focused on the four key components: data collection, the contrastive learning encoder, the NAS-guided classifier, and the real-time detection and rollback mechanism. I'm taking detailed notes and preparing to provide a rigorous, in-depth explanation of each element.
Delving Into the Details
I am now focusing on the 'Methodology' section, and will take extreme care. I've begun to break down each element. I'm carefully double-checking the figures and making a note of any discrepancies in their numbers relative to the provided text. I will provide accurate descriptions with formulas.
Expanding Methodology Breakdown
I'm now fully immersed in the methodology. I've successfully mapped the core components and their relationships. I am delving into the "Hardware-assisted data collection" section, ensuring the descriptions of ETBs and windowing align with the provided figures. I'm taking detailed notes on the RNN architecture and am now focused on the DTW formulas and symbols.
Synthesizing the Goals
I'm now fully immersed in understanding the overall plan. I've broken down each section and component. I've meticulously reviewed the provided analysis framework and know precisely what the user expects from the finished report. My focus will be on the "Methodology" section and will prioritize accuracy.
Refining the Approach
I'm now fully immersed in the methodology section, prepared to begin writing. I'll adhere meticulously to the order of operations outlined, with a clear focus on the formula details. I understand the user's expectations for a comprehensive, accurate analysis of this core content.
Reviewing the Project Plan
I've reviewed the overall plan. I'll meticulously follow the steps outlined, starting with basic information and moving through the core methodology. I'll ensure I present a thorough, precise, and well-structured analysis, paying close attention to formulas and figure references.
Finalizing the Methodology
I'm synthesizing the entire methodology. I've broken down each part, including equations and figures. I'm prioritizing the detailed descriptions, and ensuring the provided formulas and notations are accurately transcribed. I'm preparing to begin the final synthesis of the paper's core ideas.
Beginning Formulation of the Plan
I'm now fully immersed in understanding the user's requirements. I've begun to outline the project's key steps, which will serve as my roadmap. I will carefully adhere to the specified structure and framework, ensuring a comprehensive and detailed analysis.
Finalizing the Outline
I have carefully read and distilled the requirements and the paper. I've now constructed a detailed outline encompassing all sections and sub-sections, along with the precise formulas, figures, and key findings. I'm ready to proceed with a focused, methodical analysis.
Commencing Detailed Examination
I'm now fully immersed in understanding the user's requirements. I'm focusing on the overall project plan, and meticulously reviewing the detailed outline provided, ensuring each component and section is clear, concise, and accurately described.
1. 论文基本信息
1.1. 标题
论文标题为:Towards Low-Latency and Adaptive Ransomware Detection Using Contrastive Learning(利用对比学习实现低延迟自适应勒索软件检测)。
1.2. 作者
论文作者包括:
- Zhixin Pan:佛罗里达州立大学 (Florida State University) 工程学院。
- Ziyu Shu:石溪大学 (Stony Brook University) 放射肿瘤学系。
- Amberbir Alemayoh:佛罗里达州立大学 (Florida State University) 工程学院。(根据提供的邮箱地址
studenti.univr.it,可能也与维罗纳大学 (University of Verona) 有关联。)
1.3. 发表期刊/会议
论文目前作为预印本 (Preprint) 发表在 arXiv 平台,尚未明确指出所属的期刊或会议。arXiv 是一个广泛用于分享物理学、数学、计算机科学等领域研究论文的开放获取平台,其论文通常在正式发表前在此发布,因此在相关领域具有较高的可见度。
1.4. 发表年份
根据 Published at (UTC):2025-10-24T18:33:52.000Z,论文发表于 2025年。
1.5. 摘要
勒索软件 (Ransomware) 因其快速演变、早期检测的必要性以及日益增长的多样性,已成为网络安全领域的关键威胁,对传统检测方法构成了重大挑战。虽然现有研究提出了基于人工智能 (AI) 的方法来辅助勒索软件检测,但这些方法存在三个主要局限性:特设的特征依赖性 (ad-hoc feature dependencies)、延迟响应 (delayed response) 以及对未知变体适应性有限 (limited adaptability to unseen variants)。本文提出了一种框架,该框架将自监督对比学习 (self-supervised contrastive learning) 与神经架构搜索 (Neural Architecture Search, NAS) 相结合,以解决这些挑战。具体而言,本文提供了三项重要贡献:(1) 设计了一个结合硬件性能计数器 (Hardware Performance Counters, HPC) 来分析目标勒索软件运行时行为的对比学习框架。(2) 引入了一个定制的损失函数 (customized loss function),鼓励早期检测恶意活动,并显著降低检测延迟。(3) 部署了一个神经架构搜索 (NAS) 框架,自动构建自适应模型架构,使检测器能够灵活地适应未知勒索软件变体。实验结果表明,与现有方法相比,本文提出的方法在检测准确性(高达16.1%)和响应时间(高达6倍)方面均取得了显著改进,同时在规避性攻击 (evasive attacks) 下仍保持鲁棒性。
1.6. 原文链接
- 原文链接 (arXiv abstract): https://arxiv.org/abs/2510.21957v1
- PDF 链接 (arXiv PDF): https://arxiv.org/pdf/2510.21957v1.pdf
- 发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
勒索软件已迅速发展成为网络安全领域最普遍的威胁之一。它通过加密受感染机器上的文件并索要赎金,造成巨大的经济损失。根据近期研究,全球勒索软件相关的损失已超过6万亿美元,这凸显了建立高效防御框架的紧迫性。
与传统恶意软件相比,勒索软件的隐蔽性和对即时响应的迫切需求使其构成更大的威胁。勒索软件攻击通常包括两个主要阶段:一个隐蔽的初始化阶段,用于注册自身并加载加密算法;以及一个感染阶段,其中加密操作在极短时间内(毫秒级)开始并造成损害。初始化阶段的行为通常与良性程序相似,这使得早期检测异常困难。同时,加密阶段进展极快,即使被检测并终止,勒索软件可能已经加密了关键文件,造成不可逆转的损害。此外,现代勒索软件通过混淆 (obfuscation)、代码变形 (code morphing) 和逻辑伪装 (logic camouflage) 不断演变,产生能够规避传统检测器的复杂变体。
传统的检测方法,如静态分析和动态分析,都存在局限性。静态分析虽计算效率高,但容易受到代码变形等规避性攻击的影响,导致可靠性差。动态分析虽然提供了更丰富的行为上下文,但往往面临检测延迟,这对于勒索软件攻击的特性而言是不可接受的。
近年来,基于机器学习 (Machine Learning, ML) 的勒索软件检测方法虽然取得了可喜的进展,但仍存在以下主要局限性:
-
特设特征依赖 (Ad-hoc feature dependencies): 它们严重依赖手动选择的特征,这限制了其泛化能力和对规避性攻击的鲁棒性。
-
延迟响应 (Delayed response): 大多数模型仅为提高准确性而训练,没有明确惩罚检测延迟,从而降低了其实时响应能力。
-
有限的适应性 (Limited adaptability): 所使用的架构通常是静态设计的,限制了它们对未知勒索软件变体的适应能力。
鉴于这些挑战,本文旨在提出一种能够实现低延迟、高适应性的勒索软件检测框架。
2.2. 核心贡献/主要发现
本文提出了一种新颖的框架,集成了对比学习 (contrastive learning) 和神经架构搜索 (Neural Architecture Search, NAS),以实现低延迟和自适应的勒索软件检测。主要贡献包括:
-
基于对比学习的特征工程 (Contrastive Learning for Feature Engineering): 设计了一个结合硬件性能计数器 (Hardware Performance Counters, HPC) 的对比学习框架,用于分析目标勒索软件的运行时行为。这实现了自动化特征工程,摆脱了对特设特征选择的依赖,并提高了对规避性攻击的抵抗力。
-
延迟感知检测损失 (Latency-Aware Detection Loss): 引入了一个定制的训练目标,鼓励勒索软件的早期检测,从而显著降低了检测延迟。
-
NAS 引导的模型自适应性 (NAS-Guided Model Adaptability): 部署了一个神经架构搜索 (NAS) 框架,自动发现为特定任务量身定制的富有表现力的模型结构,同时保持适应未知勒索软件变体的灵活性。
实验结果表明,本文提出的方法:
- 在检测准确性方面取得了显著提升(平均高达 95.9%,最高提升 16.1%)。
- 在响应时间方面显著缩短(平均检测延迟小于 100 毫秒,相比现有方法最高快 6倍)。
- 在规避性攻击下保持了强大的鲁棒性。
- 对未知勒索软件变体具有出色的适应性,且再训练开销极低(仅需 79.8秒)。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 勒索软件 (Ransomware)
勒索软件是一种恶意软件,它会阻止用户访问其系统或数据,通常通过加密文件,然后要求支付赎金以恢复访问。
- 初始化阶段 (Initialization Phase): 勒索软件启动后的早期阶段。在此阶段,它通常会执行一些隐蔽的操作,例如注册自身以实现持久性(即在系统重启后也能自动运行)、加载加密算法库、定位目标文件等。这一阶段的行为可能与许多良性程序相似,使得早期检测变得困难。
- 感染阶段 (Infection Phase): 在初始化之后,勒索软件开始执行其核心恶意功能,即数据加密。这个阶段通常进展迅速,对用户文件造成实际损害。
3.1.2. 静态分析 (Static Analysis) 与 动态分析 (Dynamic Analysis)
这是恶意软件检测领域的两种主要方法:
- 静态分析 (Static Analysis): 在程序执行之前检查其可执行文件或源代码。它通过分析代码结构、字符串、导入库等来识别恶意特征。
- 优点: 计算效率高,无需运行程序。
- 缺点: 容易被混淆 (obfuscation)、代码变形 (code morphing) 等技术规避,因为这些技术会改变程序的静态外观而不改变其运行时行为。
- 动态分析 (Dynamic Analysis): 在程序运行时监控其行为,以识别恶意活动。它通常在沙盒 (sandbox) 环境中执行程序,并记录文件访问、内存活动、注册表修改、网络通信等行为。
- 优点: 能够捕获程序在实际执行时的真实行为,更难被混淆技术规避。
- 缺点: 引入检测延迟,且需要资源来运行程序。对于勒索软件,即使成功检测,也可能因延迟而造成部分数据损坏。
3.1.3. 硬件性能计数器 (Hardware Performance Counters, HPC) 与 嵌入式跟踪缓冲区 (Embedded Trace Buffers, ETBs)
- 硬件性能计数器 (HPC): 是现代处理器中内置的一组特殊寄存器,用于记录处理器在执行程序时发生的各种硬件事件,例如指令执行次数、缓存命中/未命中、分支预测错误、内存访问模式等。这些计数器可以提供非常精细和低开销的系统运行时行为信息。
- 嵌入式跟踪缓冲区 (ETBs): 是一种硬件调试和监控组件,通常集成在微控制器或系统芯片 (System-on-Chip, SoC) 中。它们能够以极低的开销捕获处理器执行流的实时轨迹,包括指令地址、数据访问等。ETBs 能够 unobtrusively(不引人注意地)监控程序执行,而不会显著影响程序的性能,这对于需要实时、精确行为数据的动态分析至关重要。
3.1.4. 对比学习 (Contrastive Learning)
对比学习是一种自监督学习 (Self-Supervised Learning, SSL) 方法,旨在学习数据的高质量表示(特征嵌入)。它的核心思想是:将相似的数据样本在特征空间中拉近,将不相似的数据样本推远。
-
自监督学习 (Self-Supervised Learning): 一种机器学习范式,模型通过从数据本身生成监督信号来学习,而无需人工标注。对比学习是其一个重要分支。
-
锚点 (Anchor): 输入数据中的一个样本 。
-
正样本 (Positive Sample): 与锚点 语义相似的样本 。通常通过对 进行数据增强 (data augmentation) 获得,或从同一类别中选择另一个样本。
-
负样本 (Negative Sample): 与锚点 语义不相似的样本 。通常从不同类别中选择。
-
编码器 (Encoder): 一个神经网络模型(如本文中的 RNN),负责将原始输入数据映射到低维的特征空间,产生特征嵌入 (feature embedding)。
-
距离函数 (Distance Function): 用于衡量特征空间中两个嵌入向量之间相似度或不相似度的函数。
-
学习目标: 训练编码器,使
anchor与positive样本之间的距离最小化,同时使anchor与negative样本之间的距离最大化。下图(原文 Figure 2)展示了对比学习的基本框架:
该图像是一个示意图,展示了对比学习的基本框架。给定锚点输入,通过数据增强生成正样本,并从不同类别选择负样本。模型学习特征表示,使得距离最小化,距离最大化。
图 2 描述了对比学习的典型流程:给定一个锚点输入 ,通过数据增强生成一个正样本 ,同时从不同类别中选择一个负样本 。模型通过一个共享的编码器学习它们的特征表示,然后使用距离函数衡量这些表示之间的相似性。训练目标是使锚点与正样本之间的距离 最小化,同时使锚点与负样本之间的距离 最大化。
3.1.5. 循环神经网络 (Recurrent Neural Networks, RNNs) 与 门控循环单元 (Gated Recurrent Units, GRUs)
- 循环神经网络 (RNNs): 一种专门设计用于处理序列数据(如时间序列、文本)的神经网络。它通过内部的循环结构,使得当前时间步的输出不仅依赖于当前输入,还依赖于之前时间步的隐藏状态,从而能够捕捉序列中的时间依赖关系。
- 门控循环单元 (GRUs): 是一种 RNN 的变体,由 Cho 等人于2014年提出。与长短期记忆网络 (Long Short-Term Memory, LSTM) 类似,GRUs 通过引入“门”机制(更新门
update gate和重置门reset gate)来解决传统 RNN 中梯度消失和梯度爆炸问题,从而更好地学习长距离依赖。GRUs 相较于 LSTMs 更为轻量,参数更少,计算效率更高。
3.1.6. 动态时间规整 (Dynamic Time Warping, DTW)
动态时间规整 (DTW) 是一种算法,用于衡量两个不同长度的时间序列之间的相似性。它通过“弯曲”或“拉伸”一个序列的时间轴,以找到一个最佳的匹配路径,使得两个序列之间的累积距离最小化。这使得 DTW 能够鲁棒地处理时间序列中的局部拉伸或压缩,例如,在语音识别中处理语速变化,或在本文中处理勒索软件行为中的时间扭曲。
-
优点: 能够处理不同长度的序列;对时间上的扭曲或偏移具有鲁棒性;可以实现部分对齐。
-
算法原理: 基于动态规划 (Dynamic Programming, DP) 思想,构建一个代价矩阵 (cost matrix),然后找到从矩阵左下角到右上角的最小累积代价路径。
下图(原文 Figure 5)展示了 DTW 算法的原理:
该图像是一个示意图,展示了动态时间规整(DTW)算法的工作原理。左侧通过红色箭头表示两个序列元素之间的局部对应关系,右侧展示了累计代价矩阵及其最优路径。
图 5 直观地展示了 DTW 算法如何通过动态规划找到两个时间序列之间的最优匹配路径。右侧的累积代价矩阵 显示了如何计算最小累积距离,而左侧的红色双向箭头则表示了根据最优路径确定的序列元素之间的局部对应关系,即使存在时间上的错位。
3.1.7. 神经架构搜索 (Neural Architecture Search, NAS)
神经架构搜索 (NAS) 是一种自动化设计神经网络(例如,确定层数、每层的神经元数量、连接方式、激活函数等)的技术。它的目标是找到在特定任务上表现最佳的模型架构,而无需人工专家进行繁琐的手动设计。
-
一键式搜索范式 (One-shot Search Paradigm): NAS 中的一种高效策略。它首先构建一个包含所有可能架构的“超网络” (Supernet)。然后,通过对超网络进行一次性训练,并在此过程中评估其子网络(即各种可能的架构),最终通过剪枝 (pruning) 或其他搜索策略,从中选择出性能最优的子网络。这种方法显著减少了搜索时间。
-
超网络 (Supernet): 一个大型的、包含所有候选操作和连接的神经网络,它代表了整个搜索空间。
-
剪枝 (Pruning): 一种模型压缩技术,通过移除神经网络中不重要或冗余的连接、神经元或层,以减小模型大小和计算量,同时尽量不影响性能。本文中是基于梯度的剪枝,用于移除超网络中“不重要”的组件。
下图(原文 Figure 6)展示了 NAS 的一键式搜索工作流:
该图像是一幅示意图,展示了图6中的一键式神经架构搜索(NAS)流程。图中从一个大型Supernet开始,通过基于梯度的剪枝逐步移除不重要的路径,最终形成轻量化的下游分类器架构。
图 6 描绘了一键式 NAS 的工作流程,从一个大型的超网络开始,通过基于梯度的剪枝技术移除重要性较低的路径,最终形成一个轻量化且性能优异的下游分类器架构。
3.1.8. 主成分分析 (Principal Component Analysis, PCA)
主成分分析 (PCA) 是一种常用的降维技术。它通过线性变换将原始数据投影到一组新的正交坐标轴上,这些轴被称为主成分。第一个主成分捕获数据中最大的方差,第二个主成分捕获次大的方差,以此类推。PCA 的主要目的是在保留数据大部分信息的同时,减少数据的维度,以便于可视化或后续处理。
3.2. 前人工作
本文将现有 ML 勒索软件检测方法分为静态分析和动态分析两大类,并简要回顾了相关工作:
-
静态分析 (Static Analysis):
- Lee et al. [2]: 提出了基于多层感知器 (Multilayer Perceptron, MLP) 的方法 [3] 来从文件头检测勒索软件签名。
- 其他 ML 模型如 k-近邻 (KNN) [4]、深度神经网络 (DNN) [5] 和强化学习 (Reinforcement Learning, RL) [6] 也被应用于此类方法。
- 局限性: 容易产生高误报率 (false positive rates),因为良性程序可能也表现出类似勒索软件的模式(例如磁盘加密工具);容易被代码混淆等技术规避。
-
动态分析 (Dynamic Analysis):
- Herrera et al. [7]: 开发了一个动态勒索软件检测框架,使用随机森林 (Random Forests) 基于手动选择的特征识别可疑活动。
- Gulmez et al. [8]: 提出了 XRan,一个可解释的深度学习 (Deep Learning, DL) 勒索软件检测系统,用于分析时间模式以提高检测准确性。
- 局限性: 大多数方法未能将检测延迟考虑在内,导致即使成功检测后仍可能发生不可逆的损害;许多方法依赖手动特征工程,难以适应新变体;模型架构通常固定,缺乏适应性。
-
基于对比学习的勒索软件检测:
- Yang et al. [9]: 曾有研究将对比学习应用于勒索软件检测,但其设计与 Android 平台特定的功能(如系统调用模式和移动应用行为)紧密耦合,限制了其对其他平台的泛化能力。
3.3. 技术演进
勒索软件检测技术从早期的基于规则和签名匹配的静态分析,演进到监控运行时行为的动态分析。随着机器学习的兴起,研究人员开始利用 ML 算法从复杂的行为模式中学习,以提高检测性能。然而,这些 ML 方法普遍面临特征工程的挑战、延迟响应问题以及对新变体的适应性不足。本文的工作旨在通过引入自监督对比学习实现自动化特征工程,通过定制损失函数解决延迟问题,并利用 NAS 克服模型适应性差的局限性,从而将勒索软件检测技术推向更低延迟和更强自适应性的方向。
3.4. 差异化分析
本文的方法与现有工作相比,核心区别和创新点在于:
- 自动化特征工程与规避鲁棒性: 现有方法多依赖手动设计的特征,容易受规避技术(如代码混淆)影响。本文通过结合
HPC数据的对比学习,实现特征的自动提取,使得模型对表面层面的混淆不那么敏感,从而提高了对规避性攻击的鲁棒性。 - 明确优化检测延迟: 大多数动态分析方法仅优化准确性,忽略了勒索软件检测中至关重要的早期响应。本文引入了一个
Latency-Aware Loss,明确惩罚检测延迟,鼓励模型在恶意活动早期阶段即进行预测,显著降低了响应时间。 - 自适应模型架构: 传统方法使用静态模型架构,难以适应快速演变的勒索软件家族。本文利用
NAS框架自动构建下游分类器,使其能够灵活地适应未知变体,并支持轻量级的再训练以快速适应新出现的威胁。 - DTW 处理时间序列扭曲: 在特征提取中引入
DTW,使得模型能够有效处理勒索软件在时间域上的模式偏移(例如,注入延迟或逻辑重排),确保即使在行为被故意扭曲的情况下也能识别核心恶意行为。 - 硬件辅助数据收集: 相比软件插桩引入的延迟和噪声,本文利用
ETBs进行硬件辅助数据收集,以更低的开销和更高的精度获取实时程序执行轨迹。
4. 方法论
本文提出了一种新颖的框架,集成了对比学习和神经架构搜索 (NAS),以实现低延迟且自适应的勒索软件检测。该框架主要由一个上游编码器 (upstream encoder) 和一个下游分类器 (downstream classifier) 组成。
4.1. 方法原理
本文的核心思想是结合硬件辅助的数据收集、自监督对比学习、延迟感知损失函数以及神经架构搜索,以克服现有勒索软件检测方法在特征依赖、检测延迟和模型适应性方面的局限性。通过 ETBs 收集精细的运行时行为轨迹,利用对比学习的 RNN 编码器自动提取鲁棒的特征表示,并通过 DTW 处理时间序列的变长和扭曲。Latency-Aware Loss 促使模型尽早识别恶意活动。最后,NAS 自动生成和优化分类器架构,确保其对新变体的适应性。
4.2. 核心方法详解
4.2.1. 硬件辅助数据收集 (Hardware-assisted data collection)
为了解决静态分析的局限性以及动态分析的延迟问题,本文采用了硬件辅助的数据收集策略。
-
数据来源: 使用嵌入式跟踪缓冲区 (Embedded Trace Buffers, ETBs) 对程序执行进行无侵入式 (unobtrusively) 监控。
ETBs捕获的原始轨迹 (raw traces) 包含控制流转换、内存访问模式和低级指令行为等精细信号。这些信号对于识别勒索软件感染过程中的阶段转换和异常加密活动至关重要。 -
输入特征: 这些轨迹直接从原始程序执行中捕获,反映了内在行为特性,而非手动设计的特征。这使得框架能够抵抗代码变形等规避技术。
-
序列化处理: 连续的轨迹流被分割成固定大小的滑动窗口 (sliding windows)。每个窗口封装了一个短时间活动段,同时保留了时间结构。这种窗口机制确保了与循环神经网络 (RNNs) 等序列模型的兼容性,并支持实时和批处理。
下图(原文 Figure 4,对应提供的图片
images/3.jpg)展示了硬件辅助的轨迹窗口化过程:
该图像是一个示意图,展示了循环神经网络(RNN)展开过程与嵌入式跟踪缓冲区(ETBs)采集执行轨迹的矩阵表示。ETBs轨迹被分割为固定大小的滑动窗口,输入RNN后产生隐藏状态 。
图 4 详细描绘了硬件辅助的轨迹窗口化过程。通过 ETBs 收集到的执行轨迹被组织成一个矩阵,其中行对应不同的缓冲区槽位,列代表时钟周期。连续的轨迹流被分割成一系列固定大小的滑动窗口 ,每个窗口代表一个短暂的时间序列。这些窗口随后被顺序地送入一个循环神经网络 (RNN),由其将每个输入窗口编码成相应的隐藏表示 。
4.2.2. 基于对比学习的上游编码器 (Contrastive learning based upstream encoder)
上游编码器负责从 ETB 派生的序列中提取有意义的特征表示。
-
编码器架构: 采用一个三层 门控循环单元 (Gated Recurrent Unit, GRU),它是一种轻量级的
RNN变体,用于从时间序列数据中提取特征。- 对于每个输入轨迹 ,它被顺序地输入到
GRU中,生成对应的隐藏状态序列 。其中,输出长度可能根据输入而变化。这些隐藏状态捕获了程序行为的时间演变,并作为输入的潜在表示。
- 对于每个输入轨迹 ,它被顺序地输入到
-
距离函数 (Distance Function): 为了衡量勒索软件检测中序列轨迹之间的相似性,并应对变长序列、在线检测和时间扭曲等挑战,本文采用 动态时间规整 (Dynamic Time Warping, DTW) 作为核心距离度量。
- 给定两个隐藏序列 和 ,
DTW首先计算一个代价矩阵 (cost matrix) ,其中每个元素D(p,q)表示 和 之间的平方距离。 - 然后,使用以下递归方程计算累积代价矩阵 (cumulative cost matrix) :
- 符号解释:
C(p,q): 在索引 和 处,两个序列之间匹配的最小累积代价。D(p,q): 在索引 和 处,两个序列元素 和 之间的局部代价(本文中使用平方距离)。C(p-1,q),C(p,q-1),C(p-1,q-1): 分别代表从左、下、左下三个方向到达当前单元格C(p,q)的累积代价,取三者中的最小值。
- 符号解释:
- 序列 和 之间的距离最终由沿 中最小化 的最优路径上的累积代价给出。本文将这个距离定义为:
- 符号解释:
- : 序列 和 之间的
DTW距离。 - : 累积代价矩阵右下角元素的值,代表最优路径上的总累积代价。
- , : 分别是序列 和 的长度。
- 和平方操作可能是为了规范化或放大距离差异,使其在损失函数中具有更好的表现。
- : 序列 和 之间的
- 符号解释:
- 给定两个隐藏序列 和 ,
-
训练损失 (Training Loss): 为了有效地训练对比学习框架,本文定义了一个由三个主要组件组成的混合损失函数 (hybrid loss function):
-
对比损失 (Contrastive Loss): 目标是使正样本对 在特征空间中靠近,同时推开负样本对 。
- 符号解释:
- : 配对对比损失。
- : 锚点程序
anchor program编码后的隐藏序列。 - : 正样本
positive sample编码后的隐藏序列。 - : 负样本
negative sample编码后的隐藏序列。 - : 上述定义的
DTW距离函数。 这个损失函数旨在最小化锚点与正样本之间的距离,并最大化锚点与负样本之间的距离。
- 符号解释:
-
类内聚类损失 (Intra-Class Clustering Loss): 为确保同一类别(良性或勒索软件)内程序的行为多样性也能被一致地映射,引入了聚类损失,以最小化特征空间中的类内方差。
- 符号解释:
- : 类内聚类损失。
- : 所有编码嵌入的集合。
- : 集合 中的一个编码嵌入。
- : 样本 所属类别 的质心 (centroid)。
- : 范数的平方,表示向量之间的欧氏距离的平方。
- : 类别 的质心。
- : 属于类别 的所有编码嵌入的集合。
- : 类别 中嵌入的数量。
- : 样本 的类别标签(0代表良性,1代表勒索软件)。 该损失项通过将同一类别的样本拉向其类别质心来减少类内变异,从而提高类别的可分离性。
- 符号解释:
-
延迟感知损失 (Latency-Aware Loss): 为了最小化检测延迟,引入了延迟惩罚项,鼓励良性轨迹和恶意轨迹之间的特征距离尽早出现分歧。
- 符号解释:
- : 延迟感知损失。
- : 在训练过程中,对于每对样本 ,
DTW代价超过预定义阈值 的最早时间步 (earliest timestep)。 - : 序列的总长度。 该损失项鼓励模型尽早在特征空间中触发有意义的分离。
- 符号解释:
最终,将上述组件结合成一个统一的整体目标函数:
- 符号解释:
- : 总损失函数。
- : 超参数,用于平衡每个损失组件的贡献。
-
4.2.3. NAS 引导的下游分类器 (NAS-guided Downstream Classifier)
编码器输出的特征嵌入被传递给一个下游分类器,该分类器执行最终的勒索软件检测。为了解决传统固定架构分类器对特定勒索软件类型过拟合以及难以适应未知变体的问题,本文采用神经架构搜索 (NAS) 策略。
-
NAS 过程: 遵循一键式搜索范式 (one-shot search paradigm),包含两个主要阶段:
- 超网络构建 (Supernet Construction): 构建一个多层超网络 (Supernet)。每层包含多个候选操作(例如,
GRUs、全连接层fully connected layers和非线性激活函数nonlinear activations)。这作为一个模型架构的通用搜索空间。 - 剪枝 (Pruning): 在训练超网络后,应用基于梯度的剪枝 (gradient-based pruning) 来移除冗余或性能不佳的组件,从而得到一个针对当前检测任务量身定制的紧凑而高性能的分类器架构。
- 超网络构建 (Supernet Construction): 构建一个多层超网络 (Supernet)。每层包含多个候选操作(例如,
-
快速适应 (Fast Adaptation): 在初始架构搜索和剪枝之后,该框架支持对新兴勒索软件变体的快速适应。通过在预训练的超网络中对选定的组件进行轻量级再训练 (lightweight retraining),而无需重新启动整个搜索过程,从而显著减少了再训练所需的时间和资源。
4.2.4. 实时检测与回滚 (Real-Time Detection and Rollback)
结合上游编码器和下游分类器,本文提出的框架在一个实时检测循环中运行:
- 连续监控: 运行时轨迹段以基于窗口的方式连续提取,并由编码器处理以提取时间嵌入 (temporal embeddings)。
- 分类与警报: 这些嵌入随后被传递给
NAS优化的分类器,一旦检测到勒索软件,就会发出警报。 - 缓解措施: 考虑到勒索软件在触发警报前可能已经部分加密了用户文件,框架集成了一个轻量级的系统级回滚机制 (system-level rollback mechanism)。
-
在每个滑动窗口期间,系统会监控被访问的文件,并使用
rsync等系统内置命令创建临时备份。 -
如果未检测到威胁,这些备份将被删除以减少内存开销。
-
如果确认恶意活动,则立即终止相关进程,并使用最新的备份恢复受影响的文件,从而实现对勒索软件攻击的即时缓解。
下图(原文 Figure 3,对应提供的图片
images/4.jpg)展示了本文提出的低延迟自适应勒索软件检测框架的整体概览:
该图像是一个示意图,展示了论文中用于低延迟且自适应勒索软件检测的对比学习框架。图中依次展示了数据收集、上游编码器的对比学习过程(包括RNNs、激活与距离测量),以及利用神经结构搜索(NAS)的下游分类器,最后用于缓解和恢复的任务流程。
-
图 3 展示了本文提出的集成对比学习与神经架构搜索的勒索软件检测框架。它涵盖了从硬件辅助数据收集(利用 ETBs 捕捉运行时行为)到上游编码器(通过 RNNs 和 DTW 进行对比学习和特征提取,并结合延迟感知损失进行训练),再到 NAS 引导的下游分类器进行预测,最终通过实时检测和回滚机制缓解攻击的全流程。
5. 实验设置
5.1. 数据集
- 实验环境: 实验在一个
Linux工作站上进行,用于评估检测准确性、鲁棒性、延迟和适应性。 - 勒索软件变体 (Ransomware Variants): 选择了六种勒索软件变体进行全面评估:
WannaCry、Locky、Cerber、Vipasana、Petya和Ryuk。 - 良性样本 (Benign Samples): 从
SPEC CPU基准测试套件 [15]、系统实用程序和常见的用户应用程序中收集。 - 数据收集:
ETB日志通过UART以 50 毫秒的间隔捕获。- 使用 500 毫秒的窗口大小来分割轨迹,以平衡响应性和系统开销。
- 数据规模: 总共收集了 2100 条程序轨迹,良性样本和恶意样本各占一半。
- 训练与测试配置: 针对每个评估目标(包括检测准确性、对抗性鲁棒性和对未知变体的适应性)定制了训练和测试配置。具体的数据集划分和任务特定设置在各自的小节中详细说明。
5.2. 评估指标
为了全面评估模型的性能,本文使用了以下评估指标:
-
准确率 (Accuracy, Acc):
- 概念定义: 衡量模型正确预测的样本占总样本数的比例。它反映了模型在所有分类任务上的整体表现。
- 数学公式:
- 符号解释:
TP(True Positives): 真实为正例,被模型预测为正例的样本数量。TN(True Negatives): 真实为负例,被模型预测为负例的样本数量。FP(False Positives): 真实为负例,被模型预测为正例的样本数量(误报)。FN(False Negatives): 真实为正例,被模型预测为负例的样本数量(漏报)。
-
精确率 (Precision, Prec):
- 概念定义: 衡量在所有被模型预测为正例的样本中,实际为正例的比例。它关注的是模型在预测正例时的准确性,减少误报。
- 数学公式:
- 符号解释:
TP: 真实为正例,被模型预测为正例的样本数量。FP: 真实为负例,被模型预测为正例的样本数量。
-
召回率 (Recall, Rec):
- 概念定义: 衡量在所有实际为正例的样本中,被模型正确预测为正例的比例。它关注的是模型识别出所有正例的能力,减少漏报。
- 数学公式:
- 符号解释:
TP: 真实为正例,被模型预测为正例的样本数量。FN: 真实为正例,被模型预测为负例的样本数量。
-
F1-分数 (F1-score, F1):
- 概念定义: 精确率和召回率的调和平均值。当需要平衡精确率和召回率时,F1-分数是一个有用的指标,尤其是在类别不平衡的数据集中。
- 数学公式:
- 符号解释:
-
: 精确率。
-
: 召回率。
此外,论文还评估了:
-
- 鲁棒性 (Robustness): 模型在面对规避性攻击(如代码变形、延迟激活、逻辑重排)时的性能表现。
- 检测延迟 (Detection Latency): 从勒索软件开始执行到模型发出警报所需的时间。
- 适应性 (Adaptivity): 模型对未知勒索软件变体的检测能力,以及在面对新变体时再训练的开销和对已学习知识的遗忘情况。
- 开销分析 (Overhead Analysis): 模型的训练时间、推理延迟和内存占用。
5.3. 对比基线
本文将提出的方法与以下几种现有方法进行了比较:
- SIA [16] (Static-Informed Analysis): 一种基于静态分析的方法,利用手工设计的签名 (handcrafted signatures) 和基于熵的启发式规则 (entropy-based heuristics) 进行检测。
- Ratafia [17]: 一种动态分析方法,利用基于
LSTM的自编码器 (autoencoders) 进行异常检测。它主要关注运行时行为,但依赖于手动设计的特征类型。 - SCL [18] (Supervised Contrastive Learning): 一种最近提出的用于勒索软件检测的监督对比学习框架。
5.4. 实现细节
- 框架: 使用
PyTorch实现。 - 硬件: 在一台配备 3.70GHz Intel Xeon CPU 和 128 GB RAM 的工作站上执行。
- 上游编码器 (Upstream Encoder): 使用
Adam优化器训练 400 个epochs,学习率为 0.001。 - 下游分类器 (Downstream Classifier): 训练 500 个
epochs,dropout比率为 0.3,以防止过拟合 (overfitting)。 - 数据划分: 采用 80/20 的训练-验证集划分,并应用交叉验证 (cross-validation) 以减少偏差。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 检测准确性 (Detection Accuracy)
以下是原文 Table I 的结果:
| Benchmark | SIA [16] | Ratafia [17] | SCL [18] | Proposed | ||||||||||||
| Ransomware | Acc | Prec | Rec | F1 | Acc | Prec | Rec | F1 | Acc | Prec | Rec | F1 | Acc | Prec | Rec | F1 |
| WannaCry | 82.1 | 74.2 | 85.5 | 0.79 | 88.2 | 87.0 | 89.1 | 0.88 | 93.4 | 91.2 | 95.1 | 0.93 | 96.3 | 95.5 | 97.0 | 0.96 |
| Locky | 79.4 | 70.0 | 83.2 | 0.76 | 84.5 | 83.1 | 86.8 | 0.85 | 92.8 | 89.4 | 96.0 | 0.93 | 95.8 | 94.8 | 96.7 | 0.96 |
| Cerber | 76.7 | 67.1 | 81.5 | 0.73 | 86.9 | 84.5 | 89.8 | 0.87 | 85.1 | 82.3 | 88.4 | 0.85 | 95.0 | 93.5 | 96.1 | 0.95 |
| Vipasana | 75.8 | 65.4 | 80.2 | 0.72 | 83.6 | 82.0 | 85.7 | 0.84 | 77.2 | 70.5 | 84.3 | 0.77 | 95.5 | 94.0 | 96.8 | 0.95 |
| Petya | 84.3 | 75.1 | 87.9 | 0.81 | 89.0 | 87.3 | 90.6 | 0.89 | 92.0 | 90.8 | 92.2 | 0.91 | 96.7 | 95.9 | 97.5 | 0.97 |
| Ryuk | 80.5 | 69.3 | 84.6 | 0.76 | 85.5 | 83.6 | 87.2 | 0.85 | 90.2 | 88.0 | 91.5 | 0.89 | 95.9 | 94.6 | 97.1 | 0.96 |
| Average | 79.8 | 70.2 | 83.8 | 0.76 | 86.3 | 84.6 | 88.2 | 0.86 | 88.4 | 85.4 | 91.3 | 0.87 | 95.9 | 94.7 | 96.9 | 0.96 |
- SIA [16]: 作为静态分析方法,其平均准确率 (Acc) 仅为
79.8%,平均精确率 (Prec) 仅为70.2%,表现最差。这归因于其对静态签名的依赖,容易导致高误报率。 - Ratafia [17]: 作为动态分析方法,其平均准确率提高到
86.3%。然而,它依赖于手动设计的特征,难以有效捕获勒索软件活动中细微的行为转换和长距离依赖,导致召回率 (Rec) 和 F1-分数 (F1) 表现次优。 - SCL [18]: 在某些变体(如
WannaCry、Locky、Petya)上表现出色,但存在较高变异性。例如,在Vipasana上准确率骤降至77.2%,与最高准确率的Petya(92.0%) 存在超过16%的差距。这种性能下降被归因于Vipasana独特的离线加密行为(不联系控制服务器),这与典型的勒索软件动态行为有所不同。 - Proposed (本文方法): 在所有基准测试中始终优于所有基线方法,实现了平均
95.9%的准确率和0.96的 F1-分数。本文将这种优越性能归因于对比自监督学习和NAS引导的架构优化。
6.1.2. 鲁棒性 (Robustness)
本文进一步评估了所有方法在规避性攻击下的鲁棒性。规避性攻击使用三种常见策略生成:
-
代码变形 (Code morphing): 注入语义冗余指令以模糊可识别模式。
-
延迟激活 (Delayed activation): 将加密例程推迟到较晚的执行阶段,以避免早期检测。
-
逻辑重排 (Logic reordering): 将看似良性的代码块与恶意逻辑交错,以破坏时间序列的完整性。
下图(原文 Figure 7,对应提供的图片
images/7.jpg)展示了在规避性勒索软件攻击下 20 次试验的准确率:
该图像是图7,展示了针对逃避型勒索软件攻击的不同方法在20次试验中的检测准确率。可以看出,所提出的方法在准确率上明显优于其他对比方法,保持在90%以上,体现了其较强的鲁棒性。
图 7 显示,所有三个基线方法在规避性攻击下都出现了显著的性能下降。
- SIA: 由于依赖静态签名,未能检测到变形或延迟的变体。
- Ratafia: 性能也急剧下降,表明其易受时间操纵的影响。
- SCL: 由于其特征学习能力,表现出略好的鲁棒性,但在逻辑重排下仍表现不一致。
- Proposed (本文方法): 在所有变体上保持了稳定的准确率,展示了强大的韧性。这种鲁棒性归因于:(1) 方法避免了手工特征,转而通过对比学习学习表示,使其对表面层面的混淆不敏感。(2) 使用硬件辅助运行时监控确保核心恶意行为无论如何都能被观察到。(3) 在特征提取过程中利用
DTW,可以对齐时间上错位的行为模式,从而抵御重排策略。
6.1.3. 特征提取 (Feature Extraction)
为了验证对比学习方法在自动化特征工程和泛化能力方面的优势,本文将本文方法学习到的特征表示与 Ratafia [17] 提取的特征表示进行了比较。Ratafia 也使用 RNN 进行编码,但依赖于手动定义的特征类型。
下图(原文 Figure 8,对应提供的图片 images/8.jpg)展示了使用 Ratafia(左图)和本文提出的对比学习方法(右图)对勒索软件变体进行潜在特征嵌入的可视化:
该图像是图表,展示了图8中使用Ratafia方法(左图)和本文提出的对比学习方法(右图)对不同勒索软件变体的潜在特征嵌入的三维可视化。右图显示新方法在特征分布上的更好聚类效果。
图 8 显示:
- Ratafia: 针对所有六种勒索软件变体生成的特征嵌入可视化后,
Ryuk和Vipasana等变体表现出松散分布和远离主要聚类的现象。这表明Ratafia在捕获跨变体的自适应勒索软件特征方面存在局限性,解释了其不稳定的分类性能。 - Proposed (本文方法): 通过对比学习方法生成的嵌入为所有六种勒索软件变体形成了紧凑的聚类。这表明本文方法能够有效地将勒索软件轨迹映射到特征空间中相近的位置,无论其变体特有的特性如何。这种结构良好的表示有助于框架的鲁棒性,并解释了前面实验结果中(表 I)所示的准确性提升。
6.1.4. 检测延迟 (Detection Latency)
检测延迟是勒索软件缓解中的另一个关键因素。
下图(原文 Figure 9,对应提供的图片 images/9.jpg)展示了不同方法在不同勒索软件变体上的平均检测延迟:
该图像是图表,展示了不同勒索软件变体的检测延迟对比(图9)。横轴为勒索软件变体,纵轴为检测延迟(毫秒)。图中显示提出的方法在所有变体中检测延迟均显著低于其他比较方法,特别是加入延迟损失函数后的性能提升明显。
图 9 显示:
- 由于
SIA是一种静态分析方法,其检测发生在程序执行之前,因此未包含在此比较中。 - 为了更好地说明延迟感知损失的贡献,本文还包含了本文方法的一个消融版本(未包含延迟感知损失)。
- 在所有评估方法中,Proposed (本文方法) 始终实现了最低的延迟,平均检测时间在 100 毫秒以内。这表明模型能够在感染过程的早期阶段及时发出警报,从而实现有效的缓解,并减少了文件备份操作的开销。
- 这种改进归因于训练过程中包含延迟感知损失 (latency-aware loss),它明确鼓励模型尽早进行预测。
- 如图所示,移除延迟感知损失组件会导致延迟显著增加(通常在 400 到 500 毫秒之间),证实了其在减少检测延迟方面的关键作用。
6.1.5. 适应性 (Adaptivity)
本文从两个关键角度评估了所有方法的适应性:(1) 对遗忘 (forgetting) 的韧性,以及 (2) 适应未知勒索软件变体时的再训练开销。
为了公平比较,模拟了迁移学习 (transfer-learning) 场景:每个模型在三个随机选择的勒索软件家族上进行训练,然后在剩余的未知变体上进行评估。
以下是原文 Table II 的结果:
| Metric | SIA | Ratafia | SCL | Proposed | |
| Pre-Retraining | Seen | 80.1% | 85.4% | 91.2% | 95.6% |
| Unseen | 63.4% | 70.5% | 76.2% | 81.0% | |
| Post-Retraining | Seen | 76.3% | 84.1% | 89.7% | 94.8% |
| Unseen | 70.2% | 78.4% | 84.6% | 94.1% | |
| Retraining Time (s) | 274.5 | 1191.0 | 579.2 | 79.8 | |
- 所有方法: 在再训练之前,所有方法在未知变体上都出现了性能下降。
- 基线方法: 尽管再训练提高了性能,但前三个基线方法都遭受了灾难性遗忘 (catastrophic forgetting),在再训练后对以前见过的样本表现出准确率下降。
- Proposed (本文方法): 在再训练后,对已见和未知变体都保持了高准确率,展示了对遗忘的强大韧性。此外,本文方法实现了最短的再训练时间(
79.8秒)。 - 效率原因: 这种效率归因于两个因素:(1) 对比学习编码器能够从有限数据中学习到泛化表示,减少了再训练的收敛
epochs总数;(2) 下游分类器是从预训练的超网络中实例化而来,仅需要轻量级的参数调整,而非完整的架构重新设计。
6.1.6. 开销分析 (Overhead Analysis)
以下是原文 Table III 的结果:
| Metric | Encoder | Classifier | Total |
| Training Overhead | |||
| Contrastive Pretraining Time (hrs) | 0.3 | 0.3 | |
| NAS Search Time (hrs) | − | 1.2 | 1.2 |
| Retraining Time (s) | 20.5 | 59.3 | 79.8 |
| Model Size (M parameters) | 2.4 | 1.1 | 3.5 |
| Inference Overhead | |||
| Latency (ms/sample) | 13.1 | 7.2 | 20.3 |
| Memory Footprint (MB) | 11.9 | 7.1 | 19.0 |
表 III 展示了本文方法相关的开销。
- 训练开销:
- 对比预训练时间 (Contrastive Pretraining Time) 为
0.3小时。 NAS搜索时间 (NAS Search Time) 为1.2小时。这是一个一次性成本,仅在初始设计阶段执行,不影响运行时或未来的再训练。- 再训练时间 (Retraining Time) 为
79.8秒。
- 对比预训练时间 (Contrastive Pretraining Time) 为
- 模型大小 (Model Size): 总参数量为
3.5M。 - 推理开销 (Inference Overhead):
- 每个样本的延迟 (Latency) 为
20.3毫秒。 - 内存占用 (Memory Footprint) 为
19.0 MB。
- 每个样本的延迟 (Latency) 为
- 分析: 这些指标表明,该系统可以在实时环境中部署,包括资源受限的或终端设备。虽然
NAS搜索过程引入了一次性成本,但其结果是一个高效的架构,且在适应新变体时的再训练开销非常低。
6.2. 消融实验/参数分析
论文通过对比完整模型与去除“延迟感知损失”组件的模型(在图 9 中标记为 "Proposed (w/o Latency Loss)"),进行了部分消融实验。结果明确显示,移除该组件会导致检测延迟显著增加(从平均低于 100 毫秒增加到 400-500 毫秒),证实了延迟感知损失在减少检测延迟方面的关键作用。此外,NAS 框架本身也体现了模型结构自动发现和剪枝的有效性,虽然没有直接给出不同 NAS 策略的对比,但其低再训练时间和高适应性间接验证了其优势。
7. 总结与思考
7.1. 结论总结
勒索软件因其快速演变、不可逆的损害和规避行为,仍然是关键的网络安全威胁。本文提出了一种实时的勒索软件检测框架,它集成了对比学习和神经架构搜索 (NAS)。通过利用硬件辅助运行时监控和动态时间规整 (DTW),该方法消除了对手工特征的需求,同时提供了对抗规避技术的鲁棒性。此外,应用了延迟感知损失以显著降低检测延迟。NAS 的使用确保了框架对未知勒索软件变体的强大适应性,且再训练开销极小。实验结果证实,本文方法在检测准确性(最高提升 16.1%)和响应时间(最高加快 6 倍)方面均优于现有方法,同时在规避性攻击下保持了韧性。
7.2. 局限性与未来工作
论文在结论部分并没有明确指出本文方法本身的局限性或具体的未来工作方向。然而,从其提出的方法和实验中,可以推断出一些潜在的考量和未来研究方向:
- 硬件依赖性: 虽然
ETBs提供了无侵入式且精细的数据,但其部署可能需要特定的硬件支持,这在通用终端设备或异构环境中可能不是标准配置。未来工作可以探索在更广泛的硬件平台上的兼容性或寻找替代的低开销数据源。 - 数据规模与多样性: 尽管论文使用了 2100 条程序轨迹,但真实世界的勒索软件变体数量庞大且不断增长。更大规模和更多样化的数据集,特别是包含更多新近出现的勒索软件家族,将进一步验证和提升模型的泛化能力。
- 复杂性与可解释性: 对比学习和 NAS 提高了模型的性能和适应性,但也增加了模型的内在复杂性。在实际部署中,尤其是在安全领域,对于模型决策的可解释性 (interpretability) 往往有较高要求。未来可以探索如何提高这种复杂模型的透明度,例如通过集成可解释性 AI (XAI) 技术。
- 零日攻击 (Zero-day Attacks): 尽管 NAS 提高了对“未知变体”的适应性,但“零日攻击”往往意味着全新的攻击模式或技术,这可能超出当前模型在预训练阶段所学习到的行为空间。未来研究可以探索更深层次的元学习 (meta-learning) 或强化学习方法,以应对真正意义上的零日勒索软件。
- 损失函数超参数的敏感性: 混合损失函数中的 是超参数。其最佳值可能依赖于数据集和具体任务。论文未详细说明这些参数的选择过程或其对性能的影响。未来可以研究自适应调整这些参数的方法。
7.3. 个人启发与批判
7.3.1. 启发
- 多维度问题解决: 本文提供了一个全面解决勒索软件检测核心挑战的框架,通过结合数据源(HPC/ETB)、学习范式(对比学习)、优化目标(延迟感知损失)和模型架构(NAS),体现了系统性创新的力量。这种集成式思维对于解决复杂现实问题具有重要的借鉴意义。
- 对比学习在安全领域的潜力: 本文再次验证了自监督对比学习在无需大量人工标注特征的情况下,能够从原始数据中学习出鲁棒且具有区分性的特征表示。这对于安全领域中数据标注困难、攻击模式多变的问题,提供了一条非常有前景的路径。
- NAS 的实用性: 针对模型适应性问题,NAS 提供了一种自动化的解决方案。特别是一键式 NAS 和预训练超网络的思想,使得模型能够快速适应新变体,这对于快速演进的威胁环境至关重要。
- 延迟感知的重要性: 明确将检测延迟纳入损失函数,强调了在某些关键应用中(如勒索软件防护)响应速度与准确性同等重要的原则。这提醒研究者在设计安全系统时,不仅要追求高准确率,更要考虑实际操作中的时间成本。
- 硬件辅助的优势: 强调了硬件层面的监控在提供精细、低开销且抗规避数据方面的独特优势,为更高可靠的安全系统设计提供了方向。
7.3.2. 批判
- ETB 数据获取的普适性: 尽管
ETBs提供了高质量的运行时数据,但这种硬件级别的跟踪器并非在所有计算环境中都易于获取或部署。例如,对于云环境中的虚拟机或普通用户的个人电脑,部署ETB级别的监控可能不现实或成本过高。论文可以进一步探讨在无ETB环境下,如何利用软件层面的低开销运行时数据来近似或替代ETB数据,或明确其适用场景。 - “未知变体”的定义与泛化上限: 论文通过在训练集未包含的勒索软件家族上进行测试来验证“未知变体”的适应性。然而,这些“未知变体”可能在行为模式上与已学习家族有一定相似性。对于与现有家族行为模式完全不同的新型(零日)勒索软件,模型的泛化能力仍需更严格的验证。NAS 优化的是现有搜索空间内的架构,如果新的攻击模式超出了这个空间,可能仍需人工干预。
- DTW 的计算开销:
DTW在处理长序列时具有二次方的时间复杂度,虽然论文使用的窗口大小是 500ms,但在非常精细的粒度或长期的行为分析中,这可能成为计算瓶颈。尽管其在处理时间扭曲方面有优势,但对于大规模实时部署,其效率仍是一个值得关注的问题。 - 损失函数中 阈值的选择: 延迟感知损失函数中提及的阈值 对于确定最早时间步 至关重要。论文并未详细说明这个阈值的选择方法、敏感性分析或其对性能的影响。不当的 值可能会导致过早或过晚的惩罚。
- 模型可解释性挑战: 尽管
NAS自动构建了高效模型,但由于其结构复杂性和对比学习的抽象性质,解释模型为何将某个程序分类为勒索软件可能仍然困难。在网络安全这类需要高度信任和溯源的领域,提供可解释的决策依据非常重要,这可以作为未来研究的方向。
相似论文推荐
基于向量语义检索推荐的相关论文。