
学位论文简介
二进制代码相似性检测与漏洞分析在版权检查、恶意软件分析以及安全漏洞检测等方面有着重要的应用。尽管目前基于图表示学习的二进制代码相似性检测与漏洞分析取得了一些初步进展,但还存语义表征普适性问题、结构信息偏差、缺乏代码混淆鲁棒性以及缺乏二进制代码漏洞细粒度分析能力等问题。针对这些问题,论文的主要研究内容及贡献归纳如下:
(1)针对汇编代码与自然语言的语义差异以及跨优化级别等编译环境多样性带来的嵌入普适性问题,提出了一种基于差异对比学习模型的无监督嵌入方法。该方法通过融合对比学习与条件差异预测机制,捕获二进制代码中的差异性信息,生成具有高精确且鲁棒的代码嵌入,并在多编译条件等应用场景下具有良好的泛化能力。
(2)针对跨体系架构下控制流图语义与图间结构信息偏差问题,提出了一种基于交叉图匹配的二进制代码相似性检测方法。该方法在图神经网络中引入信息交流机制以及额外计算图的匹配信息,从而捕捉到两图结构之间的差异并在跨体系结构以及跨优化级别场景中的优势。
(3)针对图神经网络缺乏全局信息以及特定的空间与层次编码能力导致的代码混淆鲁棒性问题,提出了一种基于图Transformer的二进制代码相似性检测方法。该方法通过Transformer高效地学习控制流图的全局特性,并在混淆函数检测的性能和准确率方面具有显著优势。
(4)针对二进制代码漏洞细粒度分析问题,提出了一种基于异构图可学习边嵌入的检测方法。该方法结合异构图以及边嵌入网络挖掘二进制代码的关键结构信息,并且在二进制代码漏洞的二分类和多分类任务中具有显著的优势。
主要学术成果
Zhang Y, Liu Y, Cheng G, et al. Similarity Regression Of Functions In Different Compiled Forms With Neural Attentions On Dual Control-Flow Graphs. The Computer Journal, 2023: bxad095. (SCI,导师第二作者)
Li C, Zhang Y, Xie E Y. When an attacker meets a cipher-image in 2018: A year in review. Journal of Information Security and Applications, 2019, 48: 102361. (SCI,导师第一作者)
刘玉玲,张云.CN.基于图匹配网络的二进制代码相似性检测方法及系统.ZL2021107224003.2021-09-24.(已授权,导师署名第一位,湖南大学第一署名单位)
刘玉玲,张云.CN.基于图对比学习的二进制代码相似性检测方法及系统与存储介质.ZL2023100646569.2023-04-25. (已授权,导师署名第一位,湖南大学第一署名单位)
张云,刘玉玲.CN.基于图 Transformers 的二进制函数相似性检测方法及系统.ZL2023109313354.2023-09-29. (已授权,导师署名第二位,湖南大学第一署名单位)