论文部分内容阅读
由于广泛的代码重用和第三方SDK的大范围使用,使得物联网固件中存在大量的同源二进制文件,这些二进制文件通常由不同编译配置的相同或相似源代码编译而成。一旦在某一固件中发现漏洞,共享相似代码片段的其他固件就将面临较高的安全风险。因此,同源二进制文件关联对物联网固件安全性分析、风险评估和应急响应具有极其重要的意义。然而目前还没有对物联网固件进行大规模且高效的同源二进制文件关联方法,当前较为先进的关联方法需要对文件进行一对一的比较。但是全世界范围内每天约有550万新增物联网设备接入网络,现有的方法对于大规模物联网固件不能进行有效地扩展。为此,本文设计、实施和评估了一个针对物联网固件进行跨平台、大规模、可扩展的高效的同源二进制文件关联系统。本文方法的主要思想是利用二进制文件中的可读字符串来计算不同物联网固件之间的相似性。此外,使用字符串过滤器提高关联的准确性并采用基于字符串的MinHash算法和倒排索引方法为每个二进制文件设置独立的签名字典信息,所有的字典信息构成相应的签名特征库,从而使得该系统具有良好的可扩展性。对于在线搜索阶段,通过对脆弱固件或脆弱二进制文件进行特征处理获得相应的签名,然后查询上述相应的签名特征库,即可快速关联出指定阈值的同源固件或者二进制文件。为证明论文方法的有效性,本文通过设置32种不同的编译配置(目标平台、优化选项、编译器版本、C库类型和链接方法)来编译32个样本源代码。在编译产生的1,024个二进制文件数据集上测试本文设计的方案和四种普遍采用的同源二进制文件关联方法。实验结果表明,本文提出的方法比其他四种方法在时间效率上提升了三个数量级。同时,本文方法的真阳性率(92.88%)更高,假阳性率(2.83%)更低。系统的实际应用结果显示,该系统可以在3秒内完成对923,440个二进制文件的同源搜索,并在1秒内从7,217个开源固件二进制数据库中找到对应固件的开源组件。