论文部分内容阅读
随着互联网技术的不断发展,物联网技术也迎来了高速度高质量的发展。一方面,物联网拉近了物与物,物与人,人与人之间的联系,实现了万物之间的沟通,加速了科技的进步。另一方面,物联网使用简单、便捷、节能,是新世纪下实现高效、高质量的重要技术。然而近些年出现的针对物联网设备攻击等安全事件,在一定程度上影响了网络的发展和国家的安全,物联网技术逐渐受到各行各业的关注,目前已经成为学术界的研究热点。尽管有很多研究人员对物联网的各个方面展开了研究,但是在安全和管理的相关研究文献中,仍发现有大量的物联网设备可以通过IP地址访问和可见,这极容易造成关键设施及信息被泄露和乱用,引发网络安全事件。因此,本文从安全的角度深入研究物联网设备所属组织的属性信息,目前学术界对物联网设备组织信息的研究较为缺失,组织信息的提取缺少可靠的依据,而设备所属组织对于管理和加强设备安全都是非常重要的。本篇论文研究大规模物联网设备的组织信息提取技术,包括物联网设备识别和设备组织信息提取:(1)在物联网设备识别方面,论文通过解析应用层响应数据的报文内容利用应用层服务的差异性,提取物联网设备的特征,结合常规的四种机器学习分类算法,提高物联网设备识别的精度。(2)在物联网设备组织信息提取方面,通过实践观察,本文发现许多设备组织者会将组织的细节信息写入物联网设备上的应用层协议数据报文中,如公司或用户名等等,这些硬编码的信息可以作为设备组织信息提取的依据。因此,本篇论文结合自然语言处理技术提出基于规则的信息提取技术和基于命名实体识别的信息提取技术,获取应用层响应报文中的组织信息。为了验证设备识别和组织信息提取的可行性,本篇论文搭建了原型系统并进行了实验验证。实验结果表明,机器学习分类算法对物联网设备的识别精确率能够达到97%,覆盖率达到97%。论文收集了 9300万个HTTP响应数据报文,通过设备识别技术,发现了将近430万个暴露于互联网上的物联网设备。此外,本篇论文还提取了近60多万个物联网设备的组织名称,并对提取到的组织进行了分类统计与分析。实验结果表明,物联网设备识别和组织信息提取技术对于网络空间的安全与防御有着重要的价值。