论文部分内容阅读
当前互联网的迅猛发展,使得互联网的应用渗透到了各行各业,为人们的生活提供了极大的便利,因为互联网的虚拟性,为网络犯罪提供了便利,利用互联网的漏洞来进行攻击等等。当前主流的网络安全热点分析系统的研究和开发主要是基于自然语言处理技术,里面分析热点的关键方法是基于主题模型的LDA模型[4]和N-gram模型[7]从海量数据中提取重点信息。用自然语言处理技术来进行网络安全热点分析,得到的热点准确性较高,现在流行的无监督学习方法更是方便可行,不用人工手动去分类,而是通过一系列的训练数据自动进行识别分类,提高了分类的准确性和效率。本论文的主要描述了网络安全热点分析的一种方法——基于主题模型的网络安全热点识别方法。首先,需要用网络爬虫技术来将海量数据按照规则爬取下来;其次,用基于LDA模型[4]和基于N-gram模型[7]主题模型来提取海量数据的主题,主题即是海量数据背后隐藏的核心观点;接着,分析主题部分采用了建造主题链和趋势分析两种方法对比效果,目的是一样的要找到热点,但是两者的侧重点不同,趋势分析部分需要引入时间的维度进行分析;最后,采用WiGis[3]工程来实现每个主题链的可视化。本论文的另外一个主要工作是开发出一款基于主题模型的网络安全热点分析的框架系统。本文设计与实现的系统分为了B/S与C/S两种架构相结合的模式。使用了J2EE技术下的MVC开发框架结构,并使用了开源的SSH (Spring、 Struts、 Hibernate)作为系统框架结构。该系统使用多线程技术,提高了系统整体的执行效率。该框架系统运用了多模块化设计方式,因此具有良好地可扩展性。系统运行中的爬虫技术、主题模型提取主题、建造主题链和趋势分析安全热点走向、可视化实验结果等等都可以通过配置进行修改。通过分析大量网络安全数据信息来对系统功能进行测试,经过分析该系统可以提取到比较准确的主题和主题链,通过趋势分析模块可以较清晰看到主题随着时间变化情况。系统是通过各模块的协调配合,实现了从大量网络数据中提取到比较准确的安全热点,但是今后的工作会继续完善系统功能,通过技术改进实现更多的功能。