论文部分内容阅读
情报是对已有信息进行分析、加工之后,得到有用信息的过程,情报的获取历来在人类活动中占用重要地位。信息技术的高速发展给情报工作带来了新的机遇和挑战,从根本上改变了情报的获取途径和研究方法,开源情报已经成为了各组织获取情报的主要方式。本文介绍了在开源情报挖掘过程中用到的相关技术和工具,包括网络爬虫技术、文本处理技术和数据库技术,这些技术都是目前大数据领域研究的热点,将这些技术用于开源情报的分析处理中,不仅仅是对已有工具的简单应用,更能促进相关领域的发展。在文本数据的挖掘中,基于传统向量空间模型的方法由于没能很好的利用文本语义信息,在某些场景下表现出其不足之处,本文研究了将主题模型用于文本特征表示,并通过实验对比和分析表明了该方法在文本特征降维和文本聚类中效果更好。情报要素是情报的核心内容,蕴含了情报中大部分信息,在情报分析过程中非常重要,本文研究了两种用于情报要素提取的方法,并对比分析了两种方法各自的优缺点,提出了一些改进策略,取得了良好的效果。情报文本的聚类则是另一个重要的主题,目的是将描述相同主题的情报归入同一类别,不同的情报归入不同类别,由于开源情报主要来源是互联网,因此有必要对开源情报进行在线聚类,本文对Single-Pass进行了简单改进,实验表明效果有一定提升。本文最后通过实际应用,展示了开源情报在军事专题上的应用,通过实际编程完成了一个系统原型,并介绍了其中关键的几个部分实现过程,包括网络爬虫的编写和处理各类不同网页的方法,并介绍了数据库的设计,最后展示了系统对情报分析之后得到的一些结果。通过上述工作,本文研究和探索了开源情报在专题需求中的应用,并且表明开源情报在实际使用中具有重要的应用价值。