论文部分内容阅读
随着互联网的快速发展,越来越多的企业通过互联网获得自己想要的信息,并从这些信息中提取竞争情报。在企业的竞争情报收集方面,通过搜索引擎可以收集简单的情报,但在收集符合企业个性化的情报方面有一定难度,而且企业在处理庞大数量的信息资源时,如何对信息进行分类、处理和分析成为了企业获得情报信息的难点。信息的爆炸式增长一方面方便了企业的情报收集,另一方面也使企业面临更加严峻的挑战,如何从海量的互联网信息资源中获取准确可靠的情报成为了每一个企业的必修课,企业迫切需要一个竞争情报系统来收集情报、挖掘情报和分析情报。本文主要工作如下:在对企业的情报需求进行了深入调研后,对企业竞争情报系统进行详细的需求分析,将系统分为竞争情报收集、竞争情报分析、竞争情报服务等三个子系统,通过分析各子系统的功能以及用例信息确定系统的需求。本文研究首先从获取网页信息入手,通过指定关键词进行搜索引擎的搜索和指定初始URL(Uniform Resource Locator)进行网页URL信息的抓取这两种方式进行网页的下载,以此来获取网页信息。这些下载的初步结果由于网页结构的半结构化而存在许多冗余知识,因此对抽取的初步结果使用文本预处理技术进行筛选,以去除噪音数据,得到进一步结构化的竞争情报文本,然后再对文本进行去除停顿词以及中文分词等操作,得到规范化的文本结构。在文本挖掘方面,采用了两种方法:文本分类和文本聚类,用户可以预先给定主题,也可以让系统进行自动学习,对文本进行文本集的划分。在文本分类中,采用基于SVM(Support Vector Machine,支持向量机)的文本分类方法,实现了指定主题类别中的文本的类别划分。在文本聚类中,采用K-means方法,无需指定主题类别,文档集将自动划分为若干个簇,每个簇中的文档内容基本相似,利用无导师的机器学习方法,有效地实现了对文本信息的分类、摘要和导航。通过文本挖掘技术的运用,用户在搜索时只需匹配类别标注,关注自己所需类别的簇,即可快速查找到自己所需的信息。企业通过企业竞争情报系统的建立,实现了竞争情报的收集、处理和分析。通过文本挖掘技术处理后的情报信息方便了企业对情报信息的查找,提高了文本情报信息的利用价值。帮助企业管理层获得了潜在的、有意义的企业竞争信息,帮助企业管理者对目前形势做出正确的决策,提高了企业的工作效率,具有很高的实际运用价值。