论文部分内容阅读
随着Internet的飞速发展,Web储存了大量有价值的知识,企业竞争情报系统(Competitive Intelligence System,简称CIS)的建设也已经成为各企业的战略举措。当前主流的竞争情报系统采用的全文检索或关键词检索的检索机制不可避免地会带来实际检索结果与用户需求之间的大量偏差,在准确性上很难把握。目前基于自然语言、HTML结构分析和本体等方式的竞争情报抽取方式存在的许多不足,无法从大规模杂乱的检索结果中获取最相关的需求。针对这些问题,本文通过对国内外的竞争情报获取技术进行研究,构建出基于Web挖掘的竞争情报系统。本文研究从获取网页信息入手,首先使用正则表达式灵活、快捷、准确地从大量杂乱的Web网页中抽取最初始的企业竞争情报。这些初步结果由于网页结构的半结构化而存在许多冗余知识,因此对抽取的初步结果使用数据预处理技术进行筛选,以去除广告页面和噪音数据,得到进一步结构化的竞争情报知识集。在竞争情报的挖掘方面,使用基于相似度计算的竞争情报挖掘方法,大大提高竞争情报挖掘的准确率。本文研究主要分为六个章节,第一章描述基于Web挖掘的企业竞争情报系统国内外研究现状,第二章描述Web挖掘和企业竞争情报系统的相关概念,第三章进行基于Web挖掘的企业竞争情报系统需求分析,第四章描述竞争情报系统的Web挖掘关键技术,第五章构建基于Web挖掘的竞争情报模型,第六章实现基于Web挖掘技术的竞争情报系统。本文研究的主要成果有:1)提出了整套Web竞争情报抽取和挖掘的方法和技术,提出了基于正则表达式的网页信息抽取、基于编码经验规则的Web文本抽取和基于相似度计算的竞争情报挖掘方法;2)基于Web挖掘理论和竞争情报系统理论,构建了基于Web挖掘的企业竞争情报系统模型,为企业智能化竞争情报系统的建设提供了理论模型;3)基于提出的算法,实现了基于Web技术的竞争情报系统,为进一步研究提供了素材。本文研究理论结合实际,通过系统实现检验了模型应用的可行性,能对相关企业开展竞争情报工作起到一定的借鉴作用。