【摘 要】
:
随着互联网的快速发展,Web资源已成为企业获得竞争情报的重要来源。但是,从Web资源中获取的文本情报信息量往往比较大,来源广泛,不利于阅读分析,同时也存在着很多重复的内容,
论文部分内容阅读
随着互联网的快速发展,Web资源已成为企业获得竞争情报的重要来源。但是,从Web资源中获取的文本情报信息量往往比较大,来源广泛,不利于阅读分析,同时也存在着很多重复的内容,大大降低了文本情报的利用价值。如何通过Web文本挖掘技术来提高文本情报的利用价值成为本文研究的重点。本文通过分析Web页面结构,设计和实现了解析HTML文档树的方法,并从Web页面中抽取出了具有真正意义的文本内容。采用了基于字典的统计分词算法对文本进行分词处理,并在此基础上去除了文本中的无意义词。在分析已有关键词提取方法的基础上,引入了一种基于词的统计和分布的权重计算方式实现了文本关键词的提取。综合考虑关键词、句子在文章中的位置以及特殊标记等因素,采取直接从文中提取句子的方法实现了文摘的自动获取。针对重复的文本情报,在计算文本特征句最长公共子序列的基础上实现了文本情报的去重。本文同时分析了SVM分类器所存在的问题,在SVM分类器两类可分的基础上通过结合二叉决策树实现了多类可分,并且设计了SVM决策树的生成算法,然后在此基础上实现了文本分类挖掘。综合本文中研究的知识和技术,设计和实现了面向企业竞争情报的Web文本挖掘系统,并应用在企业竞争情报分析与挖掘服务系统中。
其他文献
伴随着互联网的普及,电子邮件作为一种高效、经济的现代通信技术手段,己成为互联网上最常用的应用之一。但电子邮件在给人们带来巨大便利的同时,也给人们带来了造成很大困扰
随着信息技术和计算机网络的快速发展,信息和网络系统的安全变得至关重要。继防火墙、VPN、数据加密等传统安全保护措施之后,入侵检测成为新一代的安全保障技术。作为一种主
通过计算机断层(CT)、磁共振(MR)等设备很容易获得病灶部位的二维切片图像,但是二维切片图像不能立体地显示器官组织,也不利于医生整体把握病人的病情。因此,研究和实现CT图
ICC色彩校正中的颜色匹配为同色异谱匹配,即在特定观察环境下相匹配的颜色,在改变光照后往往颜色失配。为达到物体颜色在任意光照条件下一致再现,光谱色彩校正技术应运而生。
近年来,我国加大了医疗卫生事业的改革力度,人们的健康水平得到不断提高,因此对药品的需求也逐渐扩大,使医药市场达到一个发展高峰。众多医药销售企业已意识到提高企业管理水平的
由于传感器多样性和性能上各有千秋,多光谱与全色图像融合一直都是图像处理中研究的热点问题。随着航空遥感应用的推广,获取1幅高空间分辨率、光谱保真度的多光谱图像的需求
随着计算机技术的高速发展,机群系统应运而生。凭借其巨大的计算能力、安全的海量存储、高可扩展性的动态伸缩以及廉价的服务成本,机群系统在各个行业中得到了广泛应用。机群
OpenID标准化认证机制是新一代的单点登录解决方案,能够简化用户的操作流程、减少资源提供者认证系统的开销。OpenID的完整性保护作为多级安全的重要方面逐渐成为备受关注的
信息技术的飞速发展使得旅游信息呈爆炸式增长,面对海量的旅游资源,游客想要从中找到满足其需求的旅游信息变得日益困难;另一方面,游客的旅游观念也日益成熟和个性化,现有的旅游信
网络视频已经成为继门户、搜索引擎之后又一热门互联网应用。视频网站不仅需要提供优质的视频内容和良好的用户体验,还必须具备分析运营数据的能力,从而及时做出决策。互联网