一种CM-RS文本特征提取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ZYXN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征提取是从文本信息中抽取能够代表此类或某文本的信息。特征提取方法研究的目的是过滤数据噪音特征、选择最优的特征子集来优化文本的表示,实现文本数据降维并提高降维文本表示的类可分性。文本的特征项的选取是文本挖掘、信息检索的一个基本的和重要的问题。特征提取技术分为特征选择和特征抽取两类。特征选择是指按照某种标准,从原始特征项集合中挑选出一部分特征词构成子集,作为新的特征集。特征选择具有容易理解、计算量小的优点,其主要缺点是假设各个特征项之间是相互独立的,不能有效地解决近义词混淆和多义词歧义特性对分类准确性的影响。特征抽取是指通过特定的映射函数对原始特征空间进行旋转、伸缩等变换,重构新的特征项。特征抽取避免了特征选择中各个特征项相互独立的假设,考虑了特征项之间的相关性,强调了特征提取中对文本内容的理解。但由于这种方法需要对高维的原始特征空间进行各种映射与变换,导致时间复杂度变高,降低了算法效率。本文提出一种CM-RS文本特征提取方法。该方法首先使用李德毅院士提出的定性和定量转换模型——云模型对原始特征空间进行初步筛选,然后使用RS语义分析模型对筛选后的特征空间进行特征提取。基于云模型特征选择可以提高RS语义分析模型的处理效率。构建特征词之间的相关度与相似度的RS语义模型考虑特征抽取中避免近义词与多义词对文本特征的影响。文本特征提取首先要对文本进行科学的抽象,将一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,建立它的数学模型,计算机通过对这种模型的计算和操作来实现对文本的识别。本文使用基于互信息的特征分布矩阵描述方法将文本转化为可处理的结构化形式。在此基础上,使用云模型进行特征选择,用RS语义分析模型方法进行特征抽取。文中将CM-RS特征提取方法用于文本分类实验,实验结果表明云模型特征选择与RS特征抽取结合的文本特征提取,在提高文本分类的准确度和降低处理的时间复杂度方而效果明显。
其他文献
长期以来,汽车工业作为国家重点投资和发展的产业取得了一定的成绩,经过建国50年的发展,我国汽车业已经具备了较好的产业基础,汽车总产量己跃居世界第1位,汽车工业对国民经济发展
社会保险审计是关乎国计民生的重大事情。有效的审计措施能够及时发现社会保险缴纳是够违规,来维护劳动者的合法权益。目前审计手段主要有人工审计和计算机审计。其中人工审
计算机网络已经潜移默化地改变了人们的生活方式,人们在享受技术进步带来的便利的同时,逐渐地对远程平台的安全性提出了质疑。为保证计算机网络提供服务的同时具有较小的安全
移动机器人三维环境建模有着重要的研究价值和广阔的应用前景。在军事上,三维地形可视化能力可以为作战提供重要情报信息。在对未知或危险环境进行探索时,如进行太空、海底、
伴随着网络用户的急剧增加,网络拥塞控制问题显得越来越重要。然而传统的TCP拥塞控制协议是基于端系统的流量控制的,它们已经无法适应这些变化。微观经济学中效用和价格概念
Linux集群系统以其良好的性能得到了广泛应用,但是其存储系统的I/O效率严重制约着系统整体性能的提升,对于石油勘探中的地震资料处理这类巨量计算、海量存储的应用,系统的I/O
车辆匹配是智能交通系统的重要组成部分,其在停车场智能管理、道路监控、高速路自动收费、超时停车检测、以及高速公路服务区、停车场等场所的出入口车辆比对等处都有着广泛
动态三维物体的实时建模是当前计算机视觉、图形图像等领域的研究热点,旨在通过一定的方法和手段实时获取三维物体的多模式信息,并由此重建出其对应的三维模型。实时建模对三
随着科学技术的发展以及信息化的推进,计算机的应用领域越来越广阔,尤其是软件的发展使得软件产品成为各行各业不可或缺的工具。然而,随着软件功能的提高,软件的复杂性也随之
计算机网络的出现极大方便了人们之间信息的传输与获取,但也造成了数字化作品版权失控的问题。数字水印技术的产生,为多媒体数据版权保护、内容认证及操作跟踪的研究开拓了新