基于向量空间模型的中文文本相似度算法研究

被引量 : 0次 | 上传用户:deeyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界以信息技术为代表的现代科技日新月异,并正在对人类社会产生着不可估量的影响。在现实世界中,文本是最重要的信息载体,计算机对文本相似度的计算是信息处理中一个非常基础而又关键的问题。在信息检索、信息过滤、文本分类、知识挖掘、机器翻译等诸多领域,文本相似度计算都有着广泛的应用。由于中文是意合型而非形合型的语言,计算机对于中文的处理相对于其他语言存在更大的难度,因此中文文本相似度的计算一直是一个研究热点和难点。本论文研究中文文本的相似度计算问题,以提出一种高性能的中文文本相似度算法为目标,主要有如下几个方面的研究成果:1.对现有的文本相似度计算技术进行了研究和分析,其中重点研究向量空间模型和计算机对中文文本的语义分析技术。2.结合空间向量模型的文本向量化思想以及中文语义分析技术,提出一种融合了语料统计和语义分析的中文文本相似度计算方法。新算法采用汉语中的语义主题作为向量空间的维度,将对中文文本的语义分析融合在文本结构化模型中,以克服传统向量空间模型在语义分析层面的不足。3.以科技论文的中文摘要作为测试集,通过文本相似度计算实验对新算法的效果进行了评估。实验结果表明:在同等条件下,结合了中文语义分析的新算法对中文文本相似度的计算结果比单纯采用语料统计的传统算法更合理。4.基于新算法实现了中文文本相似度计算系统CN-SIM,该系统已经在实际的工程项目中获得了应用并取得了良好的效果。本课题的研究及其成果在中文信息处理的许多领域中,都将具有一定的参考价值和良好的应用前景。
其他文献
文章基于中国省级面板数据,采用差异系数分析技术考察城市化水平的地区差异,并对这种差异的形成进行了实证分析,主要考察了高等教育投资和中等教育投资对城市化的影响,并通过
自2001年申奥成功以来的10年间,我国体育事业处于高速发展时期,竞技体育取得举世瞩目的成就,加快了我国体育场馆的建设速度,同时也促进了群众体育事业的蓬勃发展。近10年间,
提出了一种实现非90°移相希尔伯特变换器的新方法,基本思想是利用一个指定相位要求的全通滤波器来实现非90°移相器。众所周知,对于一个平稳的全通滤波器,其分母多项式必定
经济发展过程中产生大量能源消费,能源消费伴随着大量二氧化碳排放,从而导致全球气候变化,因而经济发展对气候环境造成外部不经济影响。随着世界经济不断发展,世界能源消费不
本论文制备了两类近红外反射颜填料:酞菁-TiO2复合颜料和ZnO-空心微珠复合填料,采用颜色表征、近红外反射表征、红外光谱分析、扫描电镜分析以及粒度分析等对两类近红外反射
电能商品的特殊性决定了电能商品在交易中长期沿袭着“先用电,后付费”的交易方式。这种方式使供电企业承担了客户用电后不按期交费、逃避交费或丧失偿债能力等经营风险。目
自从1990年哈默和普拉哈拉德把具有重大影响的概念——企业核心竞争力引入管理界,之后,许多的学者、专家投身到核心竞争力的新理论的研究中,核心竞争力理论不断的得到丰富和
改革开放30多年来,我国经济社会获得了快速发展,城市化水平也不断提高。2011年我国城市化率首超50%,这是我国城市化发展历史上具有里程碑意义的节点。“城市让生活更美好”成
现代物流环境下,第三方物流面临着客户需求的改变,企业竞争的加剧,市场的不断变化,物流成本较高等挑战,又面临着经济全球化,信息网络化,企业物流外包率增加,政策对物流业的支
软件需求分析及变更,是软件项目开发的基础,更是软件开发成败的关键之一。亟待加强与提升软件项目管理中的软件需求分析及变更,本文的研究目标正在于此。在深入调查研究的基