基于语义相似度的中文文本相似度算法研究

被引量 : 0次 | 上传用户:fg1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。目前多数文本相似度算法是以向量空间模型(VSM)为基础的,但这种方法会引起高维稀疏的问题。而且,这类算法没有很好地解决文本数据中存在的自然语言问题:同义词和多义词。这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。本文采用一种新的思路,在传统的文本相似度算法中融入语义相似度的计算以提高文本相似度计算的性能。本文对现有的文本相似度算法和语义相似度计算作了深入讨论,在此基础上提出一种基于语义相似度的中文文本相似度算法。本文运用所提出的算法针对某高校某学院的在线毕业设计管理信息系统中学生的毕业论文文本进行了相似度实验,对算法进行了有效性验证。经实验证明,本文提出的算法比传统的文本相似度算法具有更高的效率和正确性。这一课题的研究及其成果对于中文信息处理将有一定的参考价值和良好的应用前景。
其他文献
<正>毛霉菌是一种条件致病菌,肺毛霉菌感染多发于年老、免疫力低下、有基础疾病、长期应用抗生素或糖皮质激素的患者,发病急骤、进展快、病死率极高,多在3~30 d死亡,病死率高
本文以支付宝为例,阐述了网络支付对医院财务收入的影响,并对网络支付形式下的医院财务工作提出了建议。文章的第一部分对支付宝在医院财务收入中的应用形式进行了介绍,第二
行政事业单位在时代不断发展的新时代背景下,一直在发展并改革创新。但是在财务会计工作上仍然存在很多问题,例如财务预算准确性低、资产定期盘点不到位以及财务会计制度落后
利用中国知网(CNKI),从年度分布、期刊分布、作者共现分析、机构共现分析、关键词共现分析等方面对我国档案学领域1979年至2015年的论文进行了知识图谱分析。研究发现,档案学领
目的 观察小剂量罗哌卡因复合舒芬太尼腰麻在高龄患者下肢手术中效果。方法 选择行下肢手术患者50例,按随机数字表法分为A、B组,每组25例。A组,罗哌卡因7.5 mg与10%葡萄糖溶
全文以绿色化学为主线,论文的选题也本着“原子经济性”这一原则。引言介绍了绿色合成的目标和途径。第一章简要介绍了研究较多的多组分反应,特别介绍了Biginelli反应产物3,4-嘧
改革开放以来,我国家族企业在不断发展的同时,亦呈现出一些亟待解决的突出问题。据2008年浙江家族企业研究小组的调查:81.5%的浙江家族企业尚未进行代际传承,即在今后的5-10
国家主席胡锦涛于2006年1月9日在全国科技大会上宣布中国未来15年科技发展的目标是“到2020年,使我国的自主创新能力显著增强,科技促进经济社会发展和保障国家安全的能力显著
水凝胶具有良好的环境友好性和生物相容性,生物、医学应用前景广。虽然双网络水凝胶已经对水凝胶的机械性能欠佳进行了极大地改进,但其制备时间太长、条件苛刻。针对这些问题
介绍海洋石油(青岛)场地项目嵌岩灌注桩的施工,对灌注桩施工的设备选用、工艺选用提出意见和建议。