基于语义相似度的中文文本分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dll4718133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和云计算等计算机技术的发展,以语义技术为基础的人工智能应用正在不断改变着人们的认知方式和生活方式,提供高效、智能和语义相关的自然语言处理技术有助于相关领域的快速发展,而基于语义的中文文本分类技术是中文自然语言处理和语义理解的关键性和基础性工作。传统的文本挖掘和分类技术仅考虑文本词汇的重复程度,无法准确理解词语上下文环境,存在对自然语言中的上下文语境、省略和句法等语义关系的信息处理的缺失等问题,导致分析结果不够准确、处理效率低下等问题。近年来,随着深度学习技术的兴起,基于神经网络的中文信息处理技术得到了广泛的关注和研究。为解决传统中文文本处理技术和方法存在的语义和句法信息缺失问题,本文将基于神经网络的语义技术及其相关算法引入到文本分类研究中,同时完善与改进中文文本语义相似度计算方法。论文的主要研究内容包括探索与改进基于词向量的文本语义相似度计算方法,提高文本语义相似度计算的准确性;在文本语义表征和计算的基础上探索与改进基于神经网络的文档文本语义向量生成模型和基于语义向量的中文文本分类相关算法,提高文本语义特征表达的准确性,促进文本分类效果的提升。本文以研究基于词向量的中文文本语义相似度计算方法及基于文本语义向量的中文文本分类方法为主要内容,具体包括对语义相似度计算理论进行了系统的阐述,从语言模型的角度对神经网络语言模型、循环神经网络语言模型等进行了全面的梳理,并详细推导了CBOW和Skip-gram两种word2vec的词向量生成方法,考虑不同词语在表征文本方面的权重差异,在对文本段落向量或文档向量生成模型(doc2vec)系统阐述的基础上,提出了一种结合语料库全局信息的文档文本向量生成模型,该模型通过文档的词语信息和语料库的全局信息来训练生成新的段落向量,利用数据正则化优选文档中的词语特征来选取词向量的最显著特征,然后借助哈夫曼编码和层次归一化(Hierarchical Softmax)来求解模型的具体参数和生成可以表征文本信息的语义向量;最后在对传统的文本分类流程进行介绍的基础上,优化与改进了基于词向量的文本语义相似度计算方法和基于语义向量的文本分类算法,并用实验验证了相关算法的准确性。
其他文献
近30年来,对沈从文物质文化史的研究仍未能获得学界足够关注,专门论文仅有10余篇,专著则付之阙如。2000年以来其文物考古专著和文集多次再版,但仍有待推广并使之服务于传统文
<正>作为"70后"作家,任晓雯近年的表现令人瞩目,她的长篇小说《好人宋没用》以一个"没用"小人物的命运折射着一个城市的面目,一段历史的镜像,被称为"实力"之作。她的小说看似
汉朝自陆贾首发"过秦"之嚆矢,中经张释之、贾山、贾谊、晁错等人的努力,到武帝时,研究"过秦"成为巨大的社会思潮。司马迁以《史记》为载体投入"过秦"研究,在更为广阔的背景下
亚里士多德法治理论是建立在人性论和认识论基础之上的,亚氏认为人性中有社会性、义理性、理性、欲望和兽性;同时认为众人的智慧优于一人的智慧、一人之治易于腐败,从而确立
<正>人民出版社副总编辑于青:借着"一带一路"东风,我们相聚在美丽海岛鹿城。这个地方见证了海上丝绸之路的兴衰变化,如今它更是成为21世纪海上丝绸之路的重要战略支点,古老城
<正> 近来国外电镀工业的一个倾向是:人们越来越讨厌闪闪发光的电镀光泽,转向喜爱烟雾状的色调,以及如缎子般雅素的色调。表1为日本某电镀公司采用的具有代表性的合金电镀及
【正】 一、价格形成的理论依据关于价格形成的理论,在资产阶级经济学中,主流派是均衡价格理论。一般认为,均衡价格理论的谬误在于说供求决定价格。其实,均衡价格理论的错误
<正>十八大以来,经过三中、四中和五中全会的改革再定位,中国未来改革与发展的战略目标、基本蓝图、理论指导、制度保障、发展维度、实现路径日渐清晰。中国社会正面临着从以
民间金融的政府管制和社会自治是治理民间融资的两个重要组成部分。河北省在制定管控民间融资对策时,要借鉴相关成功经验,并根植于河北省民间融资管控实践。要构建政府主导的
选取南宋女子头饰为研究对象,分析南宋头饰的材质选择范围广泛的成因,剖析玉、琉璃、金银头饰的具体制作工艺,归纳各类头饰的造型风格,提炼头饰纹样设计题材与特征,总结南宋