基于语义相似度的文本分类方法研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:sonical
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为数据挖掘的重要部分,已广泛应用于信息过滤、个性化推荐、搜索引擎、数字化图书馆等多个领域,具有很强的现实意义。不过随着互联网的发展,文本分类研究遇到了两个难以回避的问题:一是文本数据集的规模过大,造成运算量变大,硬件负担过大的问题。如何高效而正确的分割数据集,选择有助于分类的数据集成为缓解硬件压力的关键;二是文本中出现的同义词和多义词难以处理的问题。不少研究人员试图从文本数据的特殊性——语义上寻找突破口,但如何处理文中的多义词与同义词成为了研究者需要解决的一大问题。为解决这两个问题,本文首先提出了一种基于K近邻算法的数据集分割方法。这一方法是基于K近邻算法,根据不同的测试样本,选择与测试样本最为接近的几个类别组成子数据集,从而解决数据集过大所带来的问题。为了减少多义词和同义词对分类结果的影响,本文提出了一种基于语义相似度的特征选择方法,以流程图详细介绍了该特征选择方法:通过WordNet计算文本中特征词之间的相似度,在特征提取阶段对文本集转为基于语义相似度的特征矩阵。在此特征选择方法以及基于K近邻算法的数据集分割法的基础上,提出了基于语义相似度的文本分类方法,通过对比实验,验证了本文提出的基于语义相似度的文本分类方法能够提高分类器准确率。最后设计并实现了基于语义相似度的文本分类系统。对文本分类系统的设计需求、系统结构、各模块的功能及实现过程中关键类做了说明。通过模块的流程图介绍了各个模块的内容和工作流程。以图片的方式展现本文本分类系统的界面、参数设定界面,并以流程图的形式详细说明了文本分类系统的实现过程。
其他文献
当电影新浪潮席卷欧洲之时,日本电影界也受到了巨大的冲击。诞生于1950年代中期并发展至1960年代末的日本新浪潮电影运动,成为日本电影界一次伟大的电影变革运动。新浪潮电影人摒弃了1950年代及以前的日本电影中批判传统浪漫主义的表达,日本新浪潮的年轻导演反叛小津安二郎、黑泽明、木下惠介等前辈巨匠,否定战前大师们构筑的“电影世界”,批判大师风格过时、观念保守,强烈涉指时政和社会变革性事件,本着严肃的社
目的:探讨X线与CT结合对周围型肺癌患者的临床诊断价值。方法:选取周围型肺癌患者47例为研究对象,回顾性研究X线与CT的影像学表现,并进行对比分析。结果:周围型肺癌患者X线检查结
冰雪条件下,路面附着条件变差,驾驶员操作趋谨慎。但不同类型驾驶员的跟驰行为特性迥异,对交通流运行造成的影响程度具有显著差异。与正常条件相比,北方寒冷地区城市冬季交通拥堵、交通安全等问题愈发严重。研究冰雪条件下驾驶员的行为特性对于丰富交通流理论,缓解北方寒冷地区城市交通拥堵具有一定的理论与实践意义。本文通过对正常条件及冰雪条件下驾驶员行为特性的研究,解析冰雪条件影响各类驾驶员行为特性的作用区间,基于
目的通过对助产士门诊相关文献进行计量学分析,了解国内外助产士门诊开展现状,为后期我国助产士门诊的建设提供参考。方法国内以中国知网、国外以Web of Science核心合集为数
目的分析甘肃省部分三甲医院医务人员科研能力现状,为提升医务人员科研能力提供合理化建议,为提高医务人员科研能力奠定基础。方法2019年5月—2019年6月采用自主设计的问卷,
目的:探讨丙戊酸镁缓释片对精神分裂症患者认知功能的疗效改善观察。方法:选择60例慢性精神分裂症患者,随机分为研究组和对照组,每组各30例。两组患者均用喹硫平片进行精神科常