基于余弦距离度量学习的伪K近邻文本分类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lj200610819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN。考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度。
其他文献
围绕着全面深化改革的战略部署,财税体制改革被提到了非常重要位置。文章在准确理解和把握财政、财税体制的概念及基本构件基础上,从财政收入、财政支出、预算管理制度、财政
<正> 西藏家具文化源远流长,但是,近年来由于种种原因致使其发展与现代家具的发展逐渐存在一定差距。本文详细论述西藏家具业目前的发展现状,并结合西部大开发和西藏经济的跨
语义的习得主要包括概念与联系两部分,近义词辨析从语义联系的角度,分析相似词汇系统内部的语义关联,更能体现语义的习得情况。中高级阶段的汉语学习者更容易混淆一些意义相
在分析现有数据库连接池方法的基础上,提出了一种基于ADO技术、能自适应调节的数据库连接池优化策略。策略中记录下每一个被调用的连接信息,通过管理模块分析这些信息,优化并
针对校级统一信息系统的特点,结合校级统一信息系统对信息集成的需求,提出了校级统一信息系统集成平台的建设思路,并以清华大学信息系统集成平台的建设过程为实例,提出了信息
期刊
我国家具的发展源远流长,明清时期达到了巅峰时期,每一时期的家具都有它独有的艺术风格。明代家具追求神态韵律,造型古朴典雅;清式家具注重体量和繁琐的装饰,他们的艺术成就
<正> 在小提琴演奏及教学中,似乎很少涉及“功架”、“程式”之类术语,课上或书面用语一般只有“姿势”一词。众所周知,小提琴学习的第一课总是以讲述左右手姿势为开场的,因
利用CM菌、EM菌和酵素菌3种发酵菌堆制木薯皮基质,腐熟的木薯皮基质与砂子按照体积比为10∶0、9∶1、8∶2、7∶3、6∶4共5种比例制作黄瓜育苗基质,研究不同配比及不同发酵菌