一种基于特征库投影的文本分类算法

来源 :中南大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yanwuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于KNN的主流文本分类策略适合样本容量较大的自动分类,但存在时间复杂度偏高、特征降维和样本剪裁易出现信息丢失等问题,本文提出一种基于特征库投影(FLP)的分类算法。该算法首先将所有训练样本的特征按照一定的权重策略构筑特征库,通过特征库保留所有样本特征信息;然后,通过投影函数,根据待分类样本的特征集合将每个分类的特征库映射为投影样本,通过计算新样本与各分类投影样本的相似度来完成分类。采用复旦大学国际数据库中心自然语言处理小组整理的语料库对所提出的分类算法进行验证,分小量训练文本和大量训练文本2个场景进行测
其他文献
为研究低比转速离心泵内部气液两相流动的流型和气泡直径的变化规律,采用高速摄像技术对泵内部气液两相流动进行可视化试验,同时采用Eulerian-Eulerian非均相流模型和RNGk-ε
城市生活垃圾,已成为世界各国的一大公害。“垃圾围城”是中国大陆的普遍现象,有报道称,中国1/3以上的城市均深陷垃圾围城困局。另有数据指出,现在中国除县城之外的668个城市中,有2
针对电磁超声换能器(electromagneticacoustictransducer,EMAT)接收信号十分微弱的问题,建立包括螺旋线圈EMAT换能过程和接收等效电路的场路耦合有限元模型;分析阻抗匹配参数
为研究风雨对翼伞飞行性能的影响,引入风雨环境翼伞动力学模型,在气动方程中加入雨膜、风荷载、雨荷载等影响因素。利用CFD技术模拟风雨环境:通过网格速度模拟风场,多相流模
摘 要 选取广州8所高校课桌椅为调查对象,测量其功能尺寸,并通过随机抽样的方法选取共计1036名学生,获得学生近视率及其对现有课桌椅使用的满意度等数据,根据GB/T 3976-2014《学校课桌椅功能尺寸及技术要求》对数据进行分析评价,从而了解广州市高校课桌椅尺寸的达标情况,为高校课桌椅的合理配置提供理论依据。  关键词 高校;课桌椅;功能尺寸  中图分类号:G48 文献标识码:B  文章編号:1
影视资源具有声画并茂的特点,应用于小学语文课堂教学中,不仅可以吸引学生主动学习,还能开阔视野,增加文化积淀,对于提高学生的语言运用能力具有积极作用。阐述影视资源在语
国务院总理温家宝今年4月对日本进行了友好访问,期间参观名古屋报废汽车处理厂令他印象深刻,日本报废汽车回收与再利用产业的发展水平远远高于我国。7月24日温家宝总理做出重要
白话文阅读能力的考查是现行各级各类语文科考试的一个重要组成部分。无论是高考中考,还是公务员考试,在语文试题中,白话文阅读能力的分值至少要占20%以上。因此,掌握一些基本阅读技巧是十分必要的,以下按文体分类阐述。  一、一般科技文的阅读  科技文主要是指以介绍科学技术类的知识为主要内容的说明性文字。涵盖面很广,天文地理,生物化学,以及由此派生出来的各种应用学科,无所不包。这类文章,主要是考查一个人筛
2009年7月15日,财政部会同商务部、发改委等1O部委,联合印发了《汽车以旧换新实施办法》,规定以旧换新的报废车型可享受3000~6000元不等的补贴。这对于沈阳地区唯一一家从事报废
(本刊讯)初冬的首都,寒风阵阵,可是北京新大都饭店宽敞的会议室里却春意融融。11月29日下午,中国拆船业的精英骨干、拆船行业的老专家和老领导,相关部委和相关协会的朋友和全国