中文文本分类研究

来源 :太原理工大学学报 | 被引量 : 0次 | 上传用户:jscumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。
其他文献
采用磁粉晶化制备纳米晶磁材的方法,研究了热处理工艺对纳米晶复合磁体磁性能的影响.结果表明,热处理温度和时间明显地影响纳米晶的形成及其磁性能,热处理温度为700℃时,纳米
用MDV-gB重组痘苗病毒RVV-gB,HVT冻干苗、痘苗病毒WR株分别按试验程序,对细胞免疫及体液免疫检测试验中的1日龄SPF鸡进行免疫接种,并于15日龄对各组小鸡攻GA株强毒,后经过IFA
期刊
利用大型通用有限元分析软件ANSYS,对某型号电除尘器钢结构主要承载部件立柱及连接立柱的墙体建立有限元模型,并对模型进行了有限元分析,研究了在各种载荷共同作用下立柱部分
农民专业合作社的迅速发展,正逐渐改变着中国农村原有的一家一户的小规模经营模式,改变了农民传统的单一家庭生产者角色,促进了农村社会的结构重组。
目前,我国农民专业合作社已经进入依法加快发展的新阶段,但普遍存在的人才“瓶颈”问题却严重制约着其可持续发展。
近年来,随着高校教育事业的不断发展,学生人数不断增加,课程开设也不断向着广度和深度发展,但是由于师资与教学设备得不到及时补充,使得原有的教务管理方法远远不能适应形势
相关背景噪声下的时延估计问题是现阶段的一个研究热点.在时延估计的众多算法中,属于"约束"类算法的ETDE(Explicit Time Delay Estimation)算法具有适用性广、可靠性高、计算
利用包含技术非效率影响的随机生产边界,对2种不同管理模式灌区2002年的农户调查资料进行了分析,结果显示,不论是2个灌区共同的生产边界或是各自的生产边界,从总体上说,灌溉
采用三雏Euler方程为控制方程,计算机翼所受的气动力与静气动弹性平衡方程耦舍求解,研究超临界机翼的静气动弹性规律,并以超临界弹性机翼和普通弹性机翼为算例,计算弹性飞机