【摘 要】
:
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之
【机 构】
:
武汉大学图书馆,武汉大学信息管理学院
论文部分内容阅读
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响。多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间。
其他文献
针对含附件文本利用率低的缺陷,为了提升附件文本分类的查全率和查准率,从两个不同角度分别提出了基于密度的BP神经网络附件文本分类算法,对组织中带有附件的文本分类进行改进。
陶瓷艺术传统教学以老师讲,学生学为主,老师去评价学生的作品。笔者分别阐述了多媒体和教学结构的含义,并从两个方面探讨了多媒体技术促进陶瓷艺术教学结构的改革。
首先对科学篇章修辞结构的研究进行了梳理,然后重点介绍了W3C提出的科学篇章修辞块本体(Ontolo—gyofRhetoricalBlocks,ORB)标准的结构模型和扩展方法,最后分析了ORB在信息的快速
思想政治工作是企业日常管理工作的重要组成部分,能帮助员工学习先进的理论知识,实现思想和实践的共同进步。思想政治工作的顺利展开与人文关怀息息相关,所以笔者对思想政治
鲜葱头去根须,切取根部约3厘米左右,用菜油文火炸黄,捞出冷却后食用,治蛔虫效果良好。如能将炸葱头的菜油也喝下,效果更佳。葱头用量:3~10岁儿童6~8根;10~12
笔者就当前高职院校职业价值观教育现状,对高职院校职业价值观教育的必要性及其教育模式进行了重点探讨。在分析职业价值观教育必要性的基础上,着重从开发职业价值观教育模块
本文通过分析商业企业资金与存货的内部控制工作中存在的问题,提出了加强商业企业资金与存货内部控制的有效方法。
市场营销课程是一门实践性较强的学科,在教学过程中要求学生掌握市场营销基础理论知识和营销技巧,培养学生市场营销的综合能力,使其更好的顺应现代化社会经济的发展。案例教
人力资源现代是企业管理的最关键的因素,有效的激励机制是企业实现企业目标的重要保证,有利于提高员工积极性和员工素质。笔者从HR的角度,阐述了激励机制以及激励机制的作用
随着网络技术的不断普及,计算机教育越来越受到人们的重视。当前社会就业压力较大,对专门性技术性人才的要求也越来越高,中职计算机教学既要适应科技发展和社会需求,又要顾及