基于TFIDF的文本分类算法研究

被引量 : 0次 | 上传用户:jonelove0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是数据挖掘领域中重要分支之一,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。随着各种电子形式的文档的数量以指数级的速度增长,有效的信息检索和过滤等应用变得越来越重要和困难。文本分类便是一个有效的解决办法,它已成为一项很有实用价值的技术。 本文对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 首先,将传统的特征权重函数TFIDF应用于特征选择,给出了一种新的基于TFIDF的特征选择方法TDF。采用kNN算法和Naive Bayes算法对新的特征选择方法的性能作了测试。实验结果表明提出的TDF方法具有较好的特征选择效果,能够有效地提高分类精度。 其次,类别信息对于分类有着及其重要的作用。在TFIDF算法中引入类频率因子,给出TFIDFICF分类算法,实验证明类别信息的加入可以有效地改善分类性能,提高分类精度。 再次,基于用未标识文本来扩充训练集的思想,给出了迭代TFIDFICF算法ITFIDFICF。实验结果表明,该算法结合已标识文本,利用未标识文本增量训练分类器,能够通过迭代训练出较高精度的分类器。 最后,改进协同分类算法COT,给出基于TFIDFICF和NB的协同分类算法ICOT。算法通过两种分类器的协同训练利用未标记文档来优化分类器,具有较高的分类精度。
其他文献
本文首先对固相微萃取(SPME)技术进行了综述,对固相微萃取的过程参数优化研究,在样品预处理中的应用,研究展望,理论基础进行了介绍。本实验的工作包括以下几个方面: (1)用微量注射
中医药治疗精液异常56例卢太坤福建省厦门市中医院(厦门361001)精液异常,是导致男性不育的重要原因。凡在5~7天未性交(包括手淫、遗精)而排出的精液量不及3~5ml,超过30分钟不自行液化,每毫升精子量不及
隐喻是什麽?这似乎是个很难给与准确回答的问题。早在亚里士多德时期,隐喻只是被作为一种修辞手段而被许诗人和作家所推崇和喜爱。但是,随着语言学研究的发展与壮大,隐喻也吸引
随着世界对天然气资源需求的不断增加以及常规天然气储量的日益减少,很多国家都将致密砂岩气藏作为重要的后备资源,在一些国家已进行了大规模的勘探开发,并获得了可观的经济和社
刑法第十三条但书的出罪机制研究,作为探究但书的出罪机制和具体构建起出罪模式的文章,主要涉及七部分内容。 第一部分主要介绍了但书的内容;但书的历史渊源;但书和刑法第37条
目的分析28例易发凝血功能紊乱疾病患者的血栓弹力图(thrombelastography,TEG)检测结果参数及图形变化,探讨其在诊治中的应用价值。方法选择28例凝血功能易发紊乱的疾病患者
高三阶段对于学生而言是进行学业冲刺的关键性阶段,在这一阶段中,学生的每一学科都进入到了复习层面。高中数学作为高考的重要内容,对学生的整个高中学习质量起到关键性的作
个性化网络化的信息社会呼唤创新人才,而中学地理教学大多数仍然是讲授式、灌输式,较少让学生主动学习、合作探究、讨论交流等,学生的问题意识、研究意识、信息意识和创新意识相
目的:分析静脉配制中心(PIVAS)初期出现的差错及原因。方法:通过分析某医院静脉配制中心的各类差错及原因,并实施应对措施。结果:内部差错占90.9%,外部差错占9.09%。采取防范
以北京体育大学205名大学生运动员为对象,采用《运动员成人依恋问卷》和《一般生活满意度量表》、《训练比赛满意度量表》探讨了大学生运动员成人依恋的现状、特点及其与生活