自动文本分类中权值公式的改进

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lyhl1949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下.通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式.改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度.
其他文献
职业病危害是指对从事职业活动的劳动者可能导致职业病的各种危害。职业病危害因素包括:职业活动中存在的各种有害的化学、物理、生物因素以及在作业过程中产生的其他有害因素
7月12日18时30分,四川省江安县阳春工业园区一企业发生爆燃,事故已造成19人死亡,12人受伤。爆炸看似离我们很遥远,但又经常发生在我们身边。遭遇突然发生的爆炸时,我们可以采取哪
目的 介绍传统中药薏苡的化学成分及药理活性研究概况及展望。方法 以国内外发表的文献为依据 ,对薏苡中发现的多种化学成分及其药理活性进行了综述。结果 传统中药薏苡中
小时候的我个子很小,总是坐在第一排。上课的时候我时刻盯着老师,牢牢捕捉老师嘴里说出来的每一句话。我猜想我那时一定是个表情很丰富的学生,所以每次教了新内容,不用我开口,老师就会从我的脸上读出我听懂了还是没听懂。如果我没有听懂,老师会很自然很主动地重新解释一遍。虽然老师是对着全班同学讲,但我总是觉得其实他是特地为我在重讲。因为有这份感激的心情,我把每一门功课都学得很好。  在所有功课中,我学得最好的是
无论是从纵向层面,与十几年来全国卷、地方卷比较,还是从横向层面与2017年其它单独命题省市的作文题目比较,今年的全国新课标Ⅰ卷作文题目都是极富水准的。题目的水准在题目
通过伯德图直观地得出了直线二级柔性倒立摆系统开环传递函数的增益裕量和相位裕量均不满足规定性要求的结论.继而用频域设计的方法增加一个校正装置,其瞬态响应和稳态精度都
近日,贵港市安全监管局在全市开展为期一年的木材加工和家具制造企业职业病危害专项治理活动。此次职业病危害专项治理行动分为部署、实施、总结三个阶段,安全监管部门将从全面
基于文献(1),给出了一种改进令牌环一位延迟特性的方法,建立了基于该方法令牌环的排队模型,并对其进行了数学解析和特征分析。
针对当前Web应用程序开发面临的问题,分析了开源项目Struts框架技术和Hibernate 对象/关系映射技术,讨论了开发符合MVC2设计模式的应用程序的方法.在综合这些技术的基础上,进