基于归一化文档频率的文本分类特征选择方法

来源 :华东理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:Hzw_56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更
其他文献
目的:观察抗脑衰胶囊对老年期痴呆患者简易智能状态检查表(MMSE)、老年性痴呆评定量表一认知分量表(ADAS-cog)积分的影响。方法:选将90例本院中风科住院的老年期痴呆患者采用随机数
采用复合酶法浸泡代替亚硫酸来降解蛋白质网,通过纤维素酶、碱性蛋白酶、酸性蛋白酶、菠萝蛋白酶的单因素试验确定了最佳的复合酶组成。
在贵刊第10卷第5期上,看到古兰玉工程师所写《孔道线形复杂预应力损失及力筋伸长量的试验研究》,拜读之后认为:在施工实践中遇到预应力长束在穿过多个反向S弯的孔道中摩阻力过
以中药淡豆豉为原料,采用超声法提取淡豆鼓多糖,硫酸-苯酚法检测总多糖含量。通过透析、醇沉、酶解蛋白、H2O2脱色,并经Sephadex G-100凝胶柱层析进一步纯化,得到多糖组分SPSS和S
浙江在开展个人联合征信实际操作中,能否保护个人隐私权事关个人征信的成败。只有对个人征信的客体进行合理划分与区别对待,对个人征信主体进行法律规制,实行个人征信的全程控制
介绍了渭南电视台全媒体虚拟化演播室的改造方案,虚拟图文和背景大屏幕播出是改造中的主要元素,重点阐述了4个系统的设计,并说明一部分关键制作设备的功能。
<正>主持人语心理班会是中小学心理健康教育发展的一个新趋势,它来源于一线教师的实践探索,班主任有意识地运用心理研究成果进行班级管理,心理健康教师有意识地进行心理健康
针对径向基代理模型技术在近似高维问题时预测性能较差的不足,提出一种基于融合核函数的改进径向基代理模型技术。在拉丁超立方设计抽样不均匀的情况下,通过定义一种辅助函数
采用脂质体转导法将人中性粒细胞防御素 HNP1 c DNA重组真核表达质粒 p Babe- Neo- HNP1 导入无血清培养的人气管粘膜上皮细胞 ;制备 HNP多克隆抗血清 ,用免疫组化法检测防御
成都话有主观量范畴的特殊表达形式,主要用助词&#39;打&#39;和&#39;把&#39;表示.&#39;打&#39;用来表示主观量大,&#39;把&#39;用来表示主观量小.主观量具体表达模式的构成同量