文本分类中基于改进的词语权重算法的研究

来源 :微计算机信息 | 被引量 : 0次 | 上传用户：money2468

【摘要】

：

文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文

【作者】

：

侯艳钗沈西挺

【机构】

：

河北工业大学计算机科学与软件学院

【出处】

：

微计算机信息

【发表日期】

：

2011年6期

【关键词】

：

中文文本特征项 x2统计量 Chinese text feature items x2 statistic

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。

其他文献

特征3有限域上的椭圆曲线算法改进

减少求逆运算次数是快速计算椭圆曲线密码的主要方法之一。若采用逐次累加的方法计算特征3有限域上椭圆曲线标量乘法2kP,需要k次求逆运算。本文根据递推归纳、转换求逆为乘法

期刊

椭圆曲线仿射坐标标量乘法求逆算法elliptic curves affine coordinates scalar multiplication

文本分类中基于改进的词语权重算法的研究

其他学术论文