基于差异度量和互信息的文本特征选择算法

来源 :西安邮电大学学报 | 被引量 : 0次 | 上传用户:klyx808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对基于文档频率的特征选择算法易于忽略词频和类别关系的问题,提出一种基于差异度量和互信息的文本特征选择算法。融合归一化差异度量和互信息概念,引入词频信息和特征分布系数,弥补归一化差异度量算法在特征选择过程中忽略词频和特征词与类别之间关系的不足,并增加特征分布系数对其进一步优化。实验结果表明,在不同特征维度下,该算法能够有效提高文本分类准确率。
其他文献
Counterpoint近期发布的一份报告显示,中国智能手机在今年二季度出货量同比下滑了9%,智能手机在存量市场中竞争依然十分激烈。与此同时,消费者关注的焦点也开始发生了变化。
以康美药业财务造假事件为案例,分析为其提供审计服务的正中珠江会计师事务所存在的问题,发现其审计失败原因包括:审计缺乏独立性、审计程序流于形式、审计质量控制机制不健
课改的宗旨是"一切为了学生,为了学生的一切",即要求我们的课堂是生命相遇、心灵相约的地方,是质疑问难的场所,是通过说话和写作探寻真理的天堂。那么作文教学并不是单纯地要