基于TFIDF文本特征加权方法的改进研究

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户：asdf_1900

【摘要】

：

针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分

【作者】

：

张保富施化吉马素琴

【机构】

：

江苏大学计算机科学与通信工程学院

【出处】

：

计算机应用与软件

【发表日期】

：

2011年2期

【关键词】

：

TFIDF 文本分类特征加权向量空间模型

【基金项目】

：

国家自然科学基金项目(60841003);国家火炬计划项目(2004EB33006)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。

其他文献

《俄罗斯民法典》对“知识产权”概念的立法取舍

俄罗斯新的民法典第四部分第七编是对传统知识产权的专门规定,该编在其国内立法中第一次以法律规范的形式确定知识产权为智力活动成果和个性化标识权的客体,同时规定了＂智力权

期刊

俄罗斯民法典知识产权智力权专有权

电子词典《法语助手》特点及问题简论

《法语助手》是由欧陆软件集团开发的一款法语电子词典，也是目前在国内较为常用的电子词典。本文试图对《法语助手》的性能、优缺点做一番客观评价。

期刊

特点不足电子词典

大陆经济“新常态”下两岸经济“优要素”合作探析

大陆经济步入“新常态”，调结构、促转型、创新经济成长动能，极大拓展了技术、信息、管理等“优要素”需求空间，也为两岸经济合作提供了新的实践场域。本文基于生产要素理论，从推

期刊

“新常态”“优要素”两岸合作模式与路径

学习法语的好工具——“法语助手”

期刊

金山词霸

薛己运用八味丸温补命门考辨

明代医家薛己私淑易水学派,崇尚东垣补土学说,经过多年临证实践,脾肾并重,创立温补学派,八味丸是其最常用的方剂之一。在通读薛氏著作的基础上,肯定薛己敢于创新的精神,并指

期刊

薛己八味丸命门

螺旋CT在肺癌纵隔淋巴结转移诊断中的价值

肺癌是常见的恶性肿瘤之一,预后较差。在影响肺癌预后的诸多因素中,纵隔淋巴结转移是影响肺癌术后患者生存的最重要的因素之一。有资料表明,肺癌无淋巴结转移者(N0)的术后5年

期刊

肺癌淋巴结转移体层摄影术X线计算机

拓展高校新校区建设融资渠道探析

高校新校区建设运用一般融资渠道进行筹集资金存在着很多问题,财政一般预算拨款有限制,财政专户核拨收入非常有限,其他收入呈现不稳定性,科研收入不能挪作他用,附属单位缴款

期刊

高校新校区建设融资渠道拓展

增强国际财务管理课程教学效果的探究

国际财务管理作为多数高校尤其是财经院校开设的专业主干课．其课程设置缘于经济全球化和企业国际化进程的加剧，推进了对国际财务管理专业人才的需求。但在对部分地方财经院校国

期刊

国际财务管理教学效果措施

长丰县饮用水水源地保护措施探讨

通过对长丰县城镇饮用水水源地的基础调查,分析了其存在的水源地富营养化程度高、污染防治力度有待加强、群众对水源地保护意识不够等问题,并结合长丰县具体情况,从水源地保

期刊

饮用水水源地问题保护措施安徽长丰

不同信任结构下约简的证据特征及其一致性

不一致性决策表中广义决策约简与相对约简不完全一致．文中给出划分和覆盖2种信任结构下的广义决策约简和相对约简的概念，研究这2种约简的证据结构特征，分别证明广义决策约简和相

期刊

广义决策约简相对约简广义信任约简信任结构证据特征

基于TFIDF文本特征加权方法的改进研究

其他学术论文