一种用于大规模文本分类的特征表示方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：chenlinwu

【摘要】

：

随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公

【作者】

：

郝春风王忠民

【机构】

：

北京科技大学计算机系,不详

【出处】

：

计算机工程与应用

【发表日期】

：

2007年15期

【关键词】

：

文本分类向量空间模型 p-idf 支持向量机 text categorization vector space model p-idf Support Vec

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公式为基础,提出了以应用于文本分类为目的的权值改进公式p-idf公式。在比较了贝叶斯、K近邻、神经网络和支持向量机四种典型的文本分类器的基础上,采用支持向量机分类器搭建了一个文本分类试验系统。经过科学的试验比较了tf-idf、p-idf、LTC三种权值公式在文本分类系统中对分类器性能的影响,证实了所提出的p-idf公式的合理性和有效性。

其他文献

《医学综述》征稿通知

期刊

伽玛刀结合穿刺及内放疗治疗血管网状细胞瘤（附24例报道）

目的探讨伽玛刀结合穿刺及内放疗治疗血管网状细胞瘤的可行性.方法自1999年6月至2004年12月采用伽玛刀结合穿刺及内放疗治疗血管网状细胞瘤患者24例.结果14例患者病灶明显缩

期刊

伽玛刀血管网状细胞瘤内放疗Gamma knifeAngiorecticulomas Inner irradiation

网格环境中基于行为的分层实体自主信任模型

在网格环境中，针对不同管理域之间的资源共享和协同，提出了一种基于行为的信任模型，模型采用了分层和实体自主信任的思想．不同层次维护相应的信任表格，并体现出实体动态的主体特性

期刊

网格行为信任分层自主信任grid behavior trust hierarchical self-determined trust

立体定向放射神经外科的一些实验研究概况

尽管立体定向放射神经外科已广泛用于临床,成为神经外科一个重要辅助治疗手段,但仍有许多问题亟待实验证实。本文主要就立体定向放射神经外科对中枢神经系统的影响、神经组织

期刊

立体定向放射神经外科实验研究

近36年果洛地区各气象要素变化趋势分析

利用果洛地区6个气象站1976—2011年逐月气温、降水量、蒸发量、日照时数等资料,探讨了果洛地区气候资源的空间分布和年代纪变化特征。结果表明：果洛地区地域广袤、地形复杂,

期刊

果洛气象要素变化趋势分析

优化产业结构，搞活林业经济，促进农民就业增收

7月24，国家林业局召开了党组扩大会议暨全国林业厅局长电视电话会议，会议的主要任务是：深入学习贯彻中央林业工作会议精神，进一步统一思想认识，认真总结上半年工作。安排部署下半

期刊

产业结构林业经济农民就业林业局局长优化电视电话会议林业工作会议国家林业局

基于网上逆向拍卖的供应链绩效研究

长期以来，拍卖是一种非常流行的获得产品和服务的方法。在供应链环境下研究网上逆向拍卖，通过两个拍卖模型，比较得出这样的结论：如果同时考虑生产成本和运输成本，网上拍卖可以较大

期刊

网上逆向拍卖供应链模型online reverse auctionsupply chainmodel

手指运动相关脑皮层功能区fMRI的研究

脑功能成像运动已广泛应用于影像及神经外科领域的研究。运动皮层在个体内定位稳定，在正常脑内很容易得到证实，因此被广泛用于研究，手运动区已成功用于各运动区外科手术前定位的

期刊

磁共振成像血氧依赖水平手指运动脑皮层功能区

SABS认证矿缆用RS6型CSM护套的配方研究

研究了SABS认证电缆的特点;明确了RS6型CSM护套橡皮的具体性能指标;选择了基体材料与配合剂体系;比较了小试配方并确定中试配方;检测了护套橡皮的性能。结果表明:所研制的CSM护套橡皮其力学性能、工艺性能满足SANS标准的使用及生产要求。

期刊

SABSRS6矿缆CSM配方SABS RS6 mining cable CSM formulation

小脑共济失调的神经干细胞移植治疗进展

目的小脑性共济失调（cerebellar ataxia）是共济失调的最常见类型。传统的治疗方法主要以药物治疗、高压氧治疗、中医治疗、康复治疗，但疗效不佳。随着人们对此类疾病的认识逐渐

期刊

小脑共济失调神经干细胞细胞移植

一种用于大规模文本分类的特征表示方法

与本文相关的学术论文