一种用于大规模文本分类的特征表示方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:chenlinwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公式为基础,提出了以应用于文本分类为目的的权值改进公式p-idf公式。在比较了贝叶斯、K近邻、神经网络和支持向量机四种典型的文本分类器的基础上,采用支持向量机分类器搭建了一个文本分类试验系统。经过科学的试验比较了tf-idf、p-idf、LTC三种权值公式在文本分类系统中对分类器性能的影响,证实了所提出的p-idf公式的合理性和有效性。
其他文献
期刊
目的探讨伽玛刀结合穿刺及内放疗治疗血管网状细胞瘤的可行性.方法自1999年6月至2004年12月采用伽玛刀结合穿刺及内放疗治疗血管网状细胞瘤患者24例.结果14例患者病灶明显缩
在网格环境中,针对不同管理域之间的资源共享和协同,提出了一种基于行为的信任模型,模型采用了分层和实体自主信任的思想.不同层次维护相应的信任表格,并体现出实体动态的主体特性
尽管立体定向放射神经外科已广泛用于临床,成为神经外科一个重要辅助治疗手段,但仍有许多问题亟待实验证实。本文主要就立体定向放射神经外科对中枢神经系统的影响、神经组织
利用果洛地区6个气象站1976—2011年逐月气温、降水量、蒸发量、日照时数等资料,探讨了果洛地区气候资源的空间分布和年代纪变化特征。结果表明:果洛地区地域广袤、地形复杂,
7月24,国家林业局召开了党组扩大会议暨全国林业厅局长电视电话会议,会议的主要任务是:深入学习贯彻中央林业工作会议精神,进一步统一思想认识,认真总结上半年工作。安排部署下半
长期以来,拍卖是一种非常流行的获得产品和服务的方法。在供应链环境下研究网上逆向拍卖,通过两个拍卖模型,比较得出这样的结论:如果同时考虑生产成本和运输成本,网上拍卖可以较大
脑功能成像运动已广泛应用于影像及神经外科领域的研究。运动皮层在个体内定位稳定,在正常脑内很容易得到证实,因此被广泛用于研究,手运动区已成功用于各运动区外科手术前定位的
研究了SABS认证电缆的特点;明确了RS6型CSM护套橡皮的具体性能指标;选择了基体材料与配合剂体系;比较了小试配方并确定中试配方;检测了护套橡皮的性能。结果表明:所研制的CSM护套橡皮其力学性能、工艺性能满足SANS标准的使用及生产要求。
目的小脑性共济失调(cerebellar ataxia)是共济失调的最常见类型。传统的治疗方法主要以药物治疗、高压氧治疗、中医治疗、康复治疗,但疗效不佳。随着人们对此类疾病的认识逐渐