一种基于多特征因子改进的中文文本分类算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:lrdg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的
其他文献
目的分析面部轮廓整形自体颗粒脂肪移植的方法。方法 66例就医者,使用肿胀吸脂术,将皮下脂肪吸出,离心所吸出的自体颗粒脂肪,提纯后超量10%,在面部标记位置均匀注射,多隧道、
生猪生产是农业发展的重要组成部分,促进生猪生产保障市场供应,对保持社会稳定、促进农村经济发展具有十分重要的意义。本文针对当前敦煌市生猪及其产品价格不断上涨,养猪效
介绍了近地表处置设施在300a监护期前及其以后的任何时间,公众个人及闯入者通过各种途径的受照剂量分别小于剂量限值时所要求的低放固体废物核素活度浓度上限值的推导方法及
基层行政事业单位国有资产是我国国有资产中的一部分,在国有资产中占有非常重要的位置,它是使用财政性资金购买,为基层行政事业单位使用的资产。基层行政事业单位国有资产的
为了系统分析某厂高碳轴承钢(GCr15)高频探伤缺陷的形成原因,采用ASPEX自动扫描电镜跟踪了冶炼各环节与缺陷相关类型夹杂物的来源和演变。结果表明,造成高频探伤不合格的主要
“肥胖能增加多种癌症发病率的证据是充分的”,“有很强的证据表明身体活动能减少多种癌症的发生”。10月31日,在中国癌症基金会的主持下,世界癌症研究基金会在北京举行了出版第
报纸
目的了解高陵区3~5岁儿童乳牙患龋情况及相关影响因素,为有效制定儿童乳牙龋病预防及干预措施提供参考。方法采用随机抽样法,在本地区托幼机构中选取300名3~5岁儿童进行口腔
“心”“意”是杨简思想中最核心的范畴。杨简以“不起意”为宗,抛弃了陆九渊“发明本心”之后的修养工夫,只剩下切己自反一节,以自觉为本心。心灵自觉的体验影响于杨简诗歌,