基于张量空间模型的中文文本分类

来源 :合肥工业大学学报：自然科学版 | 被引量 : 0次 | 上传用户：wanwan1985

【摘要】

：

针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文

【作者】

：

何伟胡学钢谢飞

【机构】

：

合肥工业大学计算机与信息学院

【出处】

：

合肥工业大学学报：自然科学版

【发表日期】

：

2010年12期

【关键词】

：

文本分类张量空间模型最临近方法 text categorization tensor space model（TSM） k-nearest neighb

【基金项目】

：

国家自然科学基金资助项目（60975034）, 安徽省自然科学基金资助项目（090412044）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。

其他文献

心理护理在手足口病患儿家长护理中的应用效果分析

目的分析心理护理在手足口病患儿家长护理中的应用效果。方法应用随机分组方法将2017年1月至12月我院收治的手足口病患儿的家属100例平均分为两组,每组50例,给予对照组常规护

期刊

心理护理手足口病家长护理应用效果

牧区可持续发展的人口问题研究

本文认为牧区人口与牧区可持续发展存在辩证关系，并就牧区现状指出牧区可持续发展中人口问题是关键。人口数量和质量压力、牧民生产方式是制约牧区可持续发展的重要因素，并针对

期刊

牧区可持续发展人口因素生产方式公共产品

桂西“十二五”时期现代物流业发展的构思

通过分析桂西目前物流业发展的优势和劣势,构思了桂西＂十二五＂时期现代物流发展的十大对策,即：规划、整合桂西资源禀赋,积极引进和发展优势工业、特色农业、现代服务业;加大交通

期刊

桂西“十二五”现代物流发展构思

两次制结提高n~+p型Si太阳电池转换效率的研究

文章提出通过2次恒定源扩散和恒量扩散制作n^＋P型硅太阳电池的新工艺。与常规的一次制结工艺相比，新的扩散方法可以减缓高浓度浅结磷扩对硅表层带来的晶格损伤，所制作的太阳电池

期刊

硅太阳电池磷扩散缺陷复合2次制结silicon solar cell phosphorus diffusion defect complex tw

一种属性选择方法FS-IV的研究

数据挖掘所面对的数据常具有属性冗余、包含噪音等特点,使得更注重训练数据质量的分类模型训练周期变长、精度下降。因此,如何选择有效的属性集以约减数据规模,提高分类模型

期刊

信息值属性选择分类information value（IV） feature selection（FS） classification

积极推进秸秆转化，保障翁牛特旗畜牧业持续发展

翁牛特旗位于内蒙古赤峰市中部科尔沁沙地西缘，地处农牧交错带，属于半农半牧地区，农业较发达，畜牧业发展平稳。年降雨量平均在350mm左右．属于半干旱气候，2012年赤峰大部分地区出现

期刊

翁牛特旗畜牧业秸秆转化持续发展半干旱气候保障年降雨量科尔沁沙地

需求受库存影响的三层供应链的协调模型

文章针对单一制造商、单一销售商、单一运输商组成的三层供应链系统,研究了需求受库存水平影响的供应链协调问题。首先根据制造商主导的Stackelberg对策结构,对供应链成员间

期刊

供应链协调库存影响需求量折扣利润最大化supply chain coordination stock-dependent demand quanti

防除家畜疥螨五招

1喷溴氰菊脂。目前防除家畜疥螨最常用最有效的药物是溴氰菊脂乳剂,使用方法是每100ml乳剂兑水10㎏,在家畜的患部或体表洒,每喷雾治疗一次间隔7—10天时间,再复喷一次,连用2-

期刊

家畜疥螨防除溴氰菊脂乳剂

浅谈加强动物产地检疫提高食品安全保障

动物检疫工作极其重要，关系到人民群众的生命安全和身体健康。随着畜产品流通的增多，动物疫情的传播已成为制约畜牧业发展．影响人们身体健康的重要因素。动物产地检疫工作是畜禽

期刊

动物产地检疫畜禽产品质量安全

基于张量空间模型的中文文本分类

其他学术论文