基于数据挖掘的文本自动分类仿真研究 - 开源共享论文下载平台 - 信丰网

基于数据挖掘的文本自动分类仿真研究

来源 :计算机仿真 | 被引量 : 5次 | 上传用户：jipeng4610190

【摘要】

：

研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性。传统分类方法难以获得高正确率。为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法。利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类。用文

【作者】

：

【机构】

：

乐山师范学院智能信息处理及应用实验室,乐山师范学院计算机科学学院

【出处】

：

计算机仿真

【发表日期】

：

2011年12期

【关键词】

：

文本分类支持向量机特征选择单词聚类 Text categorization Support vector machine（SVM） Feature s

【基金项目】

：

乐山师范学院校级重点项目（Z0908）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性。传统分类方法难以获得高正确率。为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法。利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类。用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率。

其他文献

核电厂堆外中子通量测量系统功率量程探测器老化趋势分析和处理

本文以大亚湾核电基地堆外中子通量测量系统（RPN）20多年的运行和维护经验为基础,以2011年和2016年两起功率量程探测器老化事件的分析处理过程为依据,综合生产厂家（Rolls-Royce公

期刊

中子通量测量功率量程探测器电离室老化标准neutron flux measurementpower range detectorionizatio

转制后科研机构应当如何定位

科研机构企业化转制是社会主义市场经济规律和科技自身发展规律的客观要求,是贯彻落实"创新、产业化"方针,优化科技力量布局和科技资源配置,构建新的技术创新体系的战略选择,

期刊

科研机构企业化转制科技体制改革定位策略

基于CMBUS总线高精度智能温度变送器开发

传统的一体化温度变送器,国内外没有统一的精度表达,在-50~200℃范围内极限测温精度±0.45℃,然而,±0.45℃的测温精度已远远不能满足相关行业对测温精度的要求。因

期刊

现场总线温度变送器CMBUS补偿修正算法fieldbus temperature transmitter SMBUS compensation c

深化科技体制改革，振兴河南交通——前进中的河南省交通科学技术研究院

河南省交通科学技术研究院的前身是河南省交通科学技术研究所,创建于1978年,主要从事交通运输工程的研究、设计、试验、咨询服务和相关产品的开发.

期刊

科技体制改革河南省交通科学技术研究院服务意识人力资源核心竞争力

METRIX趋近式传感器在往复式压缩机上的应用

介绍METRIX趋近式位移测量仪表在压缩机活塞杆下沉量监测中的应用,并对出现的问题原因做详细的分析,并提出解决方案。

期刊

往复式压缩机废气METRIX变送器趋近式传感器reciprocating compressors exhaust gas METRIX tran

其他学术论文