分块主成分分析在文本特征抽取中的应用

来源 :河南科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yishumi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标Fβ=1达到了88.7%,执行时间为353s,能够有效提高文本分类精度与执行效率。
其他文献
【摘 要】丹东市新城区属于丹东、东港同城化的一个重要的建设区域,新城区的建设将使丹东市和东港市连成一片,新城区的房地产项目这几年发展迅猛,各个房地产企业的竞争异常激烈。本文就丹东新城区的房地产营销的优劣势进行分析,希望能给这些企业以帮助。  【关键词】丹东新城区 房地产 优劣势分析  丹东临港产业园区位于鸭绿江入海口,规划范围为东起鸭绿江大桥,西至沙坝河,北至201国道,南至鸭绿江边和黄海岸边,规
结合实际项目介绍了全地下调蓄池工程设计,介绍全地下调蓄池工艺设计部分与结构设计部分,工艺设计包括进水系统、冲洗系统、脱过泵站、放空泵站、冲洗排空泵站等;结构设计包
结合实例,对某矿山企业安全管理进行评价,确定安全管理水平安全等级,并对评价结果进行分析。结果表明:该矿山企业安全管理水平等级为3级,符合其实际生产运营情况。基于可拓模
新兴的高职教育的快速发展,迫切需要加快院系文化的建设.该文叙述了高职院校系部特色文化的概念.对国内现状进行了述评,归纳了系部特色文化的特点、科学内涵、功能和现实意义.并以
通过对节能住宅与一般住宅的成本比较分析,结合目前国内外能源状况和中国已有住宅房屋能耗现状及国家政策法规对节能住宅的建设支持,阐述建设节能住宅的重要意义、建议及未来住
研究了一类带有变号非线性项Kirchhoff方程基态解的存在性。由于非线性项是变号的,相应的Nehari流形不再是一阶连续可微的。因此,利用Nehari流形和单位球面拓扑同胚的性质,将
具备良好的职业道德是当今社会对人才的基本要求.高职院校以培养应用型人才为基本任务,更应注重对学生职业道德的培养.该文分析了目前高职院校学生职业道德教育的现状,并提出