文本分类中基于CHI和PCA混合特征的降维方法

来源 :重庆邮电大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zhy724458069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息.通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能.
其他文献
基于深度学习的场景文本检测普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用,提出将特征融合和特征金字塔注意力模块应用到场景文本检测.将基本特征提取网络(PixelLink算法)得到的4个特征映射层以采样后加权叠加的方式进行特征融合,并将结果送给特征金字塔注意力模块.特征融合使各层级的特征信息相结合,从而增加了特征映射层的信息量.采用注意力网络可以在增大感受野的同时不提高计算力,而空间金字塔结构可利用不同的网格尺度或不同的扩张率融合多尺度的特征信息.特征金字塔注意力模块包含精细化金字塔网络分支、
该文通过烧结粘土实心砖设计了24组72个三砖砌体标准试件进行双剪粘结滑移试验,进行了不同轴压比、砂浆等级对砖-砂浆界面剪切压力及剪切应变的影响试验,分别得到了砖砌体标准件界面的粘结破坏形态、粘结强度及粘结强度-滑移曲线,给出了砌体粘结强度计算式及块体与砂浆界面抗剪粘结滑移本构模型.基于ABAQUS有限元分析软件建立砖砌体精细化有限元分析模型,分析不同轴压比和砂浆等级对砌块、砂浆界面受剪性能的影响,通过对比分析有限元分析结果与试验实测结果,论证了材料本构模型的适用性及精细化数值分析模型的有效性及合理性.通过
在准静态范围内,对硬质聚氨酯进行了不同应变速率下的拉伸实验,根据应力-应变曲线研究其变形行为及力学性能与应变速率之间的相关性,通过观察试样断口形貌分析其破坏机理,应用Eyring理论对材料的弹性模量和屈服强度与应变速率之间的关系进行拟合.结果表明:在实验范围内,随应变速率增加,材料的弹性模量和屈服强度均呈现快速升高后逐渐趋于稳定的规律并符合Eyring理论的对数关系,而伸长率则显著减小至无明显强迫高弹形变;材料的破坏模式依次由软段大分子链主导过渡到软、硬段协同作用及硬段主导;依据研究结果,测量硬质聚氨酯弹
随着我国建筑业由增量发展逐渐过渡到存量改造,在城市更新中,大量工业文化遗产面临具体改造模式的选择问题,尤其是一批具有较高历史、社会、技术和科学价值的工业文化遗迹,急需根据项目特色选择合适的保护模式,并经由科学的规划设计落实各项具体的改造和保护工作.该文从工业遗产保护和再生角度出发,梳理工业遗产的内涵、保护模式,以我国工业遗产保护的经典案例之一——北京798艺术园区为例,着重从“产业园模式”讨论城市工业文化遗产保护利用中的改造设计问题,并从发展与保护的思辨角度探讨如何通过改造与再生的方式,更好地保护与科学合
由于电子证据存在易篡改、易伪造等问题,电子证据的真实性判定成为证据法理论中的难点之一.针对这一难点问题,基于区块链技术构建一个电子证据分布式存储方案解决传统中心化存储所面临的非法删除与篡改等问题,从而实现电子证据的分布式信任机制.此外,为了防止电子证据在链上共享时泄露给非授权用户,需要对其进行加密操作,同时为了防止证据采集者上传错误数据,需要对其进行认证操作.针对电子证据的保密性与不可否认性需求,提出一个新的多中心环签密方案,对电子证据进行匿名认证与加密操作,防止签名者身份信息泄露及证据数据被非授权用户获
无线区块链网络中存在恶意分叉与非恶意分叉的安全问题,针对非恶意分叉问题,提出了一种新的区分优先级的区块传输策略.该策略决定区块和交易在信道中是立即传输还是排队等待,通过降低区块排队时延来减少非恶意分叉的发生.针对分叉区块造成的系统算力分化问题,提出了一种拒绝服务策略来协助区块传输.区块传输过程是一个排队等待通信节点服务的过程,利用双队列单服务器排队模型对其进行建模,并基于该模型分析所提策略的系统性能.仿真结果表明,该策略能够有效降低区块传输过程中的排队时延,减少非恶意分叉的发生,进而提高系统的安全性.
为了实现低噪声、高线性度、中功率的指标特性,设计了一款基于GaAs pHEMT工艺的2.5~4.3 GHz驱动功率放大器(power amplifier,PA),该PA设计采用共源共栅级驱动共源极放大器的双级放大结构,其中共源共栅级驱动放大器可实现良好的隔离度,采用负反馈技术实现输入阻抗匹配和级间阻抗匹配,选取共源极放大器实现高线性度指标.经过流片加工后,实测结果显示,该PA在2.5~4.3 GHz频段可实现25.5±1 dB小信号增益,可以满足5G无线通信系统中Sub-6G频段的典型驱动功率放大器的指标
目前,多目标跟踪算法仍面临诸多挑战,例如遮挡、快速运动等所造成的影响难以完全规避.为了解决上述问题,提出一种基于马尔科夫决策过程的多目标跟踪算法.该算法将每个目标建模成一个马尔科夫决策过程,通过最大化奖励函数来驱动状态间的转移,并将强化学习训练用于数据关联相似度函数,有效地解决了目标遮挡问题.同时,为了解决物体快速运动导致跟踪算法丢失目标问题,利用超像素建立表观模型,充分考虑历史图像信息,提高跟踪算法的准确性与可靠性.实验评估表明,该跟踪器在公开的MOT15数据集上具有良好的性能.提出的跟踪器在多目标跟踪
电磁轨道角动量(orbital angular momentum,OAM)具有模值相互独立且正交的特性,能用于无线通信中提高频谱效率和通信容量,因而备受关注.针对基于矩形阵列的多输入多输出技术(multiple-input multiple-output,MIMO)不易与基于均匀圆形阵列的OAM复用相结合,以及高模态OAM波的大发散性与高衰减的问题,提出了一种基于大型矩形阵列生成OAM波的方法;为进一步优化矩形阵列的性能和降低复杂度,利用遗传算法实现了阵列稀疏化.仿真结果表明:能在不改变既有主动天线单元的
自然场景文本识别是计算机视觉领域一项极具挑战性的任务,为此提出一种适用于任意方向的自然场景文本识别算法.使用高分辨分割网络作为基础框架提取文本的空间信息,利用卷积长短时记忆网络提取文本的时空序列信息,同时通过设计字符注意机制使模型专注于字符上,并采用可微分二值化函数进一步加大网络对前景的注意力,削弱对背景区域的关注,网络对每个像素点进行37分类,并使用文本转录模块将分类结果按照从左到右的顺序转换成文本.该算法在包括ICDAR2013,ICDAR2003,SVTP,CUTE,IIIT5k的多个标准数据集上进