中文文本分类中特征降维方法的研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:fxh722744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了有效地组织和处理海量文本数据,文本挖掘技术越来越受到关注,文本分类是文本挖掘中重要技术之一。基于机器学习的文本自动分类的总体思路大致为:文本预处理;特征降维;文本表示模型构建;分类算法分类;分类模型评估。其中,特征降维是文本分类中的重要步骤,特征降维包括特征选择和特征抽取。文本预处理后,文本变为由词项表示,训练集预处理后即为原始特征空间。该原始特征空间具有稀疏性和高维性,拥有如下问题:首先,训练和分类时间开销大;其次,过多的特征可能会导致“维数灾难”。特征降维,即将数据从高维降低到低维层次。本文针对文本分类中的传统特征选择方法的不足进行了分析,得出文本分类的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计(Document Frequency of Within-class and Between-class and Term Frequency Statistics,DFCTFS)的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。本文提出的DFCTFS特征选择方法与传统特征选择方法一样,基于的假设是词项之间相互独立,通过计算词项和类别之间的特定关系来过滤词项,不考虑文本中词项之间的语义信息,但是,文本中的词语具有隐含语义结构。因此,使用隐含狄利克雷分配模型(Latent Dirichlet Allocation,LDA),对经过DFCTFS特征选择后的特征空间中融入文本词项间的语义关系,实现进一步的特征降维,优化文本与词语间的语义结构。通过基于SVM的中文文本分类实验表明,该方法与DFCTFS特征选择、LDA特征抽取方法相比,在一定程度上提高了文本分类的效果。本文构造了一个中文文本分类系统,并且在该系统中通过上述实验验证了本文所提出的改进的特征降维方法的有效性。
其他文献
本文主要研究分形插值问题(FIP),将递归迭代函数系(RIFS)与全息和局息分形插值方法相结合,给出递归全息和递归局息分形插值方法。引入了具有递归形式的离散数据组,定义了全息
本文采用回流-水热法制备羟基磷灰石纳米花生(HA-NPN),以四水合硝酸钙为钙源、磷酸为磷源、氢氧化钠为沉淀剂及乙醇为模板剂,通过X射线衍射(XRD)及透射电子显微镜(TEM)分析了乙醇模板剂的影响,结合密度泛函理论和热力学理论分析了乙醇为模板剂合成HA-NPN的合成机理,并制备了不同水热时间的HA-NPN,通过X射线衍射(XRD)、傅里叶红外光谱(FT-IR)和紫外-可见分光光度计进行表征测试。
相较于传统原子转移自由基聚合(ATRP)反应机理,Cu(0)调控的可逆失活自由基聚合(RDRP)反应由于涉及三种不同价态铜种(Cu0,CuI和CuII)的相互转化以及不同铜种之间的活化失活平衡使其聚合机理更为复杂。补充活化/还原ATRP(SARA ATRP)和单电子转移活性自由基聚合(SET-LRP)是两种主要的聚合机理,但两种聚合机理相互矛盾并不兼容,其争论点在于不同价态铜种在Cu(0)调控的R
高超声速飞行器推进系统结构复杂,并且推进与控制之间存在着严重的耦合作用,给飞行器的设计,分析以及控制带来了很大的挑战。研究高超声速飞行器推进与控制的相互影响,有助于
目的:甲状腺癌是最常见的内分泌肿瘤,一般最常见的治疗方法就是通过手术切除和放射性碘-131(radioiodine-131,131I)的辅助治疗。但未分化型甲状腺癌(Anaplastic thyroid carci
本文针对现有的系统理论过程分析(System-Theoretic Process Analysis,STPA)方法的不足,进行了如下改进:构建了结构更清晰、包含信息更全面的分层功能控制结构;提出了涵盖信
页岩陶粒混凝土是工程和研究中常用的轻骨料混凝土,它具有隔热保温、自重轻及抗震性能良好等特点,在结构工程中,能有效减轻结构自重,增强其抗震性能。为研究钢筋与页岩陶粒混
起落架导致的飞行事故的多发,其中摆振是一个重要因素。在飞机适航审定中如何考虑起落架摆振问题尚缺少明确的指导性方法,亟需研究相应的适航审定要点和方法。本文采用摆振理
随着汽车速度的不断提高,行车密度的日益增加,荷载的逐渐加重,由于车辆荷载导致的桥梁安全事故屡屡发生。移动荷载识别属于典型的振动第二逆问题,即已知系统和响应求激励。利
近年来,伴随着全球经济的急速发展,世界各国对于能源的需求日益增加,建筑能耗的增长也越来越迅速,节能减排的重要性不言而喻。应用于建筑供暖的太阳能热泵技术在节能减排的社会背景下有着重要的意义。但是太阳能热泵技术在实际应用的过程中也伴随着许多技术难题,例如如何选择太阳能热泵系统的容量,使其更好地满足建筑负荷需求,以及太阳能集热系统如何更好的与热泵系统耦合等。针对以上问题,本文设计了一种带跨季节蓄热的太阳