一种中文文本分类方法的研究及实现

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:zpf363188069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本文件是目前各种计算机应用过程产生的输出结果中最为广泛的形式之一,因此在文本文件中蕴含了很多信息。但是当文本文件数目巨大时,尤其是网络的普及,使得通过网络更易产生和获得文件时,人们从文件中获得信息变得更加困难。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,同时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智能搜索引擎、个性化软件助理等领域。 本文在分析了文本分类系统的一般开发过程的基础上,增加了对分类模式的改进,改进了整个文本分类系统的开发过程。在特征建立阶段提出了文本摘要结构,引入了词条在文本不同位置时对文本分类结果的影响。在学习与知识模式提取阶段提出了候选机制,得到候选分类类别列表,使得系统除了提供了最佳分类类别外,还可以提供相似主题类别,即进行模糊分类。同时,还提出了分类模式调整机制,利用了候选分类类别列表中的结果,采取调整算法对分类模式进行循环调整,最终达到分类模式的不断改进。在得出最终分类结果时,还应用了多参数评分机制、验证分类结果方案。其中多参数评分机制通过计算文本之间的相似度值,并结合候选类别、候选名次可以得到一个加权后的最终分类排名,以此确定最后分类类别。而验证分类结果方案,则依据候选分类类别列表,随机从训练文本集中抽取一定数目的文本来验证该列表,使得本系统得出的分类结果并不完全依赖于分类模式。 本文详细论述了上述新概念、新技术,并在此基础上实现了一个文本分类系统,最后还给出了对这些新概念和新技术的实验结果。实验证明,上述新概念、新技术确实对文本分类起到了一定的积极作用。
其他文献
缓冲区溢出攻击是相当普遍并对系统具有致命威胁的一种攻击手段。它危害性大,隐蔽性强,堆溢出是缓冲区溢出最常用的手段之一。应用程序本身代码的不完善是缓冲区溢出的根源,而编
随着网络应用的迅猛发展,网络的安全问题也显得越来越突出。传统的网络入侵检测技术的局限性越来越明显,已经不能适应网络新攻击层出不穷和数据量日益增大的趋势。数据挖掘能
两条曲线间的重合检测是求交算法中的一个重要环节,同时也是提高求交算法稳定性的关键步骤之一。低次(如3,4,5次)Bézier曲线在计算机辅助几何设计(CAGD)中有着的广泛应用。在实
本文主要研究了中文命名实体识别及其关系抽取,设计和实现了一个能识别和抽取人名、地名和机构名的系统CNEE,并通过SRV算法实现了个人主页中的人名和E-mail 的抽取。CNEE 先
随着企业需求的不断扩展以及网络技术的迅猛发展,企业应用开发变得越来越慎重,越来越复杂。为了能够在竞争中处于有利的地位,采用合理的企业应用架构和新技术就成为企业能否有效
二十世纪后期,生物电子学快速兴起,极大地改变了传统医学仪器的研制模式。集成毛细管电泳芯片(ICEC),是生物学、医学、化学、电子学、计算机以及自动化等学科交叉的产物,其在医学
随着“信息大爆炸”时代的到来,应对海量数据的存储和处理问题的云存储技术作为云计算的重要延伸被提出。由于云存储中的存储节点众多,必然会出现存储节点不可得的情况。为确保
本文主要研究了软件需求规格说明的一种验证方法——定理证明技术,研究开发PVS-Z定理证明原型系统。该系统能够对Z规格说明的定理进行证明,从而实现对规格说明的验证。首先,在PV
在真实感图像绘制的研究中有两个主要的发展方向。其一是提高绘制的真实感,真实地再现各种复杂的光照场景。另一个就是在图像质量与计算量之间取得平衡,用尽可能少的计算量得
针对专利信息的应用在科研和专利业务的诸多方面起着重要作用,快速,准确地检索专利信息可以大大提高研究效率、降低经费投入、提高技术研发和专利工作质量。技术决策机构、企