基于松弛策略的文本层次分类体系构建与分类方法研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:rabbitwangli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化信息资源的日益增长,大量的文本数据不断涌现,为了有效的管理和使用这些文本数据,人们提出了文本自动分类技术,它可以处理和组织庞大的非结构化的文本数据,提高文本数据的检索效率。通常的文本分类多采用平面分类方法,当文本数量和类别数量较多时,平面分类方法的分类性能急剧下降,尤其表现在分类时间上。层次分类被用在文本的多类分类任务中,在保证分类准确率基本不受影响的前提下,文本层次分类的分类速度更快。为了进一步提高文本层次分类的准确率,在文本层次结构构建方面,本文提出了基于松弛策略的层次结构构建算法,并且针对层次结构的特点提出了基于松弛策略层次结构的软决策分类算法。另外,本文尝试了将不同的文本特征提取方法应用在层次分类任务中。本文的主要工作包括:(1)层次分类中“阻滞”问题的解决——松弛策略文本层次分类中普遍存在“阻滞”问题,为了进一步提高准确性,缓解“阻滞”问题引起的性能下降问题,本文对文本层次结构构建方法进行研究和改进,提出了基于松弛策略的层次结构构建方法,并在该层次结构上进行文本层次分类。(2)提高层次分类性能——软决策方法利用文本层次方法得到的最终的分类结果并不一定是全局最优的,再加上“阻滞”问题的存在,使得文本层次分类的准确率普遍较低。对此,本文在松弛策略层次结构中使用软决策方法进行文本层次分类,并且针对松弛策略层次结构自身的特点,对层次分类算法进行改进,从而进一步提高了文本层次分类性能。(3)特征选择与特征计算方法的有效运用——最小信息熵理论(LIT)本文对不同的文本特征提取方法进行了尝试,引入了最小信息熵模型LIT(Least Information Theory),考查不同的特征提取方法对文本层次分类算法的适用性。在特征选择方面,引入了最少信息增益LIG(Least Information Gain)进行实验;在特征计算方面,本文引入了最少信息熵理论中的LIB(Least Information Binary)、LIF(Least Information Frequency)、LIB*LIF方法进行实验。实验结果表明,使用本文提出的方法构建出来的文本层次结构更加合理,在该结构上使用软决策方法进行层次分类算法改进后,分类准确性逐步提升,性能优于传统的分类算法。同时,LIT特征选择和特征计算方法的引入能够大幅度提升分类性能。
其他文献
随着物联网时代脚步的临近,嵌入式系统的在网络端的应用与日俱增。然而目前主流的IPv4协议由于其有限的地址位,是无法满足物联网时代海量的地址分配需求。因此采用128位的地址,
软件测试按测试的执行阶段可划分为单元测试、集成测试、系统测试和验收测试。作为软件测试的第一阶段,单元测试只对软件中的最小可测试单元进行检查和验证,相对于其他阶段的
在枪弹外观缺陷检测领域,人工检测方法在测量精度、效率、实时性方面不能满足生产需要,因此,论文提出基于信息融合及图像处理技术的智能检测方法,该方法具有精度高、速度快、生产
随着互联网的飞速发展,网络数据迅速膨胀,信息超载和信息迷航的问题日益突出,用户想要快速地从众多的数据中找到符合自己需求的信息越来越难。为了解决这个问题,研究者们提出