文本分类中特征提取相关技术研究与实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:cjbin1688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近二十年来,随着科学技术的发展,人们产生和收集数据的能力迅速提高,数据的规模急剧增加,数据的复杂性、异构性、动态性显著提高。传统的统计分析技术已无法满足现代数据处理的要求。人们渴求一种新的工具,能够自动分析和整理庞大和复杂的数据,从中挖掘有价值的信息,为决策提供充分的支持。面对这一要求,文本分类技术应运而生。   文本分类作为处理和组织大量文本数据的关键技术,可以在很大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其重要的意义,并且已成为数据挖掘、信息检索等领域中一个重要的研究方向。   本文主要对特征选取和集成分类器两个方面展开研究。   (1)特征选取。特征选择是一种从数以万维特征词的文本中挑选具有代表性特征词的技术。本文对基于互信息的特征选择技术做了深入全面的研究。为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词-主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。   (2)分类器改进。针对BP神经网络在文本分类中准确率较低和参数设置困难的问题,提出GABP_Adaboost算法。该算法使用Adaboost算法级联多个遗传算法优化的BP神经网络,实现一个无参数的“强”分类器。在20Newgroups语料库上的分类实验显示:GABP_Adaboost算法的准确率比BP神经网络高17.82%,比单个遗传算法优化的BP神经网络高4.64%。   最后,设计了一个文本分类软件包,并使用matlab将其实现。该程序包提供了语料库、文本预处理、文本表示、特征选取、文本分类器等函数接口,并在此基础上实现设计了文本分类系统的可视化界面。
其他文献
随着虚拟现实技术的快速发展和体感交互设备的不断推广,人们越来越倾向于使用自然、方便的方式实现人机交互,尤其是手势交互。因此,虚拟现实系统中手势识别的研究与发展具有
随着计算机技术的不断发展,为满足用户的不同需求,越来越多的软件在各行各业得到了广泛应用,尤其是仿真软件的发展应用;近年来,一些特定领域针对特定需求而开发的仿真软件在实际生
目前,大规模的人类群体活动不断的增多,规模也越来越大,如奥运会、足球世界杯、世博会等世界型的集会,举世瞩目,汇集世界各地大量的人群,大都市的商场、明星的演唱会等也会同一时刻
随着网络的快速发展,网络结构的不断扩大和复杂化,信息的安全问题也日益严峻。如何保障信息安全已经引起政治、经济及社会各界的广泛关注。由于目前防火墙和IDS体系的研究已经
在医学CT中,过大的扫描剂量对被扫描病人是有害的。低剂量扫描的一种有效方法是仅仅扫描稀疏视角下的投影。然而,基于稀疏数据的解析法重建会产生严重的条状伪影,影响诊断。2
软件危机的爆发表明落后的软件生产方式已经无法满足社会和企业对计算机软件新的需求,而构件化软件开发技术被视为解决软件危机的有效方法,如同搭“积木”式组装和开发目标软件
随着信息化社会的发展,网络的不断普及,中文信息处理技术的应用越来越广泛。中文分词技术作为中文信息处理技术的基础,已经成为制约中文信息处理技术发展的一项关键和核心技术。
网格计算作为支持全球化资源共享与协作的关键技术,具有广泛的应用前景。在网格环境中,资源的动态性、异构性、自治性等特点致使网格用户很难获得高质量的服务,网格系统通常
随着分布式应用系统在各领域担当越来越重要的角色,对分布式系统的安全也提出了更高的要求。在分布式系统容灾技术中,本文中对其中担负重要任务的故障检测技术进行了研究。在
图聚类作为从海量数据中发现有用知识的技术引起了人们的广泛关注。目前的聚类方法多是在基于图拓扑结构或基于图节点属性方面进行研究,而在某些实际应用中需要同时考虑图节点