基于KNN的多要素中文文本分类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:holdingmanzsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和日益普及,网络文本信息急剧增长,如何有效的组织和管理这些海量信息,并能够快速、准确、全面地获得用户所需要的信息是当今信息科学技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需要的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等技术基础,文本分类技术的研究具有重要的理论意义和广泛的应用价值。  然而目前大多对文本分类对象还仅是文本内容,而忽略了网络文本的标题、关键字、摘要等信息对文本类别的贡献,如何综合利用这些信息提出高效、准确的分类算法是本文的热点研究内容之一。本文提出了通过KNN算法对文本各要素进行分类,再使用贝叶斯定理综合多分类器,最后通过模拟退火算法协调各要素比重的多要素中文文本分类算法。实验证明该算法能够有效的解决多要素文本分类问题并且与传统的文本分类方法相比有更高的分类准确率。  基于KNN的多要素中文文本分类协调算法主要包括以下三各方面:  基于KNN算法的中文文本分类研究与实现。主要研究了不同特征维数和不同特征选择算法对分类器的影响,不同K值下KNN算法的分类性能。最后根据实验结果,选择最优的特征维数、特征选择算法以及K值对各要素构造分类器,再使用分类器得到测试文本集的类别信息,最后对分类结果进行评估。  提出并实现基于Bayes定理的多分类器协调算法。该算法将Bayes定理运用到多分类器的协调上来,主要根据各分类器的分类结果以及分类器的分类性能,结合Bayes定理重新计算文本分为各个类别的概率。  完成模拟退火算法在多要素文本分类上的应用。由于多要素文本中各个要素对文本类别信息的贡献度互不相同,因此提出将模拟退火算法应用到协调多要素的权重上,并通过实验证明该方法的可行性与有效性。
其他文献
闭环供应链的提出是发展资源节约型和环境友好型社会的必然要求,不少学者对基于再制造的闭环供应链进行了研究,但是,市场环境不断在变化,企业要想在动荡的市场环境中立足,就应顺应
图像质量评价已经从图像处理中分离出来成为一个独立的研究领域。图像信息的最终接受者是人,所以主观方法是可靠的。但需要多次重复实验,费时,难以应用到实际中。客观图像质量评
随着情感识别在自驾游、案件侦破和游戏产业等领域中应用前景和市场价值的凸显,面部表情作为情感识别中的关键,已成为拟人化新型人机交互模式研究中的关键课题之一。本文针对不
随着互联网的飞速发展,各种各样的网络攻击手段层出不穷,网络安全问题面临巨大挑战。对此,企业、组织、研究机构等为保护重要信息和减少经济损失部署了大量的网络安全设备。
随着信息技术的不断发展,因特网上的网页数量日益激增,但是Web页面的复杂程度使得人们很难准确而快速地获取自己所需的信息。为了使人们能够迅速从网络中获取到自己感兴趣的
随着互联网技术的飞速发展,在线社会网络逐渐变得庞大并且结构复杂,所呈现出来的社区结构通常是可重叠的,如何准确有效地发现这些复杂社会网络中的重叠社区结构,是社区发现领
随着网络技术的高速发展,网络带宽不断增加,网络协议层出不穷,对于网络安全需求日益明显。在此环境下对网络流量识别和分类提出需求。网络流量识别可以用来监测网络运行情况
肝脏是新陈代谢的重要器官,内部结构非常复杂,分布着多种复杂的管道系统。由于肝内管道的复杂性及人体肝脏的个体差异,肝脏手术往往伴随着巨大的风险。外科医生需要综合肝脏血管
随着微博、Twitter、Facebook等社交网络的发展,人们越来越多地通过社交网络进行信息互动和信息寻求,在状态域中提问已经成为流行的信息寻求行为之一。直接在社交网络中提问不
图像放缩是图像处理、可视化、计算机图形学和虚拟现实等领域的基本问题,应用背景十分广泛。通过图像放缩改变已有图像的大小,并呈现出较好的视觉效果,是图像处理、模拟仿真