两类仿生学算法在文本分类中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:guhiayan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,用户获取到的信息量不断地增加,其中大部分是文本类型的数据,一种高效地管理并有效地利用这些无序数据的技术—文本挖掘技术在这几十年来逐渐地成为一个热点研究领域,文本分类是该领域中的一个重要研究方向。自从90年代以来,文本分类技术中开始引入统计方法和机器学习方法,以前的基于知识工程的文本自动分类方法逐渐地被取代了,同时也涌现出一大批对文本分类中各关键技术进行深入细致研究的文献,这些研究主要包括在文本预处理、特征选择、文本表示模型、分类方法和分类性能评价等方面。在面对互联网发展带来的海量数据处理的问题时,各种文本处理方法都表现出一定的困难。如数据量大、建立的向量空间模型的特征项的维数大、预处理和计算时间长、数据集中噪声多和分类算法的精度低等问题。本文对文本分类中特征选择方法和分类算法进行了研究。佳点集遗传算法是利用数论中佳点集的理论对遗传算法中的交叉算子重新设计,以导向以高适应度模式为祖先的“家族”方向的随机搜索算法,与遗传算法相比,算法的精度和速度有所提高,避免了早期收敛现象。覆盖算法从几何的角度出发,把输入的样本向量映射到高维的空间球面上,并通过训练以尽可能少的领域覆盖各个类别形成分类网络模型。粒子群算法是一种模拟鸟群迁徙的进化算法,类似于遗传算法,从随机的初始解开始迭代搜索最优解,也用适应度来评价解的品质,但在迭代过程中没有交叉和变异这两个操作,是一种容易实现,精度高,收敛速度快的算法。本文结合佳点集遗传算法在高适应度模式的祖先上搜索更好样本的原则和K近邻算法的简单有效性,提出了基于佳点集遗传算法的特征选择方法;针对覆盖算法具有对高维数据的良好处理能力,但存在分类精度和泛化能力之间的矛盾,本文将覆盖算法和粒子群优化算法相结合,提出一种改进的粒子群优化覆盖算法。最后本文构建了文本分类系统,通过在三组数据上进行实验对比分析,以及F1测量对其性能评估,结果表明本文提出的算法可以有效地提高分类精度和效率。
其他文献
图像和视频作为计算机科学领域的重要研究对象,近年来一直是研究热点。而随着图像和视频处理技术的迅速发展,对图像和视频质量提出了更高的要求,高分辨率图像和视频包含的细
随着嵌入式系统的发展,嵌入式系统已经广泛的应用到科学研究、工业控制、军事技术以及人们的日常生活等各个方面。尤其在实时领域,基于实时的嵌入式操作系统也得到了更多的应
本文在对数字水印算法研究的过程中,发现水印容量、不可见性、稳健性三者很难达到平衡,顾此失彼,影响数字图像在互联网传播的版权认证,从而需要改进数字水印嵌入、检测算法。
Dennis Gabor在1946年提出的Gabor变换在非平稳信号处理中是非常有用的,它克服了传统Fourier变换不能表示一个信号的频率如何随时间变化的缺点。Gabor变换系数揭示了一个信号
随着互联网技术的迅速发展,人们希望越来越多的业务在互联网上进行。但互联网是一个开放的网络,存在各种安全威胁。为了保障用户数据的安全,各种技术应运而生。作为安全技术
纺织工业是我国传统的支柱产业之一,从纺织原料和化纤生产开始,出现了纺纱、织布等生活中常见的纺织品加工形式。但是由于纺织原料本身信息指标繁多,而且生产过程中,纺织原料
文本中含有大量对分类有贡献的信息,能否综合利用这些信息选取一种合理的文本表示方式,是文本分类的难点和关键。单纯的使用传统的向量空间模型VSM(Vector Space Model)表示
随着后PC时代的到来,嵌入式系统在各个领域得到广泛的应用,新型化、智能化的嵌入式系统成为了研究的热点。然而,由于嵌入式系统应用的广泛性以及硬件平台的多样性,严重制约着
节能减排、产品质量和安全追溯等战略,对开放环境下全供应链信息共享提出需求。论文基于课题组前期研究成果——ORFP体系,以离散制造业为背景,研究企业信息服务模型及事件检测方
蛋白质是生物功能的主要体现者和执行者,正是它们之间的相互作用实现了生物体的功能。对蛋白质和蛋白质相互作用的研究,不但有助于蛋白质功能分析、生命活动机制的理解,而且