基于仿生模式识别的文本分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xhh2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的来临,使得各种电子文本数据急速增加,如何快速、有效的使用与管理这些数据,已经成为信息系统学科迫切需要解决的问题。而文本分类技术是信息处理技术的重要研究方向,它是对大量的自然语言文本按照一定的主题类别进行自动分类。传统的文本分类算法(传统的模式识别方法)都是基于最佳划分的,而仿生模式识别(Biomimetic Pattern Recognition,BPR)是基于“认识”事物,而不是“区分”事物,更符合人类认识事物的本质,因此,本文将仿生模式识别的理论及思想应用在文本分类中,在应用过程中,通过分析互信息公式的不足,提出了一种改进的互信息公式。仿生模式识别是一种不同于传统模式识别的理论方法,它的理论基点是同类样本在特征空间中的连续性理论。它通过对同类样本在高维空间中的最佳覆盖来达到认识样本的目的。本文对仿生模式识别的理论基础、数学模型和实现方式进行了深入的研究与学习,在超香肠神经元网络的基础上,实现了基于文本相似度的神经元生成算法。在基于文本相似度的神经元生成算法的基础上,本文又提出了两种改进方法:通过分析算法生成的训练模型,提出了基于文本相似度与距离相结合的神经元生成算法;通过对仿生模式识别在文本分类预测过程中的研究,提出了基于类别特征属性的改进方法。实验证明,基于文本相似度的神经元生成算法取得了令人满意的结果,提出的两种改进方法在分类性能与分类效率上也都比未改进之前有所提高。
其他文献
DSP技术正迅速应用于通信、电子、计算机等各个领域,尤其在信号处理方面具有独特的优势,用DSP技术来实现信号与系统实验装置对于课程教学、专业发展和工程实践等方面具有十分
为了解决现有Internet面临的高速交换、服务质量(Quality of Service,QoS)保障、网络安全和移动性方面的挑战,四川省网络通信技术重点实验室提出了“单物理层用户数据交换平
颅面形态学通过研究找出人的颅骨和面貌之间的形态关系,为颅骨面貌复原提供科学依据,近年来这方面的研究受到了广泛的关注和重视。本文针对颅面信息提取与三维重建展开研究,
随着新一代互联网——语义Web——研究的不断深入,本体(ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。本体
视频全局运动(摄像机运动)所表现的视频序列之间的时间相关性,较其它视频特征更能表达视频序列的高层语义信息。为了实现动态背景视频的快速分割,如何能够有效快速的得到视频
经过十多年的建设,我国电子政务建设取得了巨大的成就,政府各部门已经有很多的应用系统投入使用。但是这些系统往往采用不同的开发语言以及不同的操作系统平台,导致系统之间信息
学位
学位
随着计算机网络技术的迅猛发展,网络流量的特性随之发生了根本性的变化。近十多年来的大量研究结果表明,网络流量普遍存在自相似、长相关性,这种特性对网络流量建模、性能分
频繁模式挖掘是数据挖掘和知识发现领域的重要研究内容之一,它是指从数据库中挖掘出频繁出现的模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。作为频繁模式挖掘